Injeksi perintah tidak langsung & strategi pertahanan berlapis Google untuk Gemini

Artikel ini ditujukan untuk administrator Google Workspace. Pengguna Gemini: Pelajari cara Google melindungi Anda saat Anda menggunakan aplikasi Gemini atau aplikasi Gemini di Workspace: Gmail, Editor Dokumen, Drive, dan Chat.

Injeksi perintah tidak langsung merupakan salah satu bentuk kerentanan keamanan canggih dalam sistem AI generatif. Artikel ini menguraikan strategi pertahanan berlapis dan komprehensif dari Google untuk memitigasi kerentanan ini di dalam aplikasi Gemini dan aplikasi Gemini di Workspace.

Di halaman ini

Apa itu perintah dalam konteks AI generatif?

Perintah adalah petunjuk atau input yang diberikan kepada model AI generatif untuk memandu outputnya. Model AI generatif menafsirkan perintah ini untuk membuat konten (seperti teks, gambar, atau kode) berdasarkan pola yang dipelajari dari set data yang sangat besar.

Apa itu injeksi perintah tidak langsung?

Injeksi perintah tidak langsung merupakan salah satu jenis kerentanan keamanan dalam sistem AI, yang berisi petunjuk berbahaya yang tersembunyi di dalam data eksternal yang diproses oleh model AI. Petunjuk ini tidak diberikan langsung oleh pengguna kepada AI. Tujuannya adalah untuk memanipulasi perilaku atau output sistem tanpa sepengetahuan pengguna.

Bagaimana cara kerja injeksi perintah tidak langsung?

Injeksi perintah tidak langsung beroperasi saat sistem AI memproses data eksternal (seperti konten situs, email, atau dokumen) yang berisi petunjuk berbahaya tersemat. Sistem, yang tidak mengetahui adanya perintah tersembunyi atau petunjuk berbahaya, memprosesnya bersama dengan tugas utama. Hal ini dapat menimbulkan tindakan atau pengungkapan informasi yang tidak diinginkan.

Apa saja contoh nyata serangan injeksi perintah tidak langsung?

  • Pembajakan chatbot—Chatbot AI yang dilatih menggunakan data eksternal diisi dengan petunjuk berbahaya di halaman web, sehingga memicu pengungkapan informasi internal sensitif.
  • Perusak perangkum—Sistem AI meringkas dokumen yang berisi petunjuk tersembunyi dan melakukan tindakan yang tidak sah, seperti mengirim email.
  • Pemindahan data yang tidak sah—Sistem AI diminta untuk memproses file yang terinfeksi dan secara tidak sengaja mengekstrak serta mengirimkan data rahasia ke tujuan eksternal.

Mengapa injeksi perintah tidak langsung menjadi masalah yang signifikan? Apa risikonya?

Injeksi perintah tidak langsung menimbulkan ancaman yang signifikan terhadap keamanan sistem AI dan privasi data. Serangan ini dapat memicu akses data yang tidak sah, manipulasi perilaku AI, serta potensi penyalahgunaan informasi. Kerentanan ini merusak kredibilitas AI dengan menciptakan jalur serangan cyber yang sulit dideteksi dan dicegah melalui tindakan keamanan konvensional.

Apa pendekatan Google untuk memitigasi serangan injeksi perintah tidak langsung?

Google menerapkan pendekatan keamanan berlapis yang komprehensif untuk memitigasi serangan injeksi perintah tidak langsung, terutama terhadap Gemini. Strategi ini mencakup langkah-langkah keamanan yang dirancang untuk setiap tahapan siklus proses perintah, mulai dari hardening model hingga perlindungan tingkat sistem dan model machine learning yang dirancang khusus.

Sejak pertahanan tingkat lanjut terhadap serangan injeksi perintah tidak langsung ini di-deploy, perlindungan berlapis kami telah berhasil memitigasi percobaan injeksi perintah tidak langsung secara konsisten dan beradaptasi terhadap pola serangan baru. Melalui kemampuan pemantauan berkelanjutan dan respons yang cepat, kami terus belajar dari setiap interaksi untuk memperkuat pertahanan kami.

Apa saja lapisan pertahanan utama terhadap serangan injeksi perintah tidak langsung?

Pendekatan keamanan berlapis Google mencakup:

  • Pengklasifikasi konten injeksi perintah—Model machine learning eksklusif yang mendeteksi perintah dan petunjuk berbahaya dalam berbagai format data.
  • Pembelajaran penalaran keamanan—Petunjuk keamanan yang ditargetkan yang ditambahkan di sekitar konten perintah. Petunjuk ini berfungsi untuk mengingatkan LLM (model bahasa besar) agar melakukan tugas yang diberikan oleh pengguna dan mengabaikan petunjuk yang bertentangan.
  • Sanitasi markdown dan penyamaran URL mencurigakan—Mengidentifikasi dan menyamarkan URL gambar eksternal dan link mencurigakan menggunakan Google Safe Browsing untuk mencegah serangan berbasis URL dan pemindahan data yang tidak sah.
  • Framework konfirmasi pengguna—Sistem kontekstual yang mewajibkan konfirmasi eksplisit dari pengguna untuk operasi yang mungkin berisiko, seperti menghapus acara kalender.
  • Notifikasi mitigasi keamanan pengguna akhir—Informasi kontekstual yang diberikan kepada pengguna saat masalah keamanan terdeteksi dan dimitigasi. Dengan notifikasi ini, pengguna dapat mempelajari informasinya lebih lanjut melalui artikel pusat bantuan khusus.
  • Ketahanan model—Ketahanan model Gemini terhadap serangan berbahaya, yang melindungi model dari manipulasi berbahaya yang eksplisit.

Bagaimana cara kerja pengklasifikasi konten injeksi perintah?

Pengklasifikasi konten injeksi perintah berfungsi sebagai pertahanan awal dengan cara mengidentifikasi dan menandai input mencurigakan yang mungkin berisi petunjuk berbahaya. Pengklasifikasi ini menganalisis struktur, kata kunci, dan pola dalam perintah untuk mendeteksi potensi upaya injeksi dengan memfilter konten berbahaya sebelum memengaruhi perilaku model AI.

Apa itu pembelajaran penalaran keamanan?

Pembelajaran penalaran keamanan meliputi pelatihan model AI untuk memprioritaskan pertimbangan keamanan dalam proses pengambilan keputusannya. Teknik ini menambahkan petunjuk keamanan yang ditargetkan di sekitar konten perintah untuk mengingatkan LLM agar tetap berfokus pada tugas yang diberikan oleh pengguna dan mengabaikan petunjuk yang bertentangan atau berbahaya yang tersemat dalam konten.

Bagaimana cara sanitasi markdown dan penyamaran URL mencurigakan meningkatkan keamanan?

Sanitasi markdown menghapus kode atau elemen skrip yang mungkin berbahaya yang tersembunyi dalam teks berformat markdown untuk mencegah eksekusinya. Penyamaran URL mencurigakan mengidentifikasi dan menyamarkan link yang mengarah ke situs berbahaya yang diketahui, sehingga menghentikan sistem AI mengakses atau menyebarkan konten berbahaya. Hal ini berguna untuk mencegah injeksi perintah tidak langsung yang mengeksploitasi kerentanan pemformatan atau mengarahkan AI ke referensi eksternal yang berbahaya.

Apa itu framework konfirmasi pengguna?

Framework konfirmasi pengguna menghadirkan langkah persetujuan eksplisit untuk tindakan atau output sensitif yang dihasilkan AI. Sebelum menjalankan perintah yang berpotensi berbahaya atau membagikan informasi rahasia, sistem AI akan menampilkan prompt kepada pengguna untuk mengonfirmasi maksud mereka. Pendekatan human-in-the-loop (HITL) ini berfungsi sebagai langkah pengamanan terakhir terhadap tindakan tidak sah atau tidak diinginkan yang disebabkan oleh serangan injeksi perintah yang berhasil.

Mengapa notifikasi mitigasi keamanan pengguna akhir itu penting?

Dengan notifikasi mitigasi keamanan pengguna akhir, pengguna akan menerima informasi ketika potensi risiko keamanan terdeteksi atau dimitigasi dalam sistem AI. Notifikasi ini memberikan transparansi seputar tindakan keamanan yang dilakukan serta memberi tahu pengguna adanya potensi ancaman, sehingga membantu mereka membuat keputusan yang lebih tepat. Hal ini akan mengembangkan pendekatan kolaboratif terhadap keamanan AI, serta meningkatkan rasa percaya dan interaksi yang lebih aman di aplikasi AI.

Referensi lainnya

Untuk mengetahui informasi selengkapnya tentang progres dan riset Google terkait pelaku ancaman, teknik serangan, dan kerentanan AI generatif, buka Memitigasi serangan injeksi perintah dengan strategi pertahanan berlapis.