間接提示詞注入和 Google 的 Gemini 多層式防禦策略

本文專供 Google Workspace 管理員參考。Gemini 使用者請參閱其他文章,瞭解使用 Gemini 應用程式或 Workspace 應用程式 (Gmail文件編輯器雲端硬碟Chat) 中的 Gemini 時,Google 提供哪些保護措施。

間接提示詞注入是生成式 AI 系統中複雜的安全漏洞。本文介紹 Google 全方位的多層式防禦策略,此策略旨在為 Gemini 應用程式和 Gemini in Workspace 應用程式降低安全風險。

本頁內容

在生成式 AI 中,提示詞是什麼?

提示詞是給生成式 AI 模型的指令或輸入內容,用來引導模型輸出。生成式 AI 模型會解讀這些提示詞,並根據從大量資料集學到的模式,生成文字、圖片或程式碼等內容。

什麼是間接提示詞注入?

間接提示詞注入是 AI 系統中的一種安全漏洞,惡意指令會隱藏在 AI 模型處理的外部資料中。這類並非直接對 AI 提出的指令,目的是在使用者不知情的情況下,操縱系統的行為或輸出內容。

間接提示詞注入如何運作?

當 AI 系統處理含有內嵌惡意指令的外部資料 (例如網站內容、電子郵件或文件),就會發生間接提示詞注入式攻擊。系統不知道資料含有這類隱藏或惡意指令,因此會將它們與主要工作一起執行。這可能導致非預期的動作或資訊外洩。

有哪些間接提示詞注入式攻擊的實際案例?

  • 聊天機器人遭駭:以外部資料訓練的 AI 聊天機器人收到網頁上的惡意指令,進而揭露內部機密資訊。
  • 摘要工具遭駭:AI 系統歸納文件重點時遇到文件中隱藏的指令,便執行未經授權的動作,例如傳送電子郵件。
  • 資料竊取:AI 系統收到指令處理受感染的檔案,因此不慎擷取機密資料並傳送至外部目的地。

為什麼間接提示詞注入是重大問題?有什麼風險?

間接提示詞注入會對 AI 系統安全和資料隱私權構成重大威脅,可能導致未經授權人士存取資料、操弄 AI 行為,以及資訊濫用的潛在風險。這項安全漏洞也會降低 AI 的可信度,為網路攻擊開闢途徑,導致傳統安全措施難以偵測及防範。

Google 如何防範間接提示詞注入式攻擊?

Google 採用全方位的多層式安全防護措施,可有效防範間接提示詞注入式攻擊,尤其是針對 Gemini 的攻擊。這項策略會根據提示詞生命週期的每個階段,導入專屬的安全防護措施,包括模型強化、特製的機器學習模型,以及系統層級的保護措施。

自從首次部署強化版間接提示詞注入防禦機制以來,多層式保護措施就持續防範了間接提示詞注入式攻擊,並且因應新的攻擊模式。我們持續監控並快速回應,確保能從每次互動中學習,強化防禦能力。

防範間接提示詞注入式攻擊的主要防禦層有哪些?

Google 的多層式安全防護措施包括:

  • 提示詞注入內容分類器:專屬機器學習模型,可偵測各種資料格式中的惡意提示詞和指令。
  • 安全思維強化:在提示詞前後加入指定的安全指令,會提醒 LLM (大型語言模型) 執行使用者指示的任務,忽略攻擊指令。
  • Markdown 清理和可疑網址遮蓋:使用 Google 安全瀏覽找出並遮蓋外部圖片網址與可疑連結,防止網址型攻擊和資料竊取。
  • 使用者確認架構:這項情境式系統會要求使用者清楚確認可能具有風險的操作,例如刪除日曆活動。
  • 使用者安全防範通知:偵測到安全性問題並加以防範時,向使用者提供相關背景資訊。這類通知會建議使用者閱讀說明中心的專屬文章,瞭解詳情。
  • 模型韌性:Gemini 模型穩健可靠,能對抗惡意攻擊,防範明顯的惡意操弄。

提示詞注入內容分類器如何運作?

提示詞注入內容分類器是第一道防線,會找出並標記可能含有惡意指令的可疑輸入內容。這種分類器會分析提示詞的結構、關鍵字和模式,偵測潛在的注入式攻擊,避免 AI 模型的行為受到影響,並濾除有害內容。

什麼是安全思維強化?

安全思維強化是指訓練 AI 模型在決策過程中,優先考量安全性。這項技術會在提示詞內容前後加入指定的安全指令,提醒 LLM 只執行使用者指示的工作,忽略內容中嵌入的任何攻擊或惡意指令。

Markdown 清理和可疑網址遮蓋功能如何提升安全性?

如果 Markdown 格式文字藏有潛在的有害程式碼或指令碼元素,Markdown 清理功能會加以移除,避免系統執行。可疑網址遮蓋功能則會找出並遮蓋指向已知惡意網站的連結,防止 AI 系統存取或散播危險內容。這可防止間接提示詞注入,避免格式漏洞遭到利用,或 AI 重新導向至惡意的外部資源。

什麼是使用者確認架構?

使用者確認架構會針對敏感的 AI 生成動作或輸出內容,導入明確的核准步驟。在執行可能有害的指令或分享機密資訊前,AI 系統會提示使用者確認意圖。這種人機迴圈 (HITL) 方法可做為最後一項保護措施,防止提示詞注入式攻擊得逞後,執行未經授權或非預期的動作。

為什麼使用者安全防範通知十分重要?

如果 AI 系統偵測到或已防範潛在安全性風險,就會向使用者發送安全防範通知。這類警告會清楚說明採取的安全措施,讓使用者瞭解潛在威脅,協助他們做出明智決策。這樣就能藉由協作來處理 AI 安全問題,進而強化信任感,並鼓勵使用者以更安全的方式與 AI 應用程式互動。

其他資源

如要進一步瞭解 Google 在生成式 AI 威脅發動者、攻擊手法和安全漏洞方面的研究進展,請參閱「Mitigating prompt injection attacks with a layered defense strategy」(運用多層式防禦策略防範提示詞注入式攻擊)。