間接提示詞注入是生成式 AI 系統中複雜的安全漏洞。本文介紹 Google 全方位的多層式防禦策略,此策略旨在為 Gemini 應用程式和 Gemini in Workspace 應用程式降低安全風險。
本頁內容
- 在生成式 AI 中,提示詞是什麼?
- 什麼是間接提示詞注入?
- 間接提示詞注入如何運作?
- 有哪些間接提示詞注入式攻擊的實際案例?
- 為什麼間接提示詞注入是重大問題?有什麼風險?
- Google 如何防範間接提示詞注入式攻擊?
- 防範間接提示詞注入式攻擊的主要防禦層有哪些?
- 提示詞注入內容分類器如何運作?
- 什麼是安全思維強化?
- Markdown 清理和可疑網址遮蓋功能如何提升安全性?
- 什麼是使用者確認架構?
- 為什麼使用者安全防範通知十分重要?
在生成式 AI 中,提示詞是什麼?
提示詞是給生成式 AI 模型的指令或輸入內容,用來引導模型輸出。生成式 AI 模型會解讀這些提示詞,並根據從大量資料集學到的模式,生成文字、圖片或程式碼等內容。
什麼是間接提示詞注入?
間接提示詞注入是 AI 系統中的一種安全漏洞,惡意指令會隱藏在 AI 模型處理的外部資料中。這類並非直接對 AI 提出的指令,目的是在使用者不知情的情況下,操縱系統的行為或輸出內容。
間接提示詞注入如何運作?
當 AI 系統處理含有內嵌惡意指令的外部資料 (例如網站內容、電子郵件或文件),就會發生間接提示詞注入式攻擊。系統不知道資料含有這類隱藏或惡意指令,因此會將它們與主要工作一起執行。這可能導致非預期的動作或資訊外洩。
有哪些間接提示詞注入式攻擊的實際案例?
- 聊天機器人遭駭:以外部資料訓練的 AI 聊天機器人收到網頁上的惡意指令,進而揭露內部機密資訊。
- 摘要工具遭駭:AI 系統歸納文件重點時遇到文件中隱藏的指令,便執行未經授權的動作,例如傳送電子郵件。
- 資料竊取:AI 系統收到指令處理受感染的檔案,因此不慎擷取機密資料並傳送至外部目的地。
為什麼間接提示詞注入是重大問題?有什麼風險?
間接提示詞注入會對 AI 系統安全和資料隱私權構成重大威脅,可能導致未經授權人士存取資料、操弄 AI 行為,以及資訊濫用的潛在風險。這項安全漏洞也會降低 AI 的可信度,為網路攻擊開闢途徑,導致傳統安全措施難以偵測及防範。
Google 如何防範間接提示詞注入式攻擊?
Google 採用全方位的多層式安全防護措施,可有效防範間接提示詞注入式攻擊,尤其是針對 Gemini 的攻擊。這項策略會根據提示詞生命週期的每個階段,導入專屬的安全防護措施,包括模型強化、特製的機器學習模型,以及系統層級的保護措施。
自從首次部署強化版間接提示詞注入防禦機制以來,多層式保護措施就持續防範了間接提示詞注入式攻擊,並且因應新的攻擊模式。我們持續監控並快速回應,確保能從每次互動中學習,強化防禦能力。
防範間接提示詞注入式攻擊的主要防禦層有哪些?
Google 的多層式安全防護措施包括:
- 提示詞注入內容分類器:專屬機器學習模型,可偵測各種資料格式中的惡意提示詞和指令。
- 安全思維強化:在提示詞前後加入指定的安全指令,會提醒 LLM (大型語言模型) 執行使用者指示的任務,忽略攻擊指令。
- Markdown 清理和可疑網址遮蓋:使用 Google 安全瀏覽找出並遮蓋外部圖片網址與可疑連結,防止網址型攻擊和資料竊取。
- 使用者確認架構:這項情境式系統會要求使用者清楚確認可能具有風險的操作,例如刪除日曆活動。
- 使用者安全防範通知:偵測到安全性問題並加以防範時,向使用者提供相關背景資訊。這類通知會建議使用者閱讀說明中心的專屬文章,瞭解詳情。
- 模型韌性:Gemini 模型穩健可靠,能對抗惡意攻擊,防範明顯的惡意操弄。
提示詞注入內容分類器如何運作?
提示詞注入內容分類器是第一道防線,會找出並標記可能含有惡意指令的可疑輸入內容。這種分類器會分析提示詞的結構、關鍵字和模式,偵測潛在的注入式攻擊,避免 AI 模型的行為受到影響,並濾除有害內容。
什麼是安全思維強化?
安全思維強化是指訓練 AI 模型在決策過程中,優先考量安全性。這項技術會在提示詞內容前後加入指定的安全指令,提醒 LLM 只執行使用者指示的工作,忽略內容中嵌入的任何攻擊或惡意指令。
Markdown 清理和可疑網址遮蓋功能如何提升安全性?
如果 Markdown 格式文字藏有潛在的有害程式碼或指令碼元素,Markdown 清理功能會加以移除,避免系統執行。可疑網址遮蓋功能則會找出並遮蓋指向已知惡意網站的連結,防止 AI 系統存取或散播危險內容。這可防止間接提示詞注入,避免格式漏洞遭到利用,或 AI 重新導向至惡意的外部資源。
什麼是使用者確認架構?
使用者確認架構會針對敏感的 AI 生成動作或輸出內容,導入明確的核准步驟。在執行可能有害的指令或分享機密資訊前,AI 系統會提示使用者確認意圖。這種人機迴圈 (HITL) 方法可做為最後一項保護措施,防止提示詞注入式攻擊得逞後,執行未經授權或非預期的動作。
為什麼使用者安全防範通知十分重要?
如果 AI 系統偵測到或已防範潛在安全性風險,就會向使用者發送安全防範通知。這類警告會清楚說明採取的安全措施,讓使用者瞭解潛在威脅,協助他們做出明智決策。這樣就能藉由協作來處理 AI 安全問題,進而強化信任感,並鼓勵使用者以更安全的方式與 AI 應用程式互動。
其他資源
如要進一步瞭解 Google 在生成式 AI 威脅發動者、攻擊手法和安全漏洞方面的研究進展,請參閱「Mitigating prompt injection attacks with a layered defense strategy」(運用多層式防禦策略防範提示詞注入式攻擊)。