間接提示詞注入和 Google 的 Gemini 多層式防禦策略

本文專供 Google Workspace 管理員參考。Gemini 使用者請參閱其他文章，瞭解使用 Gemini 應用程式或 Workspace 應用程式 (Gmail、文件編輯器、雲端硬碟和 Chat) 中的 Gemini 時，Google 提供哪些保護措施。

間接提示詞注入是生成式 AI 系統中複雜的安全漏洞。本文介紹 Google 全方位的多層式防禦策略，此策略旨在為 Gemini 應用程式和 Gemini in Workspace 應用程式降低安全風險。

在生成式 AI 中，提示詞是什麼？

提示詞是給生成式 AI 模型的指令或輸入內容，用來引導模型輸出。生成式 AI 模型會解讀這些提示詞，並根據從大量資料集學到的模式，生成文字、圖片或程式碼等內容。

間接提示詞注入是 AI 系統中的一種安全漏洞，惡意指令會隱藏在 AI 模型處理的外部資料中。這類並非直接對 AI 提出的指令，目的是在使用者不知情的情況下，操縱系統的行為或輸出內容。

當 AI 系統處理含有內嵌惡意指令的外部資料 (例如網站內容、電子郵件或文件)，就會發生間接提示詞注入式攻擊。系統不知道資料含有這類隱藏或惡意指令，因此會將它們與主要工作一起執行。這可能導致非預期的動作或資訊外洩。

間接提示詞注入會對 AI 系統安全和資料隱私權構成重大威脅，可能導致未經授權人士存取資料、操弄 AI 行為，以及資訊濫用的潛在風險。這項安全漏洞也會降低 AI 的可信度，為網路攻擊開闢途徑，導致傳統安全措施難以偵測及防範。

Google 採用全方位的多層式安全防護措施，可有效防範間接提示詞注入式攻擊，尤其是針對 Gemini 的攻擊。這項策略會根據提示詞生命週期的每個階段，導入專屬的安全防護措施，包括模型強化、特製的機器學習模型，以及系統層級的保護措施。

自從首次部署強化版間接提示詞注入防禦機制以來，多層式保護措施就持續防範了間接提示詞注入式攻擊，並且因應新的攻擊模式。我們持續監控並快速回應，確保能從每次互動中學習，強化防禦能力。

Google 的多層式安全防護措施包括：

提示詞注入內容分類器是第一道防線，會找出並標記可能含有惡意指令的可疑輸入內容。這種分類器會分析提示詞的結構、關鍵字和模式，偵測潛在的注入式攻擊，避免 AI 模型的行為受到影響，並濾除有害內容。

安全思維強化是指訓練 AI 模型在決策過程中，優先考量安全性。這項技術會在提示詞內容前後加入指定的安全指令，提醒 LLM 只執行使用者指示的工作，忽略內容中嵌入的任何攻擊或惡意指令。

如果 Markdown 格式文字藏有潛在的有害程式碼或指令碼元素，Markdown 清理功能會加以移除，避免系統執行。可疑網址遮蓋功能則會找出並遮蓋指向已知惡意網站的連結，防止 AI 系統存取或散播危險內容。這可防止間接提示詞注入，避免格式漏洞遭到利用，或 AI 重新導向至惡意的外部資源。

使用者確認架構會針對敏感的 AI 生成動作或輸出內容，導入明確的核准步驟。在執行可能有害的指令或分享機密資訊前，AI 系統會提示使用者確認意圖。這種人機迴圈 (HITL) 方法可做為最後一項保護措施，防止提示詞注入式攻擊得逞後，執行未經授權或非預期的動作。

如果 AI 系統偵測到或已防範潛在安全性風險，就會向使用者發送安全防範通知。這類警告會清楚說明採取的安全措施，讓使用者瞭解潛在威脅，協助他們做出明智決策。這樣就能藉由協作來處理 AI 安全問題，進而強化信任感，並鼓勵使用者以更安全的方式與 AI 應用程式互動。

如要進一步瞭解 Google 在生成式 AI 威脅發動者、攻擊手法和安全漏洞方面的研究進展，請參閱「Mitigating prompt injection attacks with a layered defense strategy」(運用多層式防禦策略防範提示詞注入式攻擊)。