间接提示注入与 Google 针对 Gemini 的分层防御策略

本文供 Google Workspace 管理员参考。Gemini 用户：建议您了解在使用 Gemini 应用或者使用 Workspace 应用（Gmail、Google 文档编辑器、Google 云端硬盘和 Google Chat）中的 Gemini 时，Google 如何为您提供保护。

间接提示注入是生成式 AI 系统中的一种复杂的安全漏洞。本文介绍了 Google 采取的全面分层防御策略，该策略旨在减轻此漏洞对 Gemini 应用以及 Workspace 应用中的 Gemini 的影响。

在生成式 AI 中，提示是指什么？

提示是指向生成式 AI 模型提供的指令或输入，用于引导模型输出结果。生成式 AI 模型会解读这些提示，并根据从海量数据集中学到的模式来创建文本、图片或代码等内容。

间接提示注入是 AI 系统中的一种安全漏洞，其特点是恶意指令被隐藏在 AI 模型处理的外部数据中。这些指令不是用户直接向 AI 发出的。其目的是在用户不知情的情况下，操纵系统的行为或输出。

当 AI 系统处理网站内容、邮件或文档等外部数据时，如果数据中包含嵌入式恶意指令，就会发生间接提示注入。系统在不知情的情况下，会将这些隐藏的命令或恶意指令与主要任务一起执行。这可能会导致意外的操作或信息泄露。

间接提示注入对 AI 系统的安全性和数据隐私权构成了严重威胁。这类攻击可能导致未经授权的数据访问、AI 行为操纵和潜在的信息滥用。此漏洞不仅损害了 AI 的可信度，更为网络攻击敞开了缺口，而这些攻击很难通过传统安全措施来检测和防范。

为防止间接提示注入攻击，Google 采取全面的分层安全策略，并特别针对 Gemini 进行了强化。此策略为提示生命周期的每一个阶段都设计了相应的安全措施，涵盖从模型安全加固、专用机器学习模型到系统级安全防护的多个层面。

自从首次部署增强版的间接提示注入防御系统以来，我们的分层防护体系不仅持续有效地防止了各类间接提示注入攻击，更能主动适应并应对新型的攻击模式。凭借出色的持续监控和快速响应能力，我们从每一次攻防对抗中汲取经验，不断加固现有防御体系。

Google 的分层安全策略包括：

提示注入内容分类器 - 一种专有的机器学习模型，专用于检测各种数据格式中的恶意提示和指令。
安全思维强化 - 在提示内容周围添加一层针对性的安全指令，用以进行安全加固。这些指令旨在提醒 LLM（大语言模型）执行用户指示的任务，并忽略对抗性指令。
Markdown 清理与可疑网址屏蔽 - 利用 Google 安全浏览来识别和屏蔽外来图片网址及可疑链接，以防范基于网址的攻击和数据渗漏。
用户确认框架 - 一种情境感知系统，对于可能存在风险的操作（例如删除日历活动），会要求用户明确进行确认。
最终用户安全缓解措施通知 - 在检测到安全问题并采取缓解措施后，向用户提供的情境信息。这些通知会建议用户查阅专门的帮助中心文章，了解更多详情。
模型韧性 - 指 Gemini 模型所具备的对抗鲁棒性，可保护模型免受明确的恶意操纵。

提示注入内容分类器可作为初步的防线，识别并标记可能包含恶意指令的可疑输入内容。这些分类器会分析提示的结构、关键字和模式，以检测潜在的注入尝试，防止它们影响 AI 模型的行为，并过滤掉有害内容。

安全思维强化是指训练 AI 模型，使其在决策过程中优先考虑安全因素。此技术会在提示内容周围添加一层针对性的安全指令，提醒 LLM 专注于执行用户指示的任务，并忽略嵌入在内容中的任何对抗性或恶意指令。

Markdown 清理功能会移除 Markdown 格式文本中隐藏的潜在有害代码或脚本元素，以防止其执行。可疑网址屏蔽功能则会识别并屏蔽指向已知恶意网站的链接，从而阻止 AI 系统访问或传播危险内容。这两项措施相结合，可以防范利用格式化漏洞或将 AI 重定向到恶意外部资源的间接提示注入攻击。

对于 AI 生成的敏感操作或输出，用户确认框架引入了一个明确的审批步骤。因此，在执行任何可能有害的命令或共享机密信息之前，AI 系统都会提示用户确认其意图。这种人机协同 (HITL) 策略可作为最后一道防线，防止因提示注入攻击成功而导致未经授权或意外的操作。

当 AI 系统检测到或缓解潜在安全风险后，最终用户安全缓解措施通知会告知用户相关信息。这些提醒可让用户清楚了解我们采取的安全措施，并告知用户潜在威胁，从而帮助他们做出明智的决策。这有助于形成一种协作治理 AI 安全问题的模式，在增强用户信任的同时，也鼓励他们与 AI 应用进行更安全的互动。

如需详细了解 Google 在生成式 AI 威胁执行者、攻击技术和漏洞方面的研究与进展，请参阅使用分层防御策略防止提示注入攻击。