间接提示注入是生成式 AI 系统中的一种复杂的安全漏洞。本文介绍了 Google 采取的全面分层防御策略,该策略旨在减轻此漏洞对 Gemini 应用以及 Workspace 应用中的 Gemini 的影响。
本页内容
- 在生成式 AI 中,提示是指什么?
- 什么是间接提示注入?
- 间接提示注入是如何运作的?
- 现实中可能发生哪些间接提示注入攻击?
- 为什么要对间接提示注入高度重视?它会带来哪些风险?
- Google 采取什么方法来防止间接提示注入攻击?
- 针对间接提示注入攻击的关键防御层有哪些?
- 提示注入内容分类器是如何运作的?
- 什么是安全思维强化?
- Markdown 清理与可疑网址屏蔽功能如何增强安全性?
- 什么是用户确认框架?
- 为什么最终用户安全缓解措施通知很重要?
在生成式 AI 中,提示是指什么?
提示是指向生成式 AI 模型提供的指令或输入,用于引导模型输出结果。生成式 AI 模型会解读这些提示,并根据从海量数据集中学到的模式来创建文本、图片或代码等内容。
什么是间接提示注入?
间接提示注入是 AI 系统中的一种安全漏洞,其特点是恶意指令被隐藏在 AI 模型处理的外部数据中。这些指令不是用户直接向 AI 发出的。其目的是在用户不知情的情况下,操纵系统的行为或输出。
间接提示注入是如何运作的?
当 AI 系统处理网站内容、邮件或文档等外部数据时,如果数据中包含嵌入式恶意指令,就会发生间接提示注入。系统在不知情的情况下,会将这些隐藏的命令或恶意指令与主要任务一起执行。这可能会导致意外的操作或信息泄露。
现实中可能发生哪些间接提示注入攻击?
- 聊天机器人被劫持 - 一个基于外部数据训练的 AI 聊天机器人,在读取某一网页时被植入了恶意指令,导致其泄露了内部敏感信息。
- 摘要生成器遭入侵 - 一个 AI 系统在总结一份包含隐藏指令的文档时,执行了一项未授权的操作,例如发送了一封邮件。
- 数据渗漏 - 一个 AI 系统在被要求处理一个受感染的文件时,无意中提取了机密数据并将其发送至一个外部目标地址。
为什么要对间接提示注入高度重视?它会带来哪些风险?
间接提示注入对 AI 系统的安全性和数据隐私权构成了严重威胁。这类攻击可能导致未经授权的数据访问、AI 行为操纵和潜在的信息滥用。此漏洞不仅损害了 AI 的可信度,更为网络攻击敞开了缺口,而这些攻击很难通过传统安全措施来检测和防范。
Google 采取什么方法来防止间接提示注入攻击?
为防止间接提示注入攻击,Google 采取全面的分层安全策略,并特别针对 Gemini 进行了强化。此策略为提示生命周期的每一个阶段都设计了相应的安全措施,涵盖从模型安全加固、专用机器学习模型到系统级安全防护的多个层面。
自从首次部署增强版的间接提示注入防御系统以来,我们的分层防护体系不仅持续有效地防止了各类间接提示注入攻击,更能主动适应并应对新型的攻击模式。凭借出色的持续监控和快速响应能力,我们从每一次攻防对抗中汲取经验,不断加固现有防御体系。
针对间接提示注入攻击的关键防御层有哪些?
Google 的分层安全策略包括:
- 提示注入内容分类器 - 一种专有的机器学习模型,专用于检测各种数据格式中的恶意提示和指令。
- 安全思维强化 - 在提示内容周围添加一层针对性的安全指令,用以进行安全加固。这些指令旨在提醒 LLM(大语言模型)执行用户指示的任务,并忽略对抗性指令。
- Markdown 清理与可疑网址屏蔽 - 利用 Google 安全浏览来识别和屏蔽外来图片网址及可疑链接,以防范基于网址的攻击和数据渗漏。
- 用户确认框架 - 一种情境感知系统,对于可能存在风险的操作(例如删除日历活动),会要求用户明确进行确认。
- 最终用户安全缓解措施通知 - 在检测到安全问题并采取缓解措施后,向用户提供的情境信息。这些通知会建议用户查阅专门的帮助中心文章,了解更多详情。
- 模型韧性 - 指 Gemini 模型所具备的对抗鲁棒性,可保护模型免受明确的恶意操纵。
提示注入内容分类器是如何运作的?
提示注入内容分类器可作为初步的防线,识别并标记可能包含恶意指令的可疑输入内容。这些分类器会分析提示的结构、关键字和模式,以检测潜在的注入尝试,防止它们影响 AI 模型的行为,并过滤掉有害内容。
什么是安全思维强化?
安全思维强化是指训练 AI 模型,使其在决策过程中优先考虑安全因素。此技术会在提示内容周围添加一层针对性的安全指令,提醒 LLM 专注于执行用户指示的任务,并忽略嵌入在内容中的任何对抗性或恶意指令。
Markdown 清理与可疑网址屏蔽功能如何增强安全性?
Markdown 清理功能会移除 Markdown 格式文本中隐藏的潜在有害代码或脚本元素,以防止其执行。可疑网址屏蔽功能则会识别并屏蔽指向已知恶意网站的链接,从而阻止 AI 系统访问或传播危险内容。这两项措施相结合,可以防范利用格式化漏洞或将 AI 重定向到恶意外部资源的间接提示注入攻击。
什么是用户确认框架?
对于 AI 生成的敏感操作或输出,用户确认框架引入了一个明确的审批步骤。因此,在执行任何可能有害的命令或共享机密信息之前,AI 系统都会提示用户确认其意图。这种人机协同 (HITL) 策略可作为最后一道防线,防止因提示注入攻击成功而导致未经授权或意外的操作。
为什么最终用户安全缓解措施通知很重要?
当 AI 系统检测到或缓解潜在安全风险后,最终用户安全缓解措施通知会告知用户相关信息。这些提醒可让用户清楚了解我们采取的安全措施,并告知用户潜在威胁,从而帮助他们做出明智的决策。这有助于形成一种协作治理 AI 安全问题的模式,在增强用户信任的同时,也鼓励他们与 AI 应用进行更安全的互动。
其他资源
如需详细了解 Google 在生成式 AI 威胁执行者、攻击技术和漏洞方面的研究与进展,请参阅使用分层防御策略防止提示注入攻击。