間接プロンプト インジェクションに対する Gemini の多層防御戦略

この記事は Google Workspace 管理者を対象としています。ここでは、Gemini アプリ、または Gemini in Workspace アプリ(Gmailドキュメント エディタドライブChat)における Gemini 機能に対する Google の保護策について説明します。

間接プロンプト インジェクションとは、生成 AI システムにおける高度なセキュリティ脆弱性です。この記事では、Gemini アプリと Gemini in Workspace アプリにおいてこの脆弱性を軽減するための、Google の包括的な多層防御戦略について説明します。

このページの内容

生成 AI におけるプロンプトとは

プロンプトとは、出力を導くために生成 AI モデルに与えられる指示や入力のことです。生成 AI モデルは、これらのプロンプトを解釈し、膨大なデータセットから学習したパターンに基づいて、テキスト、画像、コードなどのコンテンツを作成します。

間接プロンプト インジェクションとは

間接プロンプト インジェクションは、AI システムにおけるセキュリティ脆弱性の一種で、外部データに隠された悪意のある指示を AI モデルが処理することによって引き起こされます。これらの指示はユーザーから AI に直接与えられるものではなく、ユーザーが気づかないうちにシステムの動作や出力に影響を与えます。

間接プロンプト インジェクションの仕組み

間接プロンプト インジェクションは、悪意のある指示が埋め込まれている外部データ(ウェブサイトのコンテンツ、メール、ドキュメントなど)を AI システムが処理すると発生します。システムが隠しコマンドや悪意のある指示を認識できずにメインタスクとともにこれらを実行することで、意図しない操作や情報漏洩へとつながる可能性があります。

間接プロンプト インジェクション攻撃の実例

  • chatbot のハイジャック - 外部データでトレーニングされた AI chatbot が、あるウェブページに記載された悪意のある指示を読み込んだことで、機密性の高い内部情報が漏洩した。
  • 要約機能の悪用 - AI システムが隠し指示を含んだドキュメントを要約したことで、メール送信などの不正な操作が実行された。
  • データの引き出し - AI システムが感染したファイルの処理を要求されたことで、機密データが抽出されて外部の宛先に送信された。

間接プロンプト インジェクションが重大な懸念事項である理由と具体的なリスク

間接プロンプト インジェクションは、AI システムのセキュリティとデータ プライバシーに対する重大な脅威であり、不正なデータアクセスや AI の動作の恣意的操作、情報の悪用につながる恐れがあります。従来のセキュリティ対策では検出や防止が困難なサイバー攻撃の経路を作成しかねないこの脆弱性は、AI の信頼性を根底から揺るがすものです。

間接プロンプト インジェクション攻撃を軽減するための Google のアプローチ

Google は、間接プロンプト インジェクション攻撃を軽減するために、特に Gemini において包括的な多層防御のセキュリティ アプローチを採用しています。この戦略では、モデルの強化から専用の機械学習モデルやシステムレベルの保護まで、プロンプトのライフサイクルの各段階に合わせて設計されたセキュリティ対策が導入されています。

強化された間接プロンプト インジェクション防御の最初の導入以来、Google の多層防御は間接プロンプト インジェクションの攻撃を一貫して軽減し、新しい攻撃パターンにも適応してきました。継続的なモニタリングと迅速な対応により、あらゆる操作から継続的に学習し、防御体制を強化しています。

間接プロンプト インジェクションに対する主な防御策

Google の多層防御アプローチの一部をご紹介します。

  • プロンプト インジェクション検出のためのコンテンツ分類 - さまざまなデータ形式内の悪意のあるプロンプトと指示を検出する、独自の機械学習モデル。
  • セキュリティ思考の強化 - プロンプト コンテンツの前後に追加される、対象を絞ったセキュリティ指示。この指示を組み込むことで、LLM(大規模言語モデル)に、ユーザーが意図したタスクを実行し、敵対的な指示は無視するよう促します。
  • マークダウンのサニタイズと不審な URL の除去 - Google セーフ ブラウジングを使用して外部画像 URL と不審なリンクを特定して除去し、URL ベースの攻撃とデータの引き出しを防ぎます。
  • ユーザー確認フレームワーク - カレンダーの予定の削除など、潜在的にリスクの高い操作に対して、ユーザーの明示的な確認を求めるコンテキスト システム。
  • エンドユーザー向けセキュリティ対策通知 - セキュリティの問題を検出し、それに対処した際、経緯や状況に関する情報をユーザーに提供。また、これらの通知を通じて、専用のヘルプセンター記事で詳細を確認するようユーザーを促します。
  • モデルのレジリエンス - 攻撃者に対する Gemini モデルの堅牢性。明示的な悪意のある操作からモデル自身を保護します。

プロンプト インジェクション検出のためのコンテンツ分類の仕組み

プロンプト インジェクション検出のためのコンテンツ分類は、悪意のある指示が含まれている可能性のある不審な入力を特定してフラグを設定することで、初期防御として機能します。これらの分類は、プロンプト内の構造、キーワード、パターンを分析して、AI モデルの動作に影響を与える可能性のあるインジェクション攻撃を検出し、有害なコンテンツをフィルタします。

セキュリティ思考の強化とは

セキュリティ思考の強化とは、意思決定プロセスにおいて、セキュリティ上の考慮事項を優先するよう AI モデルをトレーニングすることです。この手法では、プロンプト コンテンツの前後にターゲットを絞ったセキュリティ指示を追加し、この指示によって、ユーザーが意図するタスクに集中し、コンテンツに埋め込まれた敵対的または悪意のある指示は無視するよう LLM に促します。

マークダウンのサニタイズと不審な URL の除去によるセキュリティ強化の仕組み

マークダウンのサニタイズでは、マークダウン形式のテキストに隠されている有害なコードやスクリプト要素を削除して、実行されないようにします。不審な URL の除去では、既知の悪意のあるウェブサイトを指すリンクを特定してマスクし、AI システムが危険なコンテンツにアクセスしたり、そのようなコンテンツを拡散したりすることを防ぎます。これにより、書式設定の脆弱性を悪用したり、AI を悪意のある外部リソースにリダイレクトしたりする間接プロンプト インジェクションを防ぐことができます。

ユーザー確認フレームワークとは

ユーザー確認フレームワークでは、機密性の高い AI 生成アクションや出力に対して AI システムがユーザーの意図を確認するという明示的な承認ステップを導入することで、有害な可能性のあるコマンドの実行や機密情報の共有を防ぎます。この人間参加型(HITL)アプローチは、プロンプト インジェクション攻撃の成功によって発生する不正な操作や意図しない操作に対する最終的な保護手段として機能します。

エンドユーザー向けセキュリティ対策通知が重要な理由

エンドユーザー向けセキュリティ対策通知は、AI システム内で潜在的なセキュリティ リスクを検出し、それに対処した際に、ユーザーに送られます。アラートを通じて実施済みのセキュリティ対策を可視化し、潜在的な脅威に関する知識を共有することで、ユーザー自身が状況を正しく理解し適切な判断を下せるようになります。これにより、チームが一体となって AI セキュリティに取り組む土壌が育まれ、信頼の強化につながるとともに、AI アプリケーションとのより安全なやり取りが促進されます。

参考情報

生成 AI の脅威アクター、攻撃手法、脆弱性への取り組みに関する Google の進歩と研究の詳細については、多層防御戦略でプロンプト インジェクション攻撃を軽減するをご覧ください。