Indirekte Prompt Injections und die mehrstufige Verteidigungsstrategie von Google für Gemini

Dieser Artikel richtet sich an Google Workspace-Administratoren. Gemini-Nutzer: Hier erfahren Sie, wie Google Sie bei der Verwendung der Gemini App oder von Gemini in Workspace-Apps wie Gmail, Docs-Editoren, Drive und Chat schützt.

Indirekte Prompt Injections sind eine ausgeklügelte Methode, eine Sicherheitslücke in generativen KI-Systemen auszunutzen. In diesem Artikel wird die umfassende, mehrstufige Verteidigungsstrategie von Google zur Eindämmung dieser Sicherheitslücke in der Gemini App und in Gemini in Workspace-Apps erläutert.

Themen in diesem Hilfeartikel

Was ist ein Prompt im Kontext von generativer KI?
Was ist eine indirekte Prompt Injection?
Wie funktionieren indirekte Prompt Injections?
Welche Beispiele für indirekte Prompt-Injection-Angriffe gibt es in der Praxis?
Warum stellen indirekte Prompt Injections ein großes Problem dar? Welches Risiko besteht?
Welchen Ansatz verfolgt Google, um indirekte Prompt-Injection-Angriffe zu minimieren?
Was sind die wichtigsten Schutzstufen gegen indirekte Prompt Injections?
Wie funktionieren Contentklassifikatoren für Prompt Injections?
Was ist mit der Verstärkung des Sicherheitsgedankens gemeint?
Wie wird die Sicherheit durch die Bereinigung von Markdown und die Entfernung verdächtiger URLs verbessert?
Was ist das Framework zur Nutzerbestätigung?
Warum sind Benachrichtigungen zu Sicherheitsmaßnahmen für Endnutzer wichtig?

Was ist ein Prompt im Kontext von generativer KI?

Ein Prompt ist eine Anweisung oder Eingabe, die einem generativen KI-Modell gegeben wird, um seine Ausgabe zu steuern. Generative KI-Modelle interpretieren diese Prompts, um Inhalte wie Text, Bilder oder Code zu erstellen. Dabei orientieren sie sich an Mustern, die aus riesigen Datensätzen gelernt wurden.

Was ist eine indirekte Prompt Injection?

Eine indirekte Prompt Injection ist eine Art Sicherheitslücke in KI-Systemen, bei der schädliche Anweisungen in externen Daten verborgen sind, die vom KI-Modell verarbeitet werden. Diese Anweisungen werden nicht direkt vom Nutzer an die KI weitergegeben. Ziel ist es, das Verhalten oder die Ausgabe des Systems zu manipulieren, ohne dass der Nutzer dies erfährt.

Wie funktionieren indirekte Prompt Injections?

Indirekte Prompt Injections erfolgen, wenn ein KI-System externe Daten mit eingebetteten schädlichen Anweisungen verarbeitet, z. B. Websiteinhalte, E‑Mails oder Dokumente. Das System erkennt die verborgenen Befehle oder schädlichen Anweisungen nicht als solche und führt sie zusammen mit der primären Aufgabe aus. Dies kann zu unbeabsichtigten Aktionen oder zur Offenlegung von Informationen führen.

Welche Beispiele für indirekte Prompt-Injection-Angriffe gibt es in der Praxis?

Chatbot kompromittiert: Ein KI-Chatbot, der mit externen Daten trainiert wurde, erhält auf einer Webseite eine schädliche Anweisung, die dazu führt, dass vertrauliche interne Informationen preisgegeben werden.
Summarizer manipuliert: Ein KI-System fasst ein Dokument mit verborgenen Anweisungen zusammen und führt eine nicht autorisierte Aktion aus, z. B. das Senden einer E‑Mail.
Daten-Exfiltration: Ein KI-System wird aufgefordert, eine infizierte Datei zu verarbeiten, und extrahiert und sendet unabsichtlich vertrauliche Daten an ein externes Ziel.

Warum stellen indirekte Prompt Injections ein großes Problem dar? Welches Risiko besteht?

Indirekte Prompt Injections stellen eine erhebliche Bedrohung für die Sicherheit von KI-Systemen und den Datenschutz dar. Sie können zu unbefugtem Datenzugriff, Manipulationen des KI-Verhaltens und potenziellem Missbrauch von Informationen führen. Diese Sicherheitslücke untergräbt die Vertrauenswürdigkeit von KI und schafft Möglichkeiten für Cyberangriffe, die mit herkömmlichen Sicherheitsmaßnahmen nur schwer zu erkennen und zu verhindern sind.

Welchen Ansatz verfolgt Google, um indirekte Prompt-Injection-Angriffe zu minimieren?

Google setzt auf einen umfassenden, mehrstufigen Sicherheitsansatz, um indirekte Prompt-Injection-Angriffe zu minimieren, insbesondere bei Gemini. Diese Strategie umfasst Sicherheitsmaßnahmen, die für die einzelnen Phasen des Prompt-Lebenszyklus entwickelt wurden, von der Verbesserung des Modells über speziell entwickelte Modelle für maschinelles Lernen bis hin zu Sicherheitsvorkehrungen auf Systemebene.

Seit der ersten Bereitstellung unserer verbesserten Mechanismen zum Schutz vor indirekten Prompt Injections haben unsere mehrstufigen Schutzmaßnahmen Versuche von indirekten Prompt Injections konsequent abgewehrt und sich an neue Angriffsmuster angepasst. Durch kontinuierliches Monitoring und eine schnelle Reaktion lernen sie aus jeder Interaktion und verbessern fortlaufend unsere Abwehrmechanismen.

Was sind die wichtigsten Schutzstufen gegen indirekte Prompt Injections?

Der mehrstufige Sicherheitsansatz von Google umfasst:

Contentklassifikatoren für Prompt-Injection-Inhalte: Proprietäre Modelle für maschinelles Lernen, die schädliche Prompts und Anweisungen in verschiedenen Datenformaten erkennen.
Priorisierung des Nutzer-Prompts: Gezielte Sicherheitsanweisungen, die das LLM (Large Language Model) anweisen, die vom Nutzer vorgegebene Aufgabe auszuführen und bösartige Anweisungen aus verarbeiteten Inhalten zu ignorieren.
Markdown-Bereinigung und Entfernung verdächtiger URLs: URLs von externen Bildern und verdächtige Links werden mithilfe von Google Safe Browsing erkannt und entfernt, um URL-basierte Angriffe und Daten-Exfiltration zu verhindern.
Framework für Nutzerbestätigung: Ein kontextbezogenes System, das für potenziell riskante Vorgänge wie das Löschen von Kalenderterminen eine explizite Nutzerbestätigung einfordert.
Benachrichtigungen zu Sicherheitsmaßnahmen für Endnutzer: Kontextbezogene Informationen, die Nutzer erhalten, wenn Sicherheitsprobleme erkannt und behoben werden. Diese Benachrichtigungen sollen Nutzer dazu anregen, sich in den entsprechenden Hilfeartikeln weiter zu informieren.
Modellresilienz: Die Robustheit von Gemini-Modellen bei bösartigen Angriffen, die diese vor expliziten schädlichen Manipulationen schützt.

Wie funktionieren Contentklassifikatoren für Prompt Injections?

Contentklassifikatoren für Prompt-Injection-Inhalte dienen als erste Schutzstufe, indem sie verdächtige Eingaben, die möglicherweise schädliche Anweisungen enthalten, identifizieren und entsprechend kennzeichnen. Diese Klassifikatoren analysieren die Struktur, Keywords und Muster in Prompts, um potenzielle Injection-Angriffe zu erkennen, bevor sie sich auf das Verhalten des KI-Modells auswirken können. Schädliche Inhalte werden herausgefiltert.

Was ist mit der Verstärkung des Sicherheitsgedankens gemeint?

Bei der Verstärkung des Sicherheitsgedankens werden KI-Modelle so trainiert, dass sie den Sicherheitsaspekten in Entscheidungsprozessen Priorität einräumen. Bei dieser Methode werden dem Prompt gezielte Sicherheitsanweisungen hinzugefügt, die das LLM daran erinnern, sich auf die vom Nutzer vorgegebene Aufgabe zu konzentrieren und alle feindseligen oder schädlichen Anweisungen zu ignorieren, die in den Inhalten enthalten sind.

Wie wird die Sicherheit durch die Bereinigung von Markdown und die Entfernung verdächtiger URLs verbessert?

Bei der Markdown-Bereinigung werden potenziell schädliche Code- oder Scripting-Elemente, die in Markdown-formatiertem Text verborgen sind, entfernt, um ihre Ausführung zu verhindern. Bei der Entfernung verdächtiger URLs werden Links zu bekannten schädlichen Websites identifiziert und maskiert. So wird verhindert, dass das KI-System auf gefährliche Inhalte zugreift oder diese weitergibt. Dadurch werden indirekte Prompt Injections verhindert, bei denen Formatierungssicherheitslücken ausgenutzt werden oder durch die KI zu schädlichen externen Ressourcen umgeleitet wird.

Was ist das Framework zur Nutzerbestätigung?

Das Framework zur Nutzerbestätigung führt einen expliziten Genehmigungsschritt für vertrauliche KI-generierte Aktionen oder Ausgaben ein. Bevor potenziell schädliche Befehle ausgeführt oder vertrauliche Informationen weitergegeben werden, fordert das KI-System den Nutzer auf, das Vorhaben zu bestätigen. Dieser HITL-Ansatz (Human in the Loop) dient als letzte Absicherung gegen unbefugte oder unbeabsichtigte Aktionen, die sich aus einem erfolgreichen Prompt-Injection-Angriff ergeben.

Warum sind Benachrichtigungen zu Sicherheitsmaßnahmen für Endnutzer wichtig?

Benachrichtigungen zu Sicherheitsmaßnahmen für Endnutzer informieren Nutzer, wenn in einem KI-System ein potenzielles Sicherheitsrisiko erkannt oder behoben wurde. Diese Benachrichtigungen sorgen für Transparenz hinsichtlich der ergriffenen Sicherheitsmaßnahmen und informieren Nutzer über potenzielle Bedrohungen, damit sie fundierte Entscheidungen treffen können. Dies fördert einen gemeinschaftlichen Ansatz für mehr Sicherheit von KI-Anwendungen, stärkt das Vertrauen und unterstützt eine bewusstere Interaktion mit KI-Anwendungen.

Weitere Informationen

Weitere Informationen zu den Fortschritten und der Forschung von Google zu generativen KI-Bedrohungsakteuren, Angriffstechniken und Sicherheitslücken finden Sie unter Mitigating prompt injection attacks with a layered defense strategy.

Indirekte Prompt Injections und die mehrstufige Verteidigungsstrategie von Google für Gemini Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.