Indirecte promptinjecties en de meerlaagse verdedigingsstrategie van Google voor Gemini

Dit artikel is bedoeld voor Google Workspace-beheerders. Gemini-gebruikers: Ontdek hoe Google u beschermt als u de Gemini-app of Gemini in Workspace-apps gebruikt: Gmail, Editors van Documenten, Drive en Chat.

Indirecte promptinjecties zijn een geavanceerde beveiligingskwetsbaarheid in generatieve AI-systemen. In dit artikel leggen we de uitgebreide, meerlaagse verdedigingsstrategie van Google uit om deze kwetsbaarheid in de Gemini-app en Gemini in Workspace-apps te beperken.

Op deze pagina

Wat is een prompt in de context van generatieve AI?

Een prompt is een instructie of invoer die aan een generatief AI-model wordt gegeven om de uitvoer van de AI te sturen. Generatieve AI-modellen interpreteren deze prompts om content te maken, zoals tekst, afbeeldingen of code, op basis van patronen die ze hebben geleerd van enorme datasets.

Wat is een indirecte promptinjectie?

Een indirecte promptinjectie is een type beveiligingskwetsbaarheid in AI-systemen waarbij schadelijke instructies zijn verborgen in externe gegevens die het AI-model verwerkt. Deze instructies worden niet rechtstreeks door de gebruiker aan AI gegeven. Het doel is om het gedrag of de uitvoer van het systeem te manipuleren zonder dat de gebruiker hier expliciet van op de hoogte is.

Hoe werken indirecte promptinjecties?

Er is sprake van een indirecte promptinjectie als een AI-systeem externe gegevens verwerkt, zoals websitecontent, e-mails of documenten, die ingesloten schadelijke instructies bevatten. Het systeem is niet op de hoogte van de verborgen opdrachten of schadelijke instructies en voert deze tegelijkertijd uit met de primaire taak. Dit kan leiden tot onbedoelde acties of bekendmaking van gegevens.

Wat zijn praktische voorbeelden van code-injectieaanvallen met indirecte prompts?

  • Gehackte chatbot: een AI-chatbot die is getraind op externe gegevens krijgt een schadelijke instructie op een webpagina, waardoor de chatbot gevoelige interne informatie vrijgeeft.
  • Gehackte summarizer: een AI-systeem vat een document samen dat verborgen instructies bevat en voert een ongeautoriseerde actie uit, zoals een e-mail sturen.
  • Gegevensonderschepping: een AI-systeem wordt gevraagd om een geïnfecteerd bestand te verwerken en haalt onbedoeld vertrouwelijke gegevens op en stuurt deze naar een externe bestemming.

Waarom zijn indirecte promptinjecties een groot probleem? Wat is het risico?

Indirecte promptinjecties vormen een grote bedreiging voor de beveiliging van AI-systemen en de privacy van gegevens. Ze kunnen leiden tot ongeautoriseerde toegang tot gegevens, manipulatie van AI-gedrag en mogelijk misbruik van informatie. Deze kwetsbaarheid ondermijnt de betrouwbaarheid van AI en biedt mogelijkheden voor cyberaanvallen die moeilijk te detecteren en te voorkomen zijn met traditionele beveiligingsmaatregelen.

Wat is de aanpak van Google om code-injectieaanvallen met indirecte prompts te beperken?

Google gebruikt een uitgebreide, meerlaagse beveiligingsaanpak om code-injectieaanvallen met indirecte prompts te beperken, met name voor Gemini. Deze strategie biedt beveiligingsmaatregelen die zijn ontworpen voor elke fase van de levenscyclus van de prompt, van modelversterking tot speciaal gebouwde machinelearning-modellen en beveiligingen op systeemniveau.

Sinds de eerste implementatie van onze verbeterde verdediging tegen indirecte promptinjectie hebben onze meerlaagse beveiligingen pogingen tot indirecte promptinjectie consequent verminderd en is de beveiliging aangepast aan nieuwe aanvalspatronen. Dankzij onze continue controle en snelle reactiemogelijkheden leren we voortdurend van elke interactie en versterken we onze verdediging.

Wat zijn de belangrijkste verdedigingslagen tegen indirecte promptinjecties?

De meerlaagse beveiligingsaanpak van Google omvat:

  • Contentclassificaties voor promptinjecties: eigen machinelearning-modellen die schadelijke prompts en instructies detecteren in verschillende gegevensindelingen.
  • Versterking van beveiligingsbegrip: gerichte beveiligingsinstructies die worden toegevoegd rond de promptcontent. Deze instructies herinneren het LLM (large language model, groot taalmodel) eraan de door de gebruiker gerichte taak uit te voeren en schadelijke instructies te negeren.
  • Markdown opschonen en verdachte URL's verbergen: externe afbeeldings-URL's en verdachte links identificeren en verbergen met Google Safe Browsing om op URL gebaseerde aanvallen en gegevensonderschepping te voorkomen.
  • Framework voor gebruikersbevestiging: een contextueel systeem dat expliciete gebruikersbevestiging vereist voor potentieel risicovolle bewerkingen, zoals het verwijderen van agenda-afspraken.
  • Meldingen over beveiligingsmaatregelen voor eindgebruikers: contextuele informatie die aan gebruikers wordt verstrekt als er beveiligingsproblemen worden gedetecteerd en aangepakt. Deze meldingen moedigen gebruikers aan om meer informatie te vinden in relevante Helpcentrum-artikelen.
  • Modelweerbaarheid: de robuustheid van Gemini-modellen tegen aanvallen, wat ze beschermt tegen expliciete schadelijke manipulatie.

Hoe werken contentclassificaties voor promptinjectie?

Contentclassificaties voor promptinjectie vormen de eerste verdediging door verdachte invoer die schadelijke instructies kan bevatten te identificeren en deze te markeren. Deze classificaties analyseren de structuur, zoekwoorden en patronen in prompts om mogelijke injectiepogingen te detecteren voordat ze het gedrag van het AI-model kunnen beïnvloeden en filteren schadelijke content weg.

Wat is versterking van beveiligingsbegrip?

Voor versterking van beveiligingsbegrip worden AI-modellen getraind om beveiligingsoverwegingen prioriteit te geven in hun besluitvormingsprocessen. Deze techniek voegt gerichte beveiligingsinstructies toe aan de promptcontent om het LLM eraan te herinneren zich te blijven richten op de door de gebruiker gestuurde taak en alle schadelijke instructies die in de content zijn ingesloten te negeren.

Hoe zorgt het opschonen van markdown en het verbergen van verdachte URL's voor verbeterde beveiliging?

Door markdown op te schonen worden mogelijk schadelijke verborgen code- of scriptelementen verwijderd uit tekst die is opgemaakt met markdown. Zo kunnen deze prompts niet uitgevoerd worden. Door verdachte URL's te verbergen, worden links die naar bekende schadelijke websites leiden, geïdentificeerd en gemaskeerd. Zo krijgt het AI-systeem geen toegang tot gevaarlijke content en kan het deze content niet verspreiden. Zo worden indirecte promptinjecties voorkomen die misbruik maken van indelingkwetsbaarheden of die AI omleiden naar schadelijke externe bronnen.

Wat is het framework voor gebruikersbevestiging?

Het framework voor gebruikersbevestiging introduceert een expliciete goedkeuringsstap voor gevoelige AI-gegenereerde acties of uitvoer. Voordat het AI-systeem potentieel schadelijke opdrachten uitvoert of vertrouwelijke informatie deelt, vraagt het de gebruiker om de intentie te bevestigen. Deze HITL-aanpak (human-in-the-loop) fungeert als laatste beveiligingsmaatregel tegen ongeautoriseerde of onbedoelde acties als gevolg van een geslaagde code-injectieaanval met prompts.

Waarom zijn meldingen over beveiligingsmaatregelen voor eindgebruikers belangrijk?

Meldingen over beveiligingsmaatregelen voor eindgebruikers informeren gebruikers als er een mogelijk beveiligingsrisico is gedetecteerd of aangepakt in een AI-systeem. Deze waarschuwingen bieden transparantie over de genomen beveiligingsmaatregelen en informeren gebruikers over mogelijke bedreigingen, zodat ze weloverwogen beslissingen kunnen nemen. Dit bevordert een samenwerkingsgerichte benadering van AI-beveiliging, versterkt het vertrouwen en moedigt veiligere interactie met AI-apps aan.

Aanvullende bronnen

Ga naar Code-injectieaanvallen met prompts beperken met een meerlaagse verdedigingsstrategie voor meer informatie over de voortgang en het onderzoek van Google naar gevaren, aanvalstechnieken en kwetsbaarheden rondom generatieve AI.