Indirekta promptinjektioner är en sofistikerad säkerhetsbrist i system med generativ AI. I den här artikeln beskriver vi Googles omfattande försvarsstrategi med flera skyddslager för att minska denna risken i Gemini-appen och i Gemini i Workspace-apparna.
På den här sidan
- Vad är en prompt i samband med generativ AI?
- Vad är en indirekt promptinjektion?
- Hur fungerar indirekta promptinjektioner?
- Vad finns det för exempel i verkligheten på indirekta injektionsattacker?
- Varför är indirekta promptinjektioner ett stort problem? Vad är risken?
- Hur hanterar Google indirekta injektionsattacker?
- Vilka är de viktigaste skyddslagren mot indirekta promptinjektioner?
- Hur fungerar innehållsklassificerare för promptinjektion?
- Vad är förstärkt säkerhetstänkande?
- Hur förbättrar markdownrensning och redigering av misstänkta webbadresser säkerheten?
- Vad är ramverket för användarbekräftelse?
- Varför är säkerhetshanteringsaviseringar för slutanvändare viktiga?
Vad är en prompt i samband med generativ AI?
En prompt är en instruktion eller indata som ges till en generativ AI-modell för att styra dess utdata. Generativa AI-modeller tolkar dessa promptar för att skapa innehåll, till exempel text, bilder eller kod, baserat på mönster som de har lärt sig från stora dataset.
Vad är en indirekt promptinjektion?
Indirekt promptinjektion är en typ av säkerhetsbrist i AI-system där skadliga instruktioner döljs i extern data som AI-modellen behandlar. Användaren ger inte dessa anvisningar direkt till AI. Målet är att manipulera systemets beteende eller utdata utan användarens uttryckliga vetskap.
Hur fungerar indirekta promptinjektioner?
Indirekta promptinjektioner fungerar när ett AI-system behandlar extern data, till exempel webbplatsinnehåll, e-post eller dokument, som innehåller inbäddade skadliga instruktioner. Systemet är inte medvetet om de dolda kommandona eller skadliga instruktionerna och kör dem tillsammans med den primära uppgiften. Det här kan leda till oavsiktliga åtgärder eller att information avslöjas.
Vad finns det för exempel i verkligheten på indirekta injektionsattacker?
- Chatbot kapad: En AI-chatbot som har lärts in på extern data får en skadlig instruktion på en webbsida, vilket gör att den avslöjar känslig intern information.
- Summarizer utsatt för intrång: Ett AI-system sammanfattar ett dokument som innehåller dolda instruktioner och utför en obehörig åtgärd, till exempel att skicka ett e-postmeddelande.
- Datastöld: Ett AI-system ombeds att behandla en infekterad fil och extraherar och skickar oavsiktligt konfidentiell data till en extern destination.
Varför är indirekta promptinjektioner ett stort problem? Vad är risken?
Indirekta promptinjektioner utgör ett betydande hot mot säkerhet och dataintegritet i AI-system. De kan leda till obehörig dataåtkomst, manipulering av AI-beteende och potentiellt missbruk av information. Sårbarheten undergräver AI-systement tillförlitlighet och skapar vägar för cyberattacker som är svåra att upptäcka och förhindra med vanliga säkerhetsåtgärder.
Hur hanterar Google indirekta injektionsattacker?
Google använder en omfattande säkerhetsmetod i flera lager för att minska risken för indirekta promptinjektionsattacker, särskilt med Gemini. Strategin inför säkerhetsåtgärder utformade för varje steg i promptlivscykeln, från modellhärdande till specialbyggda maskininlärningsmodeller och skydd på systemnivå.
Sedan den första implementeringen av vårt förbättrade skydd mot indirekt promptinjektion har våra skydd med flera lager konsekvent förhindrat försök till indirekt promptinjektion och anpassats till nya attackmönster. Löpande övervakning och snabba svar säkerställer att vi kontinuerligt lär oss av varje interaktion och stärker vårt försvar.
Vilka är de viktigaste skyddslagren mot indirekta promptinjektioner?
Googles strategi för säkerhet i flera lager omfattar
- Innehållsklassificerare för promptinjektion: Egna maskininlärningsmodeller som identifierar skadliga promptar och instruktioner i olika dataformat.
- Förstärkt säkerhetstänkande: Riktade säkerhetsanvisningar som läggs till runt promptinnehållet. Dessa anvisningar påminner LLM (stor språkmodell) om att utföra den användarstyrda uppgiften och ignorera fientliga instruktioner.
- Markdownrensning och redigering av misstänkta webbadresser: Identifiera och redigera externa bildwebbadresser och misstänkta länkar med Google Säker webbsökning för att förhindra webbadressbaserade angrepp och datastöld.
- Ramverk för användarbekräftelse: Ett sammanhangsbaserat system som kräver uttrycklig användarbekräftelse för potentiellt riskabla åtgärder, som till exempel att radera kalenderhändelser.
- Aviseringar om åtgärder för att minska säkerhetsrisker för slutanvändare: Säkerhetshanteringsaviseringar för användare när säkerhetsproblem upptäcks och åtgärdas. De här aviseringarna uppmuntrar användarna att läsa mer i särskilda hjälpcenterartiklar.
- Modellens motståndskraft: Gemini-modellernas motståndskraft mot fientliga attacker, vilket skyddar dem från uttrycklig skadlig manipulation.
Hur fungerar innehållsklassificerare för promptinjektion?
Innehållsklassificerare för promptinjektion fungerar som ett första försvar genom att identifiera och flagga misstänkt indata som kan innehålla skadliga instruktioner. Klassificerarna analyserar strukturen, nyckelorden och mönstren i promptarna för att identifiera potentiella försök till promptinjektion innan de kan påverka AI-modellens beteende och filtrerar bort skadligt innehåll.
Vad är förstärkt säkerhetstänkande?
Förstärkt säkerhetstänkande innebär att AI-modeller lärs att prioritera säkerhetsöverväganden i sina beslutsprocesser. Den här tekniken lägger till inriktade säkerhetsinstruktioner kring promptinnehållet för att påminna LLM om att fokusera på den användarstyrda uppgiften och ignorera eventuella fientliga eller skadliga instruktioner som är inbäddade i innehållet.
Hur förbättrar markdownrensning och redigering av misstänkta webbadresser säkerheten?
Markdownrensning tar bort potentiellt skadlig kod eller skriptelement som är dolda i markdown-formaterad text och förhindrar att de körs. Anonymisering av misstänkta webbadresser identifierar och maskerar länkar som leder till kända skadliga webbplatser, vilket hindrar AI-systemet från att komma åt eller sprida farligt innehåll. Det här förhindrar indirekta promptinjektioner som utnyttjar formateringssårbarheter eller omdirigerar AI till skadliga externa resurser.
Vad är ramverket för användarbekräftelse?
Ramverket för användarbekräftelse inför ett uttryckligt godkännandesteg för känsliga AI-genererade åtgärder eller utdata. Innan AI-systemet utför potentiellt skadliga kommandon eller delar konfidentiell information uppmanas användaren att bekräfta sin avsikt. Den här HITL-metoden (human-in-the-loop) fungerar som en sista säkerhetsåtgärd mot obehöriga eller oavsiktliga åtgärder som orsakas av en lyckad promptinjektionsattack.
Varför är säkerhetshanteringsaviseringar för slutanvändare viktiga?
Säkerhetshanteringsaviseringar för slutanvändare informerar användarna när en potentiell säkerhetsrisk har upptäckts eller åtgärdats i ett AI-system. Varningarna ger insyn i säkerhetsåtgärder som vidtas och informerar användarna om potentiella hot så att de kan fatta välgrundade beslut. Det här främjar en samarbetsinriktad AI-säkerhetsstrategi, stärker förtroendet och uppmuntrar till säkrare interaktion med AI-tillämpningar.
Ytterligare resurser
Mer information om Googles framsteg och forskning om aktörer som utgör hot genom generativ AI, attacktekniker och sårbarheter finns i Förhindra promptinjektionsattacker genom en försvarsstrategi i flera lager.