Attacchi di prompt injection indiretti e strategia di difesa su più livelli di Google per Gemini

Questo articolo è rivolto agli amministratori di Google Workspace. Per gli utenti di Gemini: scopri in che modo Google ti protegge quando utilizzi l'app Gemini o le app di Gemini in Workspace: Gmail, editor di documenti, Drive e Chat.

Gli attacchi di prompt injection indiretti sono una sofisticata vulnerabilità della sicurezza che riguarda i sistemi di AI generativa. Questo articolo spiega la strategia di difesa completa e su più livelli di Google per mitigare questa vulnerabilità nell'app Gemini e nelle app Gemini in Workspace.

In questa pagina

Che cos'è un prompt nel contesto dell'AI generativa?

Un prompt è un'istruzione o un input fornito a un modello di AI generativa per indirizzarne l'output. I modelli di AI generativa interpretano questi prompt per creare contenuti, come testo, immagini o codice, in base ai pattern appresi analizzando vasti set di dati.

Che cos'è un attacco di prompt injection indiretto?

L'attacco di prompt injection indiretto è un tipo di vulnerabilità della sicurezza che riguarda i sistemi di AI. Consiste nel nascondere istruzioni dannose nei dati esterni elaborati dal modello di AI. Queste istruzioni non vengono fornite direttamente all'AI dall'utente. L'obiettivo è manipolare il comportamento o l'output del sistema senza che l'utente ne sia esplicitamente a conoscenza.

Come funzionano gli attacchi di prompt injection indiretti?

Gli attacchi di prompt injection indiretti si verificano quando un sistema di AI elabora dati esterni, come contenuti di siti web, email o documenti, che contengono al loro interno istruzioni dannose. Il sistema, ignaro dei comandi nascosti o delle istruzioni dannose, li esegue insieme alla sua attività principale. Ciò può avere come conseguenza l'esecuzione di azioni involontarie o la divulgazione di informazioni.

Quali sono alcuni esempi concreti di attacchi di prompt injection indiretti?

  • Chatbot compromesso: un chatbot di AI addestrato su dati esterni riceve un'istruzione dannosa su una pagina web, che lo induce a rivelare informazioni interne sensibili.
  • Generatore di riassunti compromesso: un sistema di AI riassume un documento contenente istruzioni nascoste ed esegue un'azione non autorizzata, ad esempio l'invio di un'email.
  • Esfiltrazione di dati: a un sistema di AI viene chiesto di elaborare un file infetto e il sistema estrae e invia inavvertitamente dati riservati a una destinazione esterna.

Perché gli attacchi di prompt injection indiretti sono un problema significativo? Qual è il rischio?

Gli attacchi di prompt injection indiretti rappresentano una minaccia significativa per la sicurezza dei sistemi AI e la privacy dei dati. Possono avere come conseguenza l'accesso non autorizzato ai dati, la manipolazione del comportamento dell'AI e il potenziale uso improprio delle informazioni. Questa vulnerabilità mina l'affidabilità dell'AI e crea percorsi per gli attacchi informatici difficili da rilevare e prevenire con le tradizionali misure di sicurezza.

Qual è l'approccio di Google per mitigare i tentativi di attacchi di prompt injection indiretti?

Google adotta un approccio alla sicurezza completo e su più livelli per mitigare gli attacchi di prompt injection indiretti, in particolare con Gemini. Questa strategia introduce misure di sicurezza progettate per ogni fase del ciclo di vita del prompt, dalla protezione del modello ai modelli di machine learning appositamente creati fino alle salvaguardie a livello di sistema.

Da quando abbiamo iniziato a implementare le nostre difese migliorate contro gli attacchi di prompt injection indiretti, le nostre protezioni a più livelli hanno costantemente mitigato i tentativi di attacco e si sono adattate ai nuovi pattern. Le nostre funzionalità di monitoraggio continuo e risposta rapida ci consentono di imparare costantemente da ogni interazione e rafforzano le nostre difese.

Quali sono i livelli di difesa principali contro gli attacchi di prompt injection indiretti?

L'approccio alla sicurezza a più livelli di Google include:

  • Categorie di classificazione dei contenuti di prompt injection: modelli di machine learning proprietari che rilevano prompt e istruzioni dannosi in vari formati dei dati.
  • Rafforzamento del pensiero sulla sicurezza: istruzioni di sicurezza mirate che vengono aggiunte ai contenuti del prompt. Queste istruzioni ricordano al modello LLM (modello linguistico di grandi dimensioni) di eseguire l'attività richiesta dall'utente e di ignorare le istruzioni avversarie.
  • Sanitizzazione dei markdown e oscuramento degli URL sospetti: identificazione e oscuramento di URL di immagini esterne e link sospetti utilizzando Google Navigazione sicura per prevenire attacchi basati su URL ed esfiltrazione di dati.
  • Framework di conferma dell'utente: un sistema contestuale che richiede la conferma esplicita dell'utente per operazioni potenzialmente rischiose, come l'eliminazione di eventi nel calendario.
  • Notifiche sulla mitigazione della sicurezza per l'utente finale: informazioni contestuali fornite agli utenti quando vengono rilevati e mitigati problemi di sicurezza. Queste notifiche incoraggiano gli utenti a saperne di più leggendo gli articoli dedicati del Centro assistenza.
  • Resilienza del modello: la robustezza dei modelli Gemini nei confronti degli avversari, che li protegge dalle manipolazioni dannose esplicite.

Come funzionano le categorie di classificazione dei contenuti di prompt injection?

Le categorie di classificazione dei contenuti di prompt injection fungono da difesa iniziale identificando e segnalando input sospetti che potrebbero contenere istruzioni dannose. Queste categorie di classificazione analizzano la struttura, le parole chiave e i pattern all'interno dei prompt per rilevare potenziali tentativi di injection prima che possano influire sul comportamento del modello di AI, filtrando i contenuti dannosi.

Che cos'è il rafforzamento del pensiero sulla sicurezza?

Il rafforzamento del pensiero sulla sicurezza prevede un addestramento dei modelli di AI che dia la priorità alle considerazioni sulla sicurezza nei processi decisionali. Questa tecnica aggiunge istruzioni di sicurezza mirate relative ai contenuti dei prompt per ricordare al modello LLM di concentrarsi sull'attività richiesta dall'utente e di ignorare eventuali istruzioni ostili o dannose incorporate nei contenuti.

In che modo la sanitizzazione dei markdown e l'oscuramento degli URL sospetti migliorano la sicurezza?

La sanitizzazione dei markdown rimuove codice o elementi di scripting potenzialmente dannosi nascosti all'interno del testo formattato con markdown, impedendone l'esecuzione. L'oscuramento degli URL sospetti identifica e maschera i link che rimandano a siti web dannosi noti, impedendo al sistema di AI di accedere a contenuti pericolosi o propagarli. In questo modo si impediscono attacchi di prompt injection indiretti che sfruttano vulnerabilità di formattazione o reindirizzano l'AI a risorse esterne dannose.

Che cos'è il framework di conferma dell'utente?

Il framework di conferma dell'utente introduce un passaggio di approvazione esplicita per azioni o output sensibili creati con l'AI. Prima di eseguire comandi potenzialmente dannosi o condividere informazioni riservate, il sistema di AI chiede all'utente di confermare la sua intenzione. Questo approccio human-in-the-loop (HITL) funge da salvaguardia finale contro le azioni non autorizzate o involontarie derivanti da un attacco di prompt injection.

Perché le notifiche di mitigazione della sicurezza per gli utenti finali sono importanti?

Le notifiche di mitigazione della sicurezza per gli utenti finali informano gli utenti quando è stato rilevato o mitigato un potenziale rischio per la sicurezza all'interno di un sistema di AI. Questi avvisi informano gli utenti in modo trasparente sulle misure di sicurezza adottate e sulle potenziali minacce, consentendo loro di prendere decisioni consapevoli. In questo modo si promuove un approccio collaborativo alla sicurezza dell'AI, rafforzando la fiducia e incoraggiando un'interazione più sicura con le applicazioni di AI.

Risorse aggiuntive

Per saperne di più sui progressi e sulla ricerca di Google in merito a minacce, tecniche di attacco e vulnerabilità dell'AI generativa, consulta l'articolo Mitigazione degli attacchi di prompt injection con una strategia di difesa a più livelli.