Les injections de prompt indirectes constituent une faille de sécurité sophistiquée dans les systèmes d'IA générative. Cet article vous expose la stratégie de défense complète et multicouche de Google, qui vise à atténuer cette faille dans l'appli Gemini et les applications Gemini dans Workspace.
Sur cette page
- Qu'est-ce qu'un prompt dans le contexte de l'IA générative ?
- Qu'est-ce qu'une injection de prompt indirecte ?
- Comment fonctionnent les injections de prompt indirectes ?
- Quels sont des exemples concrets d'attaques par injection de prompt indirecte ?
- Pourquoi les injections de prompt indirectes constituent-elles un problème majeur ? Quels sont les risques ?
- Quelle est l'approche de Google pour limiter les attaques par injection de prompt indirecte ?
- Quelles sont les principales couches de protection contre les injections de prompt indirectes ?
- Comment fonctionnent les classificateurs de contenu pour l'injection de prompt ?
- Qu'est-ce que le renforcement des instructions de sécurité ?
- En quoi le nettoyage du code Markdown et le masquage des URL suspectes renforcent-ils la sécurité ?
- Qu'est-ce que le framework de confirmation des utilisateurs ?
- Pourquoi est-ce important d'envoyer des notifications aux utilisateurs finaux pour réduire les risques ?
Qu'est-ce qu'un prompt dans le contexte de l'IA générative ?
Un prompt est une instruction ou une entrée fournie à un modèle d'IA générative pour guider ses résultats. Les modèles d'IA générative interprètent ces prompts pour créer des contenus (texte, images ou code, par exemple) en fonction des schémas appris à partir de vastes ensembles de données.
Qu'est-ce qu'une injection de prompt indirecte ?
L'injection de prompt indirecte est un type de faille de sécurité dans les systèmes d'IA qui consiste à dissimuler des instructions malveillantes dans des données externes traitées par le modèle d'IA. Ces instructions ne sont pas données directement à l'IA par l'utilisateur. L'objectif est de manipuler le comportement ou le résultat du système à l'insu de l'utilisateur.
Comment fonctionnent les injections de prompt indirectes ?
Les injections de prompt indirectes se produisent lorsqu'un système d'IA traite des données externes (contenu de site Web, e-mails ou documents, par exemple) qui contiennent des instructions malveillantes intégrées. Le système, qui n'a pas connaissance des commandes cachées ni des instructions malveillantes, les exécute en même temps que sa tâche principale. Il est alors susceptible de divulguer des informations ou d'effectuer des actions involontaires.
Quels sont des exemples concrets d'attaques par injection de prompt indirecte ?
- Chatbot piraté : une page Web transmet une instruction malveillante à un chatbot d'IA, entraîné sur des données externes, pour l'amener à révéler des informations internes sensibles.
- Outil de résumé compromis : un système d'IA résume un document contenant des instructions cachées et effectue une action non autorisée, comme l'envoi d'un e-mail.
- Exfiltration de données : un système d'IA est invité à traiter un fichier infecté, et extrait et envoie par inadvertance des données confidentielles vers une destination externe.
Pourquoi les injections de prompt indirectes constituent-elles un problème majeur ? Quels sont les risques ?
Les injections de prompt indirectes représentent une menace importante pour la sécurité des systèmes d'IA et la confidentialité des données. Elles peuvent permettre un accès non autorisé aux données, manipuler le comportement de l'IA et entraîner une utilisation potentiellement abusive des informations. Cette faille compromet la fiabilité de l'IA et ouvre la voie à des cyberattaques difficiles à détecter et à empêcher à l'aide des mesures de sécurité traditionnelles.
Quelle est l'approche de Google pour limiter les attaques par injection de prompt indirecte ?
Google utilise une approche de sécurité complète et multicouche pour limiter les attaques par injection de prompt indirecte, en particulier avec Gemini. Cette stratégie s'appuie sur des mesures de sécurité conçues pour chaque étape du cycle de vie des prompts : renforcement des modèles, modèles de machine learning dédiés, mesures de protection au niveau du système, etc.
Depuis le déploiement initial de nos mesures de sécurité renforcées contre les injections de prompt indirectes, nos protections multicouches n'ont cessé de réduire les tentatives d'attaques par ce biais et se sont adaptées aux nouveaux schémas d'attaques. Une surveillance continue et une réponse rapide nous permettent de tirer des enseignements de chaque interaction et de renforcer ainsi nos mesures de sécurité.
Quelles sont les principales couches de protection contre les injections de prompt indirectes ?
L'approche multicouche de Google en termes de sécurité comprend les éléments suivants :
- Des classificateurs de contenu pour l'injection de prompt : ces modèles de machine learning propriétaires détectent les instructions et prompts malveillants dans différents formats de données.
- Un renforcement des instructions de sécurité : des instructions de sécurité ciblées sont ajoutées autour du contenu des prompts. Elles rappellent au LLM (grand modèle de langage) d'effectuer la tâche demandée par l'utilisateur et d'ignorer les instructions contradictoires.
- Un nettoyage du code Markdown et un masquage des URL suspectes : la navigation sécurisée Google permet d'identifier et de masquer des URL d'images externes et des liens suspects, pour prévenir les attaques basées sur les URL et l'exfiltration de données.
- Un framework de confirmation des utilisateurs : ce système contextuel exige une confirmation explicite de l'utilisateur pour effectuer des opérations potentiellement à risque, comme la suppression d'événements de son agenda.
- L'envoi de notifications aux utilisateurs finaux pour réduire les risques : des informations contextuelles sont fournies aux utilisateurs lorsque des problèmes de sécurité sont détectés et résolus. Ces notifications incitent les utilisateurs à consulter les articles dédiés du centre d'aide pour en savoir plus.
- Une résilience du modèle : la solidité des modèles Gemini face aux attaques les protège contre les manipulations ouvertement malveillantes.
Comment fonctionnent les classificateurs de contenu pour l'injection de prompt ?
Les classificateurs de contenu pour l'injection de prompt servent de première ligne de défense en identifiant et en signalant les entrées suspectes qui peuvent contenir des instructions malveillantes. Ils analysent la structure, les mots clés et les schémas des prompts pour détecter les tentatives d'injection potentielles avant qu'elles n'affectent le comportement du modèle d'IA, en filtrant les contenus dangereux.
Qu'est-ce que le renforcement des instructions de sécurité ?
Le renforcement des instructions de sécurité consiste à inciter les modèles d'IA à privilégier la sécurité dans leurs processus de prise de décision. Cette technique ajoute des instructions de sécurité ciblées autour du contenu des prompts pour rappeler au LLM de rester concentré sur la tâche demandée par l'utilisateur et d'ignorer toute instruction malveillante ou contradictoire intégrée au contenu.
En quoi le nettoyage du code Markdown et le masquage des URL suspectes renforcent-ils la sécurité ?
Le nettoyage du code Markdown supprime les éléments de code ou de script potentiellement dangereux cachés dans des textes au format Markdown pour empêcher leur exécution. Le masquage des URL suspectes identifie et masque les liens qui renvoient vers des sites Web malveillants connus, afin d'empêcher le système d'IA d'accéder à du contenu dangereux ou de le propager. Ces deux mesures permettent d'éviter les injections de prompt indirectes, qui exploitent les failles de mise en forme ou redirigent l'IA vers des ressources externes malveillantes.
Qu'est-ce que le framework de confirmation des utilisateurs ?
Le framework de confirmation des utilisateurs ajoute une étape d'approbation explicite pour les actions ou les résultats sensibles générés par l'IA. Avant d'exécuter des commandes potentiellement dangereuses ou de partager des informations confidentielles, le système d'IA invite l'utilisateur à confirmer son intention. Cette approche human-in-the-loop (avec intervention humaine) sert de dernier rempart contre les actions non autorisées ou involontaires résultant d'une attaque par injection de prompt réussie.
Pourquoi est-ce important d'envoyer des notifications aux utilisateurs finaux pour réduire les risques ?
Les notifications envoyées aux utilisateurs finaux pour réduire les risques leur indiquent lorsqu'un risque de sécurité a été détecté ou limité dans un système d'IA. Ces alertes offrent une transparence sur les mesures de sécurité prises et informent les utilisateurs sur les menaces potentielles pour leur permettre de prendre des décisions éclairées. Cette approche collaborative vis-à-vis de la sécurité de l'IA renforce la confiance et encourage des interactions plus sûres avec les applications d'IA.
Ressources supplémentaires
Pour en savoir plus sur les progrès et les recherches de Google concernant les acteurs malveillants, les techniques d'attaque et les failles de l'IA générative, consultez Réduction des attaques par injection de prompt avec une stratégie de défense multicouche.