Косвенное внедрение запросов – это сложная уязвимость в системах на основе генеративного ИИ. В этой статье рассказывается о многоуровневой стратегии защиты Google, которая позволяет устранить эту уязвимость в приложении Gemini и приложениях Gemini в Workspace.
Содержание
- Что такое запрос в контексте генеративного ИИ
- Что такое косвенное внедрение запроса
- Как работает косвенное внедрение запросов
- Примеры атак с косвенным внедрением запросов
- Почему косвенное внедрение запросов представляет серьезную проблему? Каковы риски?
- Как Google борется с косвенным внедрением запросов
- Каковы основные уровни защиты от косвенного внедрения запросов
- Как работают классификаторы контента для защиты от внедрения запросов
- Что такое усиление безопасности мышления
- Как очистка разметки и удаление подозрительных URL повышают безопасность
- Что такое фреймворк подтверждения пользователем
- Почему важны уведомления о мерах безопасности для конечных пользователей
Что такое запрос в контексте генеративного ИИ
Запрос – это инструкция или входные данные, которые передаются модели генеративного ИИ, чтобы получить нужный результат. Модели генеративного ИИ интерпретируют эти запросы и создают контент, например текст, изображения или код, на основе закономерностей, полученных из больших наборов данных.
Что такое косвенное внедрение запроса
Косвенное внедрение запроса – это тип уязвимости в системах ИИ, при котором вредоносные инструкции скрыты во внешних данных, обрабатываемых моделью ИИ. Эти инструкции не предоставляются пользователем напрямую. Цель в том, чтобы манипулировать поведением или результатами работы системы без ведома пользователя.
Как работает косвенное внедрение запросов
Косвенное внедрение запросов осуществляется, когда ИИ-система обрабатывает внешние данные, например контент сайта, электронные письма или документы, содержащие встроенные вредоносные инструкции. Система, не зная о скрытых командах или вредоносных инструкциях, выполняет их вместе с основной задачей. Это может привести к непреднамеренным действиям или раскрытию информации.
Примеры атак с косвенным внедрением запросов
- Взлом чат-бота. ИИ-чат-бот, обученный на внешних данных, получает вредоносную инструкцию на веб-странице, из-за чего раскрывает конфиденциальную внутреннюю информацию.
- Компрометация генератора краткого пересказа. ИИ-система кратко пересказывает документ, содержащий скрытые инструкции, и выполняет несанкционированное действие, например отправляет электронное письмо.
- Кража данных. ИИ-системе предлагается обработать зараженный файл, и она по ошибке извлекает и отправляет конфиденциальные данные на внешний ресурс.
Почему косвенное внедрение запросов представляет серьезную проблему? Каковы риски?
Косвенное внедрение запросов представляет серьезную угрозу для безопасности ИИ-систем и конфиденциальности данных. Оно может привести к несанкционированному доступу к данным, манипулированию поведением ИИ и потенциальному злоупотреблению информацией. Эта уязвимость подрывает доверие к ИИ и создает возможности для кибератак, которые сложно обнаружить и предотвратить с помощью традиционных мер безопасности.
Как Google борется с косвенным внедрением запросов
Google использует многоуровневый подход к обеспечению безопасности, чтобы предотвратить атаки с косвенным внедрением запросов, особенно в Gemini. Эта стратегия предусматривает меры безопасности, разработанные для каждого этапа жизненного цикла запроса: от усиления защиты модели до создания специальных моделей машинного обучения и обеспечения безопасности на уровне системы.
С момента первоначального развертывания улучшенной защиты от косвенного внедрения запросов наша многоуровневая система безопасности постоянно предотвращает попытки косвенного внедрения запросов и адаптируется к новым способам атак. Благодаря постоянному мониторингу и быстрому реагированию мы учимся на каждом взаимодействии и укрепляем нашу защиту.
Каковы основные уровни защиты от косвенного внедрения запросов
Многоуровневый подход Google к обеспечению безопасности включает:
- Классификаторы контента для внедрения запросов – собственные модели машинного обучения, которые обнаруживают вредоносные запросы и инструкции в различных форматах данных.
- Усиление безопасности мышления – добавление инструкций по безопасности к контенту запроса. Эти инструкции напоминают большой языковой модели (LLM) о том, что нужно выполнить задачу, заданную пользователем, и игнорировать враждебные инструкции.
- Очистка разметки и удаление подозрительных URL – выявление и удаление URL внешних изображений и подозрительных ссылок с помощью Google Безопасного просмотра для предотвращения атак на основе URL и кражи данных.
- Фреймворк подтверждения пользователем – контекстная система, которая запрашивает у пользователя явное подтверждение потенциально опасных операций, таких как удаление мероприятий из календаря.
- Уведомления о мерах по обеспечению безопасности для конечных пользователей – контекстная информация, предоставляемая пользователям при обнаружении и устранении проблем с безопасностью. В этих уведомлениях пользователям предлагается перейти к статьям Справочного центра, чтобы узнать больше.
- Устойчивость модели – особенность моделей Gemini, защищающая их от явных вредоносных манипуляций.
Как работают классификаторы контента для защиты от внедрения запросов
Классификаторы контента для защиты от внедрения запросов служат первой линией защиты, выявляя и отмечая подозрительные входные данные, которые могут содержать вредоносные инструкции. Эти классификаторы анализируют структуру, ключевые слова и закономерности в запросах, чтобы выявлять попытки внедрения до того, как они повлияют на поведение модели ИИ, и отфильтровывать вредоносный контент.
Что такое усиление безопасности мышления
Усиление безопасности мышления предполагает обучение моделей ИИ таким образом, чтобы они отдавали приоритет вопросам безопасности при принятии решений. Согласно этой методике, к содержимому запроса добавляются специальные инструкции по безопасности, напоминающие LLM о том, что нужно сосредоточиться на задаче, поставленной пользователем, и игнорировать любые враждебные или вредоносные инструкции, внедренные в контент.
Как очистка разметки и удаление подозрительных URL повышают безопасность
Очистка разметки удаляет потенциально опасный код или элементы скриптов, скрытые в тексте с форматированием Markdown, предотвращая их выполнение. Удаление подозрительных URL позволяет выявлять и маскировать ссылки на известные вредоносные сайты, чтобы ИИ-система не могла получить доступ к опасному контенту или распространять его. Так предотвращается косвенное внедрение запросов, при котором используются уязвимости форматирования или ИИ перенаправляется на вредоносные внешние ресурсы.
Что такое фреймворк подтверждения пользователем
Фреймворк подтверждения пользователем вводит обязательный шаг одобрения для действий или результатов, сгенерированных ИИ, которые могут затрагивать конфиденциальную информацию. Перед выполнением потенциально опасных команд или передачей конфиденциальной информации ИИ-система запрашивает у пользователя подтверждение его намерений. Такой подход с участием человека в процессе (HITL) служит последним рубежом защиты от несанкционированных или непреднамеренных действий, вызванных успешной атакой с внедрением запроса.
Почему важны уведомления о мерах безопасности для конечных пользователей
Уведомления о мерах безопасности предупреждают пользователей о том, что в ИИ-системе была обнаружена или устранена потенциальная угроза безопасности. Такие оповещения помогают пользователям понять, какие меры безопасности были приняты, и узнать о потенциальных угрозах, чтобы принимать взвешенные решения. В результате пользователь и ИИ-приложение, совместно участвуют в обеспечении безопасности, что способствует повышению доверия к ИИ.
Дополнительные ресурсы
Чтобы узнать больше о достижениях и исследованиях Google в области угроз, связанных с генеративным ИИ, методах атак и уязвимостях, ознакомьтесь со статьей Снижение риска атак с внедрением запросов благодаря многоуровневой стратегии защиты.