Pośrednie wstrzykiwanie promptów i stosowana przez Google strategia wielowarstwowej ochrony w Gemini

Ten artykuł jest przeznaczony dla administratorów Google Workspace. Jeśli używasz Gemini, dowiedz się, jak Google chroni Twoje dane, gdy korzystasz z aplikacji Gemini lub Gemini w aplikacjach Workspace: w Gmailu, edytorach Dokumentów, na Dysku oraz w Google Chat.

Pośrednie wstrzykiwanie promptów to złożona luka w zabezpieczeniach systemów generatywnej AI. W tym artykule wyjaśniamy stosowaną przez Google kompleksową strategię wielowarstwowej ochrony, która ma na celu ograniczenie potencjalnych skutków tej luki w aplikacji Gemini i Gemini w aplikacjach Workspace.

Informacje dostępne na tej stronie

Czym jest prompt w kontekście generatywnej AI?

Prompt to instrukcja lub dane wejściowe przekazywane do modelu generatywnej AI w celu uzyskania żądanych wyników. Modele generatywnej AI interpretują te prompty, aby tworzyć treści, takie jak tekst, obrazy czy kod, zgodnie ze wzorcami, których się nauczyły na podstawie ogromnych zbiorów danych.

Co to jest pośrednie wstrzykiwanie promptów?

Pośrednie wstrzykiwanie promptów to rodzaj luki w zabezpieczeniach systemów AI, która umożliwia umieszczanie szkodliwych instrukcji w danych zewnętrznych przetwarzanych przez model AI. Te instrukcje nie są przekazywane bezpośrednio do AI przez użytkownika. Ich celem jest manipulowanie działaniem lub wynikami systemu bez jego wiedzy.

Jak działa pośrednie wstrzykiwanie promptów?

Pośrednie wstrzykiwanie promptów ma miejsce, gdy system AI przetwarza dane zewnętrzne, takie jak zawartość witryny, e-maile lub dokumenty, w których umieszczone są szkodliwe instrukcje. System nie rozpoznaje ukrytych poleceń ani szkodliwych instrukcji i wykonuje je wraz z głównym zadaniem. Może to prowadzić do niezamierzonych działań lub ujawnienia informacji.

Jakie są rzeczywiste przykłady ataków z użyciem pośredniego wstrzykiwania promptów?

  • Przejęcie kontroli nad czatbotem – czatbot AI wytrenowany na danych zewnętrznych otrzymuje na stronie internetowej szkodliwe instrukcje, które powodują ujawnienie poufnych informacji wewnętrznych.
  • Przejęcie kontroli nad narzędziem do podsumowywania – system AI streszcza dokument zawierający ukryte instrukcje i wykonuje nieautoryzowaną czynność, np. wysyła e-maila.
  • Wydobycie danych – system AI przetwarza zainfekowany plik i wyodrębnia bez autoryzacji poufne dane oraz wysyła je do zewnętrznego miejsca docelowego.

Dlaczego pośrednie wstrzykiwanie promptów to poważny problem? Jak duże jest ryzyko?

Pośrednie wstrzykiwanie promptów to poważne zagrożenie dla bezpieczeństwa systemów AI i prywatności danych. Może ono prowadzić do uzyskania nieautoryzowanego dostępu do danych, manipulowania działaniem AI i potencjalnego niewłaściwego wykorzystania informacji. Ta luka zmniejsza zaufanie do AI, ponieważ tworzy ścieżki dla cyberataków, które trudno wykryć i którym trudno jest zapobiec za pomocą tradycyjnych środków bezpieczeństwa.

Jak Google minimalizuje skutki ataków z użyciem pośredniego wstrzykiwania promptów?

Aby ograniczyć ryzyko ataków przy użyciu pośredniego wstrzykiwania promptów, Google stosuje kompleksowe, wielowarstwowe podejście do zabezpieczeń, zwłaszcza w przypadku Gemini. Ta strategia polega na stosowaniu środków bezpieczeństwa zaprojektowanych pod kątem każdego etapu cyklu życia prompta – od wzmacniania modelu po specjalnie opracowane modele uczenia maszynowego i zabezpieczenia na poziomie systemu.

Od czasu pierwszego wdrożenia ulepszonych zabezpieczeń przed pośrednim wstrzykiwaniem promptów nasze wielowarstwowe środki ochrony skutecznie minimalizują skutki prób pośredniego wstrzyknięcia promptów i dostosowują się do nowych wzorców ataków. Dzięki ciągłemu monitorowaniu i szybkiemu reagowaniu możemy wyciągać wnioski z każdej interakcji i wzmacniać nasze zabezpieczenia.

Jakie są kluczowe warstwy ochrony przed pośrednim wstrzykiwaniem promptów?

Stosowana przez Google wielowarstwowa ochrona obejmuje:

  • Klasyfikatory treści wstrzykiwanych promptów – zastrzeżone modele uczenia maszynowego, które wykrywają szkodliwe prompty i instrukcje w różnych formatach danych.
  • Zwiększanie koncentracji na bezpieczeństwie – ukierunkowane instrukcje dotyczące bezpieczeństwa dodawane do treści prompta. Te instrukcje przypominają dużemu modelowi językowemu (LLM), aby wykonał zadanie wskazane przez użytkownika i zignorował instrukcje służące do przeprowadzenia ataku.
  • Oczyszczanie formatowania Markdown i usuwanie podejrzanych adresów URL – identyfikowanie i usuwanie zewnętrznych adresów URL obrazów oraz podejrzanych linków za pomocą Bezpiecznego przeglądania Google w celu zapobiegania atakom opartym na adresach URL i wydobyciu danych.
  • System potwierdzeń użytkownika – system kontekstowy, który wymaga wyraźnego potwierdzenia użytkownika w przypadku potencjalnie ryzykownych działań takich jak usuwanie wydarzeń z kalendarza.
  • Powiadomienia o środkach ograniczających zagrożenie dla bezpieczeństwa użytkowników – informacje kontekstowe przekazywane użytkownikom w przypadku wykrycia problemów z bezpieczeństwem i zminimalizowania ich skutków. Te powiadomienia zachęcają użytkowników do zapoznania się z odpowiednimi artykułami w Centrum pomocy.
  • Odporność modelu – odporność modeli Gemini na ataki, która chroni je przed wyraźnie szkodliwymi manipulacjami.

Jak działają klasyfikatory treści wstrzykiwanych promptów?

Klasyfikatory treści wstrzykiwanych promptów stanowią pierwszą linię obrony, ponieważ identyfikują i oznaczają podejrzane dane wejściowe, które mogą zawierać szkodliwe instrukcje. Analizują one strukturę, słowa kluczowe i wzorce w promptach, aby wykrywać potencjalne próby wstrzyknięcia prompta, zanim wpłyną one na działanie modelu AI, i odfiltrowywać szkodliwe treści.

Co to jest zwiększanie koncentracji na bezpieczeństwie?

Zwiększanie koncentracji na bezpieczeństwie polega na trenowaniu modeli AI w taki sposób, aby w procesach podejmowania decyzji priorytetowo traktowały kwestie bezpieczeństwa. Ta technika dodaje do treści prompta ukierunkowane instrukcje dotyczące bezpieczeństwa, aby przypomnieć dużemu modelowi językowemu że ma skupić się na zadaniu wskazanym przez użytkownika i zignorować wszelkie umieszczone w treści szkodliwe instrukcje służące do przeprowadzenia ataku.

W jaki sposób oczyszczanie formatowania Markdown i usuwanie podejrzanych adresów URL zwiększa bezpieczeństwo?

Oczyszczanie formatowania Markdown usuwa potencjalnie szkodliwy kod lub elementy skryptowania ukryte w tekście sformatowanym przy użyciu funkcji Markdown, co zapobiega ich wykonaniu. W ramach usuwania podejrzanych adresów URL identyfikowane i maskowane są linki prowadzące do znanych szkodliwych witryn, tak aby system AI nie mógł uzyskać dostępu do niebezpiecznych treści i ich rozpowszechnić. Blokuje to próby pośredniego wstrzyknięcia promptów, które wykorzystują luki w zabezpieczeniach w formatowaniu lub przekierowują AI do szkodliwych zasobów zewnętrznych.

Czym jest system potwierdzeń użytkownika?

System potwierdzeń użytkownika wprowadza krok wymagający wyraźnego zatwierdzenia działań lub wyników generowanych przez AI, które są związane z danymi wrażliwymi. Przed wykonaniem potencjalnie szkodliwych poleceń lub udostępnieniem informacji poufnych system AI prosi użytkownika o potwierdzenie jego zamiaru. To podejście z udziałem człowieka (HITL) stanowi ostateczne zabezpieczenie przed nieautoryzowanymi lub niezamierzonymi działaniami wynikającymi z udanego ataku z użyciem wstrzykiwania promptów.

Dlaczego powiadomienia o środkach ograniczających zagrożenie dla bezpieczeństwa użytkowników są ważne?

Powiadomienia o środkach ograniczających zagrożenie dla bezpieczeństwa użytkowników informują ich o wykryciu potencjalnego zagrożenia w systemie AI lub zminimalizowaniu jego skutków. Te alerty zapewniają informacje o zastosowanych środkach bezpieczeństwa i ostrzegają użytkowników o potencjalnych zagrożeniach, dzięki czemu mogą oni podejmować świadome decyzje. Sprzyja to współpracy w zakresie bezpieczeństwa AI, zwiększa zaufanie i zachęca do bezpieczniejszego korzystania z aplikacji używających AI.

Dodatkowe materiały

Więcej informacji o postępach Google i badaniach dotyczących podmiotów zagrażających generatywnej AI, technik ataków i luk w zabezpieczeniach znajdziesz w artykule Mitigating prompt injection attacks with a layered defense strategy (Minimalizowanie skutków ataków z użyciem pośredniego wstrzykiwania promptów przy użyciu strategii ochrony wielowarstwowej).