간접 프롬프트 인젝션과 Gemini를 위한 Google의 다층 방어 전략

이 도움말은 Google Workspace 관리자용입니다. Gemini 사용자의 경우, Gemini 앱이나 Workspace의 Gemini 앱(Gmail, Docs 편집기, Drive, Chat)을 사용할 때 Google이 사용자를 어떻게 보호하는지 알아보세요.

간접 프롬프트 인젝션은 생성형 AI 시스템에 존재하는 정교한 보안 취약점입니다. 이 도움말에서는 Gemini 앱과 Workspace의 Gemini 앱에서 간접 프롬프트 인젝션 취약점을 완화하기 위한 Google의 포괄적인 다층 방어 전략을 설명합니다.

이 페이지의 내용

생성형 AI의 맥락에서 프롬프트란 무엇인가요?

프롬프트는 생성형 AI 모델에 출력에 대한 가이드를 제공하는 요청 사항 또는 입력입니다. 생성형 AI 모델은 이러한 프롬프트를 해석한 후 방대한 데이터 세트에서 학습한 패턴을 기반으로 텍스트, 이미지 또는 코드와 같은 콘텐츠를 생성합니다.

간접 프롬프트 인젝션이란 무엇인가요?

간접 프롬프트 인젝션은 AI 시스템의 보안 취약점 유형 중 하나로, AI 모델이 처리하는 외부 데이터에 악성 요청 사항이 숨겨져 있는 경우를 말합니다. 이러한 요청 사항은 사용자가 AI에 직접 제공하는 것이 아닙니다. 목표는 사용자가 확실히 인지하지 못하는 상태에서 시스템의 동작이나 출력을 조작하는 것입니다.

간접 프롬프트 인젝션은 어떻게 작동하나요?

간접 프롬프트 인젝션은 악성 요청 사항이 삽입된 외부 데이터(예: 웹사이트 콘텐츠, 이메일 또는 문서)를 AI 시스템이 처리할 때 작동합니다. 시스템은 숨겨진 명령어 또는 악성 요청 사항을 인지하지 못하므로 기본 작업과 함께 이를 실행합니다. 이로 인해 의도하지 않은 작업이 실행되거나 정보가 공개될 수 있습니다.

간접 프롬프트 인젝션 공격의 실제 사례로는 어떤 것들이 있나요?

  • 챗봇 하이재킹: 외부 데이터를 학습한 AI 챗봇에 웹페이지에 대한 악성 요청 사항이 제공되어 민감한 내부 정보가 공개됩니다.
  • 요약 도구 보안 침해: AI 시스템에서 요청 사항이 숨겨져 있는 문서를 요약한 후 이메일 전송과 같이 승인되지 않은 작업을 실행합니다.
  • 데이터 무단 반출: 감염된 파일을 처리하도록 요청받은 AI 시스템에서 실수로 기밀 데이터를 추출하여 외부 대상으로 전송합니다.

간접 프롬프트 인젝션이 심각한 문제인 이유는 무엇인가요? 어떤 위험이 있나요?

간접 프롬프트 인젝션은 AI 시스템 보안 및 데이터 개인 정보 보호에 심각한 위협을 가해 무단 데이터 액세스, AI 동작 조작, 잠재적 정보 오용으로 이어질 수 있습니다. 이 취약점은 AI의 신뢰성을 저해하여 기존 보안 조치로는 탐지하고 방지하기 어려운 사이버 공격의 경로가 됩니다.

간접 프롬프트 인젝션 공격을 완화하기 위해 Google은 어떤 접근방식을 취하나요?

Google은 특히 Gemini에서 간접 프롬프트 인젝션 공격을 완화하기 위해 포괄적인 다층 보안 접근방식을 사용합니다. 이 전략은 모델 강화부터 목적에 맞게 구축된 머신러닝 모델, 시스템 수준 보호 장치에 이르기까지 프롬프트 수명 주기의 각 단계에 맞게 설계된 보안 조치를 도입합니다.

향상된 간접 프롬프트 인젝션 방어 기능을 처음 배포한 이후, Google의 다층 보호 기능은 간접 프롬프트 인젝션 시도를 꾸준히 완화하고 새로운 공격 패턴에 적응해 왔습니다. Google의 지속적인 모니터링과 신속한 대응 능력을 통해 상호작용이 이루어질 때마다 지속적으로 학습하고 방어력을 강화할 수 있습니다.

간접 프롬프트 인젝션에 대항하는 주요 방어 계층은 무엇인가요?

Google의 다층 보안 접근방식에는 다음이 포함됩니다.

  • 프롬프트 인젝션 콘텐츠 분류기: 다양한 데이터 형식 내에서 악성 프롬프트와 요청 사항을 감지하는 독점 머신러닝 모델입니다.
  • 보안 사고 강화: 프롬프트 콘텐츠와 관련하여 추가되는 타겟팅된 보안 요청 사항입니다. 이러한 요청 사항은 LLM(대규모 언어 모델)에 사용자가 지시한 작업을 수행하고 적대적인 요청 사항을 무시하도록 상기시킵니다.
  • 마크다운 정리 및 의심스러운 URL 수정: Google 세이프 브라우징으로 외부 이미지 URL과 의심스러운 링크를 식별하고 수정하여 URL 기반 공격과 데이터 무단 반출을 방지합니다.
  • 사용자 확인 프레임워크: 캘린더 일정 삭제와 같이 위험할 수 있는 작업에 명시적인 사용자 확인을 요구하는 상황별 시스템입니다.
  • 최종 사용자 보안 완화 알림: 보안 문제가 감지되고 완화될 때 사용자에게 제공되는 맥락 정보입니다. 이러한 알림은 전용 고객센터 도움말을 통해 자세한 내용을 알아보라고 사용자에게 안내합니다.
  • 모델 복원력: 명시적인 악성 조작으로부터 모델을 보호하는 Gemini 모델의 적대적 견고성을 가리킵니다.

프롬프트 인젝션 콘텐츠 분류기는 어떻게 작동하나요?

프롬프트 인젝션 콘텐츠 분류기는 악성 요청 사항이 포함되었을 수 있는 의심스러운 입력을 식별하고 신고하여 초기에 방어하는 역할을 합니다. 이러한 분류기는 프롬프트 내의 구조, 키워드, 패턴을 분석하여 AI 모델의 동작에 영향을 미치기 전에 잠재적인 삽입 시도를 감지하고 유해한 콘텐츠를 필터링합니다.

보안 사고 강화란 무엇인가요?

보안 사고 강화에는 의사결정 과정에서 보안을 우선적으로 고려하도록 AI 모델을 학습시키는 과정이 포함됩니다. 이 기법은 LLM이 사용자가 지시한 작업에 집중하고 콘텐츠에 삽입된 적대적 또는 악성 요청 사항은 무시하도록 프롬프트 콘텐츠와 관련하여 타겟팅된 보안 요청 사항을 추가합니다.

마크다운 정리 및 의심스러운 URL 수정을 통해 보안이 어떻게 강화되나요?

마크다운 정리 기능은 마크다운 형식 텍스트 내에 숨겨진 잠재적으로 유해한 코드 또는 스크립팅 요소가 실행되지 않도록 삭제합니다. 의심스러운 URL 수정은 AI 시스템이 위험한 콘텐츠에 액세스하거나 이러한 콘텐츠를 전파하지 못하도록 알려진 악성 웹사이트로 연결되는 링크를 식별하고 마스크합니다. 이렇게 하면 서식 취약점을 악용하거나 AI를 악성 외부 리소스로 리디렉션하는 간접 프롬프트 인젝션을 방지할 수 있습니다.

사용자 확인 프레임워크란 무엇인가요?

사용자 확인 프레임워크는 민감한 AI 생성 작업 또는 출력에 대한 명시적 승인 단계를 도입합니다. 잠재적으로 유해한 명령어를 실행하거나 기밀 정보를 공유하기 전에 AI 시스템에서 사용자에게 의도를 확인하라는 메시지를 표시합니다. 이 인간 참여형(HITL) 접근방식은 프롬프트 인젝션 공격이 성공하여 승인되지 않거나 의도하지 않은 작업이 실행되는 상황을 방지하는 최후의 보호 장치와 같은 역할을 합니다.

최종 사용자 보안 완화 알림이 중요한 이유는 무엇인가요?

최종 사용자 보안 완화 알림은 AI 시스템 내에서 잠재적인 보안 위험이 감지되거나 완화된 경우 사용자에게 알려 줍니다. 이러한 알림은 취해진 보안 조치를 투명하게 밝히고 잠재적인 위협에 대해 알려 사용자가 정보에 입각한 결정을 내릴 수 있도록 지원합니다. 결과적으로 AI 보안에 대한 협업적 접근방식이 촉진되므로 신뢰가 강화되고 AI 애플리케이션과 더 안전하게 상호작용할 수 있습니다.

추가 리소스

생성형 AI의 공격자, 공격 기법, 취약점과 관련하여 Google의 현상황 및 연구 내용을 자세히 알아보려면 다층 방어 전략으로 프롬프트 인젝션 공격 완화하기를 참고하세요.