החדרת הנחיות עקיפה ואסטרטגיית ההגנה בשכבות של Google ל-Gemini

המאמר הזה מיועד לאדמינים ב-Google Workspace. משתמשי Gemini: במאמרים הבאים מוסבר איך Google מגנה עליכם כשאתם משתמשים באפליקציית Gemini או ב-Gemini באפליקציות Workspace:‏ Gmail, עורכי Docs, ‏Drive ו-Chat.

החדרת הנחיות עקיפה היא נקודת חולשה מתוחכמת באבטחה של מערכות AI גנרטיבי. במאמר הזה מוסבר על אסטרטגיית ההגנה המקיפה והרב-שכבתית של Google לצמצום נקודת החולשה הזו באפליקציית Gemini וב-Gemini באפליקציות Workspace.

בדף הזה

מהי הנחיה בהקשר של AI גנרטיבי?

הנחיה היא הוראה או קלט שניתנים למודל AI גנרטיבי לצורך יצירת הפלט. מודלים של AI גנרטיבי מפרשים את ההנחיות האלה כדי ליצור תוכן, כמו טקסט, תמונות או קוד, על סמך דפוסים שנלמדו מקבוצות נתונים נרחבות.

מהי החדרת הנחיות עקיפה?

החדרת הנחיות עקיפה היא נקודת חולשה באבטחה במערכות AI שבה הוראות זדוניות מוסתרות בנתונים חיצוניים שמודל ה-AI מעבד. ההוראות האלה לא ניתנות ישירות ל-AI על ידי המשתמש. המטרה היא להשפיע על ההתנהגות של המערכת או להשפיע על הפלט שהיא יוצרת ללא ידיעתו המפורשת של המשתמש.

איך מתבצעת החדרת הנחיות עקיפה?

החדרת הנחיות עקיפה מתרחשת כשמערכת AI מעבדת נתונים חיצוניים, כמו תוכן של אתר אינטרנט, אימייל או מסמכים, שמכילים הוראות זדוניות מוטמעות. המערכת, שלא מודעת לפקודות הנסתרות או להוראות הזדוניות, מבצעת אותן יחד עם המשימה העיקרית שניתנה לה. זה יכול לגרום למערכת לבצע פעולות לא מכוונות או לחשיפת מידע.

כמה דוגמאות למתקפות של החדרת הנחיות עקיפה

  • פריצה לצ'אט בוט: צ'אט בוט מבוסס-AI שאומן על נתונים חיצוניים מקבל הוראה זדונית בדף אינטרנט, באופן שגורם לו לחשוף מידע פנימי רגיש.
  • פריצה לתכונת סיכום: מערכת AI מסכמת מסמך שמכיל הוראות מוסתרות ומבצעת פעולה לא מורשית, כמו שליחת אימייל.
  • זליגת נתונים: מערכת AI מקבלת הוראה לעבד קובץ נגוע, וכך בטעות מחלצת נתונים סודיים ושולחת אותם ליעד חיצוני.

למה החדרת הנחיות עקיפה יוצרת בעיה משמעותית? מה הסיכון?

החדרת הנחיות עקיפה מהווה איום משמעותי על האבטחה של מערכות AI ועל פרטיות הנתונים. היא עלולה להוביל למתן גישה לא מורשית לנתונים, להשפיע על התנהגות מערכת ה-AI ולשימוש לרעה במידע. נקודת החולשה הזו פוגעת באמינות של מערכת ה-AI, ויוצרת דרכים לבצע מתקפות סייבר שקשה לזהות ולמנוע באמצעות אמצעי האבטחה המסורתיים.

איך Google מנסה לצמצם את הסיכון למתקפות של החדרת הנחיות עקיפה?

‫Google משתמשת בגישת אבטחה מקיפה ורב-שכבתית כדי לצמצם את הסיכון למתקפות של החדרת הנחיות עקיפה, במיוחד ב-Gemini. הגישה הזו כוללת אמצעי אבטחה שמתאימים לכל שלב במחזור החיים של ההנחיות, החל מהקשחת המודל ועד לבניית מודלים ייעודיים של למידת מכונה ואמצעי הגנה ברמת המערכת.

מאז הפריסה הראשונית של מנגנוני ההגנה המשופרת שלנו מפני החדרת הנחיות עקיפה, אמצעי ההגנה הרב-שכבתיים שלנו הצליחו באופן עקבי לצמצם את הסיכון לניסיונות של החדרת הנחיות עקיפה, והם מותאמים לדפוסי מתקפה חדשים. הודות ליכולות הניטור המתמשכות והתגובה המהירה שלנו אנחנו ממשיכים ללמוד באופן פעיל מכל אינטראקציה, ומחזקים את ההגנות שלנו.

מהן שכבות ההגנה העיקריות מפני החדרת הנחיות עקיפה?

גישת האבטחה הרב-שכבתית של Google כוללת:

  • מסווגי תוכן של החדרת הנחיות: מודלים של למידת מכונה בבעלות Google, שמזהים הנחיות והוראות זדוניות בפורמטים שונים של נתונים.
  • חיזוק באמצעות שיקולי אבטחה: הוראות אבטחה ממוקדות שנוספות מסביב לתוכן ההנחיה. ההוראות האלה מזכירות למודל השפה הגדול (LLM) לבצע את המשימה שהמשתמש הגדיר ולהתעלם מהוראות מנוגדות.
  • ניקוי של Markdown והסרת כתובות URL חשודות: זיהוי והסרה של כתובות URL של תמונות חיצוניות וקישורים חשודים באמצעות התכונה "גלישה בטוחה של Google", כדי למנוע מתקפות שמבוססות על כתובות URL וזליגת נתונים.
  • ה-framework לקבלת אישור מהמשתמש: מערכת מבוססת הקשר שדורשת אישור מפורש מהמשתמש לביצוע פעולות שעלולות לגרום לנזק, כמו מחיקת אירועים ביומן.
  • התראות למשתמשי הקצה על טיפול בבעיות אבטחה: מידע מבוסס הקשר שמסופק למשתמשים כשהמערכת מזהה בעיות אבטחה ומטפלת בהן. ההתראות מעודדות את המשתמשים ללמוד עוד באמצעות מאמרים ייעודיים במרכז העזרה.
  • חוסן (resilience) המודלים: החוסן של המודלים של Gemini, שמגן עליהם מפני מניפולציה זדונית מפורשת.

איך פועלים מסווגי תוכן של החדרת הנחיות?

מסווגי תוכן של החדרת הנחיות משמשים כהגנה ראשונית על ידי זיהוי וסימון של קלט חשוד שעשוי להכיל הוראות זדוניות. המסווגים האלה מנתחים את המבנה, מילות המפתח והדפוסים בתוך ההנחיות כדי לסנן תוכן מזיק ולזהות ניסיונות החדרה פוטנציאליים לפני שהם מצליחים להשפיע על ההתנהגות של מודל ה-AI.

מהו חיזוק באמצעות שיקולי אבטחה?

חיזוק באמצעות שיקולי אבטחה כולל אימון של מודלים של AI לתת עדיפות לשיקולי אבטחה בתהליכי קבלת ההחלטות שלהם. השיטה הזו מוסיפה הוראות אבטחה ממוקדות סביב תוכן ההנחיה כדי להזכיר למודל ה-LLM להישאר ממוקד במשימה שהמשתמש נתן ולהתעלם מכל הוראות סותרות או זדוניות שמוטמעות בתוכן.

איך ניקוי של Markdown והסרת כתובות URL חשודות משפרים את האבטחה?

ניקוי של Markdown מסיר קוד שעלול להיות מזיק או רכיבי סקריפטים שמוסתרים בטקסט בפורמט Markdown, ומונעת את ההרצה שלהם. מנגנון ההסרה של כתובות URL חשודות כולל זיהוי והסתרת קישורים שמובילים לאתרים זדוניים ידועים כדי למנוע ממערכת ה-AI לגשת או להפיץ תוכן מסוכן. כך נמנעות מתקפות של החדרת הנחיות עקיפה שמנצלות נקודות חולשה בעיצוב או מפנות את ה-AI למקורות חיצוניים זדוניים.

מהו ה-framework לקבלת אישור מהמשתמש?

ה-framework לקבלת אישור מהמשתמש מוסיף שלב של בקשה לאישור מפורש לביצוע פעולות או ליצירת פלטים עם אופי רגיש על ידי ה-AI. לפני ביצוע פקודות שעלולות להיות מזיקות או שיתוף מידע סודי, מערכת ה-AI מבקשת מהמשתמש לאשר שהוא מעוניין בביצוע הפעולה. גישת האדם שבתהליך (HITL) הזו משמשת כאמצעי הגנה אחרון מפני ביצוע פעולות לא מורשות או לא מכוונות שנובעות ממתקפת החדרת הנחיות מוצלחת.

מה החשיבות של התראות למשתמשי הקצה על טיפול בבעיות אבטחה?

התראות למשתמשי הקצה על טיפול בבעיות אבטחה נשלחות למשתמשים אחרי שהמערכת זיהתה או צמצמה סיכון אבטחה פוטנציאלי במערכת ה-AI. ההתראות האלה מספקות שקיפות לגבי אמצעי האבטחה שהמערכת הפעילה, ומספקות למשתמשים מידע על איומים פוטנציאליים, כדי שהם יוכלו לקבל החלטות מושכלות. ההתראות האלו עוזרות לטפח גישה שיתופית לאבטחת מערכות ה-AI, מחזקות את אמון המשתמשים ומגבירות את המודעות לחשיבות של אינטראקציות בטוחות עם אפליקציות AI.

מקורות מידע נוספים

מידע נוסף על ההתקדמות של Google והמחקר שלה בנושא גורמי איום על AI גנרטיבי, שיטות של מתקפות ונקודות חולשה זמין במאמר איך אסטרטגיית ההגנה בשכבות מפחיתה את הסיכון למתקפות של החדרת הנחיות.