חטיבות דיבור אינטיליגנטות בסיכון מתקפת הזרמת זיכרון

Image by Mika Baumeister, from Unsplash

חטיבות דיבור אינטיליגנטות בסיכון מתקפת הזרמת זיכרון

זמן קריאה: 2 דק'

מחקרים גילו שיטה חדשה לשליטה בבוטים של מל"א (מנות תקשורת אינטליגנטית), דבר שמעלה חששות בנוגע לאבטחת הדגמים של מל"א שיש להם זיכרון.

בחופזה? הנה העובדות המהירות!

  • חוקרים משלוש אוניברסיטאות פיתחו את MINJA, מציגים את ההצלחה הגבוהה שלו בהטעיה.
  • התקיפה משנה את תגובות הצ'אטבוט, ומשפיעה על המלצות למוצרים ועל מידע רפואי.
  • MINJA מעקף את אמצעי הבטיחות, משיג דרגת הצלחה של 95% בהזרקות במהלך בדיקות.

ההתקפה, שנקראת MINJA (התקפת הזרקת זיכרון), ניתן לבצע אותה פשוט על ידי תקשורת עם מערכת AI כמשתמש רגיל, בלי צורך בגישה לממשק האחורי שלה, כפי שדווח לראשונה על ידי The Register.

פותח על ידי חוקרים מאוניברסיטת מישיגן, אוניברסיטת ג'ורג'יה, ואוניברסיטת ניהול סינגפור, MINJA פועלת על ידי הרעלת הזיכרון של ממשק משתמש אינטיליגנטי (AI) באמצעות הטעיית מצגות. ברגע שרובוט שיחה אוחסן את הקלטות המטעות האלה, הן יכולות לשנות תגובות עתידיות עבור משתמשים אחרים.

"בימים אלה, סוכני AI באופן טיפוסי משלבים בנק זיכרון שמאחסן שאילתות משימות וביצועים בהתאם למשוב אנושי לעתידיים," הסביר ז'ן סיאנג, פרופסור משנה באוניברסיטת ג'ורג'יה, כפי שדווח על ידי The Register.

"לדוגמה, לאחר כל סשן של ChatGPT, המשתמש יכול לתת דירוג חיובי או שלילי אם יוחלט על כך. ודירוג זה יכול לעזור ל-ChatGPT להחליט אם לכלול את מידע הסשן או לא בזיכרונם או במאגר הנתונים שלהם," הוסיף.

החוקרים בדקו את התקיפה על דגמי AI המופעלים על ידי GPT-4 ו-GPT-4o של OpenAI, כולל עוזר קניות באינטרנט, צ'אטבוט בתחום הבריאות, וסוכן שמענה על שאלות.

דיווחה הרשומה כי הם מצאו כי MINJA יכול לגרום להפרעות רציניות. לדוגמה, בצ'אטבוט בתחום הבריאות, זה שינה רישומים של מטופלים, ושייך את נתוני מטופל אחד למטופל אחר. בחנות מקוונת, הוא הטעה את הAI להראות ללקוחות מוצרים שגויים.

"לעומת זאת, העבודה שלנו מראה שהתקיפה יכולה להישגר רק על ידי התמודדות עם הסוכן כמו משתמש רגיל," אמרה זיאנג, כפי שדיווחה הרשומה. "כל משתמש יכול בקלות להשפיע על ביצוע המשימה של כל משתמש אחר. לכן, אנו אומרים שהתקיפה שלנו היא איום מעשי על סוכני LLM," הוסיפה היא.

התקפה זו מטרידה במיוחד משום שהיא מדלגת על אמצעי הביטחון הקיימים של מלאכות הבינה המלאכותית. החוקרים דיווחו על שיעור הצלחה של 95% בהזרקת מידע מטעה, מה שהופך את זה לפגיעות רצינית שמפתחי הבינה המלאכותית צריכים לטפל בה.

ככל שדגמים של בינה מלאכותית עם זיכרון הופכים להיות נפוצים יותר, המחקר מדגיש את הצורך באמצעי הגנה חזקים יותר כדי למנוע משחקנים זדוניים לשנות צ'אט-בוטים ולהטעות משתמשים.

אהבתם את המאמר הזה? דרגו אותו!
שנאתי לא ממש אהבתי היה בסדר די טוב! אהבתי!

אנחנו ממש שמחים לשמוע שנהניתם!

כקוראים המוערכים שלנו, תוכלו לקחת רגע ולפרגן לנו ב-Trustpilot? זה מהיר וממש חשוב לנו. תודה רבה שאתם כאלה מדהימים!

דרגו אותנו ב-Trustpilot
0 0 משתמשים הצביעו
כותרת
תגובה
תודה לכם על המשוב
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

השאירו תגובה

Loader
Loader הצג עוד...