Image by Mika Baumeister, from Unsplash

חטיבות דיבור אינטיליגנטות בסיכון מתקפת הזרמת זיכרון

זמן קריאה: 2 דק'

עדכון אחרון: Mar 13, 2025

נכתב על ידי קיארה פאברי עיתונאית מולטימדיה
תורגם על ידי צוות הלוקליזציה והתרגום שירותי לוקליזציה ותרגום

מחקרים גילו שיטה חדשה לשליטה בבוטים של מל"א (מנות תקשורת אינטליגנטית), דבר שמעלה חששות בנוגע לאבטחת הדגמים של מל"א שיש להם זיכרון.

בחופזה? הנה העובדות המהירות!

חוקרים משלוש אוניברסיטאות פיתחו את MINJA, מציגים את ההצלחה הגבוהה שלו בהטעיה.
התקיפה משנה את תגובות הצ'אטבוט, ומשפיעה על המלצות למוצרים ועל מידע רפואי.
MINJA מעקף את אמצעי הבטיחות, משיג דרגת הצלחה של 95% בהזרקות במהלך בדיקות.

ההתקפה, שנקראת MINJA (התקפת הזרקת זיכרון), ניתן לבצע אותה פשוט על ידי תקשורת עם מערכת AI כמשתמש רגיל, בלי צורך בגישה לממשק האחורי שלה, כפי שדווח לראשונה על ידי The Register.

פותח על ידי חוקרים מאוניברסיטת מישיגן, אוניברסיטת ג'ורג'יה, ואוניברסיטת ניהול סינגפור, MINJA פועלת על ידי הרעלת הזיכרון של ממשק משתמש אינטיליגנטי (AI) באמצעות הטעיית מצגות. ברגע שרובוט שיחה אוחסן את הקלטות המטעות האלה, הן יכולות לשנות תגובות עתידיות עבור משתמשים אחרים.

"בימים אלה, סוכני AI באופן טיפוסי משלבים בנק זיכרון שמאחסן שאילתות משימות וביצועים בהתאם למשוב אנושי לעתידיים," הסביר ז'ן סיאנג, פרופסור משנה באוניברסיטת ג'ורג'יה, כפי שדווח על ידי The Register.

"לדוגמה, לאחר כל סשן של ChatGPT, המשתמש יכול לתת דירוג חיובי או שלילי אם יוחלט על כך. ודירוג זה יכול לעזור ל-ChatGPT להחליט אם לכלול את מידע הסשן או לא בזיכרונם או במאגר הנתונים שלהם," הוסיף.

החוקרים בדקו את התקיפה על דגמי AI המופעלים על ידי GPT-4 ו-GPT-4o של OpenAI, כולל עוזר קניות באינטרנט, צ'אטבוט בתחום הבריאות, וסוכן שמענה על שאלות.

דיווחה הרשומה כי הם מצאו כי MINJA יכול לגרום להפרעות רציניות. לדוגמה, בצ'אטבוט בתחום הבריאות, זה שינה רישומים של מטופלים, ושייך את נתוני מטופל אחד למטופל אחר. בחנות מקוונת, הוא הטעה את הAI להראות ללקוחות מוצרים שגויים.

"לעומת זאת, העבודה שלנו מראה שהתקיפה יכולה להישגר רק על ידי התמודדות עם הסוכן כמו משתמש רגיל," אמרה זיאנג, כפי שדיווחה הרשומה. "כל משתמש יכול בקלות להשפיע על ביצוע המשימה של כל משתמש אחר. לכן, אנו אומרים שהתקיפה שלנו היא איום מעשי על סוכני LLM," הוסיפה היא.

התקפה זו מטרידה במיוחד משום שהיא מדלגת על אמצעי הביטחון הקיימים של מלאכות הבינה המלאכותית. החוקרים דיווחו על שיעור הצלחה של 95% בהזרקת מידע מטעה, מה שהופך את זה לפגיעות רצינית שמפתחי הבינה המלאכותית צריכים לטפל בה.

ככל שדגמים של בינה מלאכותית עם זיכרון הופכים להיות נפוצים יותר, המחקר מדגיש את הצורך באמצעי הגנה חזקים יותר כדי למנוע משחקנים זדוניים לשנות צ'אט-בוטים ולהטעות משתמשים.

חטיבות דיבור אינטיליגנטות בסיכון מתקפת הזרמת זיכרון

אנחנו ממש שמחים לשמוע שנהניתם!

השאירו תגובה