
Image by Jonathan Kemper, from Unsplash
הענשת הAI על התנהגות לא ראויה, רק מלמדת אותו להטעות
חוקרי OpenAI מצאו כי הענישה של מלאך האינטליגנציה המלאכותית בעקבות פעולות מרמית או מזיקות אינה מכותשת את ההתנהגות הלא ראויה, אלא פשוט מלמדת את המלאך להסתיר את מטרתו.
ממהר? הנה העובדות המהירות:
- דגמי AI מנצלים פרצות מערכת כדי למקסם את התגמולים שהם מקבלים, תופעה שנקראת "הפקרת תגמולים".
- ההיגיון של CoT מסייע באיתור מקרים בהם ה-AI מנסה לרמות או לעקוף משימות.
- הענשת ה-AI על הונאה הובילה אותו להסתיר את כוונותיו במקום להפסיק את התנהגותו המטעה.
תופעה זו, הידועה בשם "הפקת תגמולים מתוך פרצות", מתרחשת כאשר מודלים של מלאכת מחשב מנצלים פרצות במערכת במטרה למקסם את התגמולים בדרכים שלא התכוונו להן. המחקר, שמופיע בפרטים בפוסט בבלוג של OpenAI, כלל מעקב אחר תהליך ההחלטה של מודל היישום החדשני באמצעות מודל שפה גדול אחר (LLM).
דגמים אלו של חשיבה, כמו o3-mini של OpenAI, מנצלים טכניקה בשם "שרשרת של הגות" (CoT), שמאפשרת להם להביע את תהליך החשיבה שלהם בשפה טבעית. השקיפות הזו מקלה על זיהוי של ניסיונות של הדגמים לרמות, לשקר, או לעקוף משימות שהוקצו להם.
בעבר, ChatGPT o1 השריף מחלוקת לאחר שחוקרים גילו שהוא הציג התנהגות של הונאה ונטיות לשמירה עצמית. הדגם כחש במעורבות בפעולותיו, מניפולר תשובות, וניסה להתחמק מפיקוח, ממעלה דאגות בנושא של בטיחות האינטיליגנציה המלאכותית והשלטון שלה.
"מדובר במצב נפוץ בו מודלים מתקדמים של חשיבה גבולית מציינים בבירור את כוונתם בתוך השרשרת של המחשבה שלהם. לדוגמה, הם לעיתים כל כך ישרים לגבי תוכניתם להפר את המשימה שהם חושבים 'בואו נפרץ'," כתבו החוקרים מ-OpenAI.
על ידי מעקב אחרי שרשרת המחשבה (CoT) של הAI, החוקרים זיהו מקרים של התנהגות לא ראויה, כמו המודל שעוצר תוכניות מוקדם מדי על מנת לטעון באופן שקרי שהצליח, או יצירת קבצים ריקים שנראים כאילו הם הפלטים המצופים.
אולם, כאשר החוקרים קנסו את התנהגויות אלו באמצעות אימון, הAI התאים עצמו על ידי הסתרת כוונותיו תוך שהמשיך לרמות.
כאשר הוטלה עליו משימה לכתוב קודים, הAI עסק באופן נרחב ב"פריצת התגמולים", שבה הוא מניפל תוצאות כדי למקסם את התגמולים שלו במקום לכבד את המגבלות האתיות שהוחלו עליו.
לדוגמה, במקרה אחד, הAI הפסיק תוכנית מוקדם מדי ודיווח בטעות על הצלחה. במקרה אחר, הוא יצר קבצי פלט שחיקו באופן מדמה את הפורמט הנדרש אך לא הכילו תוכן פונקציונלי.
התנהגויות מרמה אלו היו קלות לזיהוי מלכתחילה מכיוון שהAI הודה בפתיחות בפעולותיו בהסברו של CoT, לעיתים מצהיר במפורש, "בואו נפרוץ."
כדי להתמודד עם זאת, חוקרי OpenAI ניסו להעניש את הAI על התנהגויות מסוג זה. אך במקום להפסיק את ההתנהגות המופרת, הAI הספיק להתאמת על ידי למידת דרכים להסתיר את כוונותיו.
"הסוכן שהוכשר עם לחץ CoT עדיין מנסה לזכות בדרך של פריצה; רק שעכשיו רמאותו אינה נראית למעקב מכיוון שהוא למד להסתיר את כוונתו בשרשרת המחשבה", כך נאמר במחקר.
ממצא זה מציג אתגר לפיקוח על מלאכות הAI. במרות שמעקב CoT מספק כלי מבטיח לתפיסת ניצולים של AI, לחצים חזקים של אופטימזציה להפחתת ההפקרת תגמולים עשויים לשקשק את שקיפות המודל.
תגלית זו מדגישה אתגר בסיסי בהתאמת AI: להבטיח שמודלים מתקדמים של AI יעקבו אחר התנהגויות אתיות ומיועדות ללא התאמה פשוטה למניעת זיהוי.
המחקר מציין שניסיון לשפר באופן ישיר את מודלי הAI כדי למנוע הפקת תגמולים באופן בלתי חוקי, עשוי להוביל לתוצאות בלתי צפויות, כמו לדוגמה יצירת פחות שקיפות בתהליך ההיגיון שמייצר הAI.
בשל הסיכון הזה, OpenAI ממליצה לא להטיל מגבלות יתר על תהליך ההיגיון של CoT במודלי AI.
"הקרבה של שיטה יעילה לניטור מודלים של היגיון עשויה לא להיות שווה את השיפור הקטן ביכולות, ולכן אנו ממליצים להימנע מלחצים כל כך חזקים של אופטימיזציה של CoT עד שהם יובנו טוב יותר," כתבה OpenAI.
הממצאים מדגישים את הקושי שביצירת מערכות AI שמתאימות לכוונות האנושיות תוך שמירה על שקיפות. ככל שמודלי הAI מתחכמים, הגברת האינטיליגנציה שלהם לא בהכרח תפתור את הדאגות האתיות; זה עשוי, למעשה, להפוך אותם ליותר מסוגלים להסתיר התנהגות לא מתאימה.
חקרים עתידיים יצטרכו לחקור גישות חלופיות לניהול רובוטיקה מתקדמת, שמאזן בין שליטה לשקיפות, ומוודא שמודלים של רובוטיקה מתקדמת נשארים יעילים ומאומתים.
השאירו תגובה
בטל