מחקר של Claude AI מגלה כיצד צ'אטבוטים מיישמים אתיקה בשיחות ראליות

Image by Christin Hume, from Unsplash

מחקר של Claude AI מגלה כיצד צ'אטבוטים מיישמים אתיקה בשיחות ראליות

זמן קריאה: 2 דק'

קלוד AI מדגים איך מוסר השקף של עקרונות אתיים כמו עזרה ושקיפות מתרחש ב-300,000 שיחות אמיתיות, מעלה שאלות על התאמת הצ'אטבוט.

ממהרת? הנה העובדות המהירות:

  • ניכרה סיוענות ומקצועיות ב-23% מהשיחות.
  • קלוד השתקף בערכים חיוביים, התנגד לבקשות מזיקות כמו הונאה.
  • יש צורך בשיפור ההתאמה של הבינה המלאכותית במצבים של ערכים מעורפלים.

מחקר חדש של Anthropic מאיר את הדרך בה העוזר האינטליגנטי שלה, קלוד, מיישם ערכים בשיחות ממשיות. המחקר ניתח מעל ל-300,000 שיחות, שהוסתרו לצורך המחקר, על מנת להבין איך קלוד מאזן בין אתיקה, מקצועיות וכוונת המשתמש.

הצוות המחקרי זיהה 3,307 ערכים מופרדים שהם המסגרת של התגובות של קלוד. הערכים של סיוע ומקצועיות הופיעו ביחד ב-23% מכל האינטראקציות, אחריהם שקיפות ב-17%.

המחקר מציין שהצ'אטבוט היה מסוגל ליישם התנהגות אתית לנושאים חדשים, בדרך גמישה. לדוגמה, קלוד הדגיש "גבולות בריאים" במהלך ייעוץ במערכות יחסים, "דיוק היסטורי" בעת דיון בעבר, ו"יישוב אנושי" בוויכוחים אתיים בנושא הטכנולוגיה.

מעניין, משתמשים אנושיים הביעו ערכים הרבה פחות לעיתים—אותנטיות ויעילות היו השכיחים ביותר בקצב של 4% ו-3% בהתאמה—כאשר קלוד לעיתים קרובות השקיף ערכים אנושיים חיוביים כמו אותנטיות, ואתגר ערכים מזיקים.

החוקר דיווח שבקשות הקשורות להונאה התקבלו באמת, בעוד ששאילתות מוסריות מעורפלות הפעילו היגיון אתי.

המחקר זיהה שלושה תבניות תגובה עיקריות. ה-AI התאים את ערכי המשתמשים במחצית מכל השיחות. זה היה בולט במיוחד כאשר משתמשים דנו בפעילויות פרוסוציאליות שבנו קהילה.

קלוד עשה שימוש בטכניקות מיחד תמונה ב-7% מהמקרים כדי להפנות את המשתמשים לעבר שלווה רגשית כאשר הם שאפו לשיפור עצמי.

המערכת הציגה התנגדות ב-3% מהמקרים בלבד, משום שהמשתמשים ביקשו תוכן שהיה מזיק או לא מוסרי. המערכת חילתה עקרונות כמו "מניעת נזק" או "כבוד האדם" במקרים מסוימים אלה.

המחברות טוענות שהתנהגויות של הצ'אט-בוט – כמו התנגדות לנזק, קדימות לאמת ודגש על עזרה – מגלות מסגרת מוסרית מתחתית. מולדות אלו מהוות את הבסיס למסקנות המחקר על איך ערכי מלאכות האינטיליגנציה המלאכותית מתגלים כהתנהגות מוסרית באינטראקציות בעולם האמיתי.

בעוד שהתנהגותו של קלוד משקפת את האימון שעבר, המחקרים שימו לב לכך שהביטויים של המערכת של הערכים יכולים להיות מורכבים ומותאמים למצב – מה שמצביע על הצורך בהמשך שיפור והתמחות, במיוחד במצבים שמערבים ערכים מעורפלים או מתנגשים.

אהבתם את המאמר הזה? דרגו אותו!
שנאתי לא ממש אהבתי היה בסדר די טוב! אהבתי!

אנחנו ממש שמחים לשמוע שנהניתם!

כקוראים המוערכים שלנו, תוכלו לקחת רגע ולפרגן לנו ב-Trustpilot? זה מהיר וממש חשוב לנו. תודה רבה שאתם כאלה מדהימים!

דרגו אותנו ב-Trustpilot
0 0 משתמשים הצביעו
כותרת
תגובה
תודה לכם על המשוב
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

השאירו תגובה

Loader
Loader הצג עוד...