
Image by Xavi Cabrera, from Unsplash
LegoGPT: הAI הופך קריאות טקסט ליצירות לגו
חוקרים באוניברסיטת קרנגי מלון הציגו את LegoGPT, מערכת AI חדשה שבונה יצירות לגו מהעולם האמיתי מתוך תיאורים מילוליים.
ממהר? הנה העובדות המהירות:
- מבטיחה יציבות פיזיתית באמצעות שימוש בהחזרה אחורה מבינת פיזיקה.
- הוכשרה על 47,000 מבנים יציבים של לגו וכתוביות GPT-4o.
- משתמשת ב-8 סוגים של לבנים בלבד בתוך מרחב של 20×20×20.
זוהי הAI הראשונה מסוגה שלא רק מעקבת אחר הוראת טקסט—כמו "כלי ממושך ומ streamlined"—אלא גם מוודאת שהמבנה הנוצר הוא יציב מבחינה פיזית וניתן לבנייה, לבנה ללבנה.
"כדי להשיג זאת, אנחנו מכינים בסיס נתונים ממוחשב, יציב מבחינה פיזיקלית, של עיצובים של לגו, ביחד עם כיתובים המשויכים אליהם," הסבירה הצוות במאמר המחקר שלהם.
LegoGPT הוכשר באמצעות למעלה מ-47,000 מודלים יציבים של לגו המשויכים לכיתובים מפורטים שנוצרו באמצעות GPT-4o. אלה נבנו מצורות תלת-ממדיות, שהופכות למבנים של לגו, ואז נבדקו ליציבות בעולם האמיתי באמצעות סימולציות פיזיקליות.
כל מבנה תואר גם מ-24 זוויות שונות, כדי שהAI יוכל ללמוד איך עיצובים שונים אמורים להיראות במילים.
הצוות השתמש בטכניקה מיוחדת שנקראת "חזרה לאחור תוך ייחוס לפיזיקה", שבה חלקי העיצוב הלא יציבים מוסרים ונבנים מחדש עד שהמבנה הכולל אינו מתמוטט. זה שיפר את שיעורי ההצלחה של הבנייה מ-24% ל-98.8%.
דגם ה-AI, שמבוסס על מודל Meta המוכר בשם LLaMA-3.2-Instruct, מחזאי איזה לגו להניח בהמשך – בדרך דומה לאופן שבו ChatGPT מחזאי את המילה הבאה. כל לגו שמוצע בבדיקה למיקום, גודל, והתנגשויות אפשריות לפני שמוסיפים אותו למודל.
יצירות LegoGPT יכולות להיות מובנות על ידי בני אדם ורובוטים. "הניסויים שלנו מראים ש-LegoGPT מייצר עיצובים של לגו יציבים, רבים ומרשימים מבחינה אסתטית, שמתאימים באופן מדויק להוראות הטקסט שהוזנו", כתבו החוקרים.
לעת עתה, LegoGPT משתמש בשמונה סוגים בסיסיים של לגו ופועלת בתוך מרחב של 20×20×20, אך הצוות מקווה להרחיב אותו.
המאגר המלא שלהם, הקוד והמודל הם נגישים ללא תשלום, כך שאחרים יכולים להמשיך לבנות על מחקר זה. בחלופין, ניתן פשוט לשחק עם הדגמה שלהם.
השאירו תגובה
בטל