שימוש בלימוד חיזוק sim-to-real כדי לאמן רובוטים לבצע משימות פשוטות בסביבות רחבות

פריסה לסביבות חיצוניות. קרדיט: איליה רדוסוב

צוות של רובוטיסטים מאוניברסיטת קליפורניה, ברקלי, מדווח כי ניתן לאמן רובוטים לבצע משימות פשוטות יחסית על ידי שימוש בלימוד חיזוק sim-to-real כדי לאמן אותם. במחקר שלהם, שפורסם בכתב העת מדע רובוטיקה, הקבוצה אימנה רובוט ללכת בסביבות לא מוכרות בזמן שהוא נושא משאות שונים, כל זאת מבלי להתהפך.

במהלך השנים האחרונות, רובוטיסטים השתמשו במגוון טכניקות כדי לאמן רובוטים לנוע ביעילות ובמהירות על פני סביבות מגוונות. אבל כפי שמציינים החוקרים עם המאמץ החדש הזה, לרובוטים כאלה אין הרבה מאוד יישומים שימושיים. הם מציעים שרובוטים שמסוגלים לבצע משימות ארציות בצורה איטית אך יעילה יהיו הרבה יותר שימושיים. לשם כך, הם פנו ללימוד חיזוק סים-לאמיתי.

פריסה בסביבות חיצוניות. קרדיט: איליה רדוסוב

הטכניקה כוללת אימון של גרסה מדומה של רובוט לביצוע משימות רצויות על ידי חשיפתו למיליארדי דוגמאות בסביבות מדומה. השיטה כוללת גם שימוש במערכת תגמול/עונש כחלק מהאימון של הרובוט - אם הוא עושה משהו נכון בזמן שהוא מנסה להשיג מטרה, הוא מתוגמל על ידי קבלת "1", למשל. אם הוא עושה משהו לא בסדר, לעומת זאת, הוא מקבל "-1". עם הזמן, הוא משפר את הביצועים שלו כאשר הוא מבקש להגדיל את ספירת התגמולים שלו.

צוות המחקר השתמש בגישה כדי לאמן רובוט בשם Digit לנווט בשביל לאורך מדרכה באזור לא ידוע של עיירה ולהתאושש לאחר שהותקף שוב ושוב על ידי כדור גדול, להתגבר על ריסון פיזי, ללכת על פני חומרים שעלולים לגרום לו למעוד, לסחוב תיק גב, לשאת שקית אשפה לפח ולהשתמש בתיק לשאת חפצים אישיים.

ניסויים פנימיים ואדום סימולציה. קרדיט: איליה רדוסאבוביץ'

החוקרים מציעים שניתן להשתמש בלמידת חיזוק סים לאמית כדי לאמן רובוטים בסביבות אמיתיות כמו הבית, המשרד או רצפת המפעל. הרעיון, הם מציינים, הוא להפוך רובוטים לשימושיים יותר.