למידת אוויר: סביבת חדר כושר להכשרת אלגוריתמים לחיזוק עמוק לניווט מל"טים

עדכון: 6 באוגוסט 2023
למידת אוויר: סביבת חדר כושר להכשרת אלגוריתמים לחיזוק עמוק לניווט מל"טים

רובוטיקאים ברחבי העולם ניסו לפתח כלי טיס בלתי מאוישים אוטונומיים (UAVs) שניתן לפרוס במהלך משימות חיפוש והצלה או שניתן להשתמש בהם כדי למפות אזורים גיאוגרפיים ולחיפוש מקורות. אולם, כדי לפעול באופן אוטונומי, מזל"טים צריכים להיות מסוגלים לנוע בבטחה וביעילות בסביבתם.

בשנים האחרונות, אלגוריתמים של למידת חיזוק (RL) השיגו תוצאות מבטיחות ביותר לאפשר אוטונומיה רבה יותר ברובוטים. עם זאת, רוב טכניקות ה- RL הקיימות מתמקדות בעיקר בעיצוב האלגוריתם מבלי להתחשב בהשלכותיו בפועל. כתוצאה מכך, כאשר האלגוריתמים מיושמים על מל"טים אמיתיים, הביצועים שלהם יכולים להיות שונים או מאכזבים.

לדוגמה, מכיוון שלרחפנים רבים יש יכולות מחשוב משולבות מוגבלות, אלגוריתמים של RL המאומנים בסימולציות יכולים לקחת זמן רב יותר לבצע תחזיות כאשר הם מיושמים על רובוטים אמיתיים. זמני החישוב הארוכים יותר יכולים להפוך את מל"ט לאיטי יותר ולהיענות פחות, מה שעלול להשפיע על תוצאות המשימה או לגרום לתאונות והתנגשויות.

חוקרים מאוניברסיטת הרווארד וממחקר Google פיתחו לאחרונה Air Learning, סימולטור קוד פתוח וסביבת חדר כושר שבו חוקרים יכולים לאמן אלגוריתמים של RL לניווט מל"טים. זה יכול לעזור לשפר את הביצועים של מל"טים אוטונומיים בהגדרות בעולם האמיתי.

"כדי להשיג אוטונומיה אמיתית במל"טים, יש צורך לבחון היבטים ברמת המערכת כגון בחירת המחשב המשולב", אמר סריוואטסאן קרישנן, אחד החוקרים שביצע את המחקר. "לכן, המטרה העיקרית של המחקר שלנו הייתה לספק את החסימות הבסיסיות שיאפשרו לחוקרים להעריך את האלגוריתמים האוטונומיים האלה באופן הוליסטי."

ב- Air Learning, סוכני כטב"מים יכולים להיחשף לתרחישי ניווט מאתגרים ולהכשיר אותם. באופן ספציפי יותר, ניתן להכשיר אותם במשימות הימנעות ממכשולים מנקודה לנקודה בשלוש סביבות מפתח, תוך שימוש בשתי טכניקות אימון הנקראות רשתות Q עמוקות (DQN) ואלגוריתמים אופטימיזציה למדיניות (PPO).

"Air Learning מספקת אבני יסוד לעיצוב והערכת אלגוריתמים של אוטונומיה באופן הוליסטי", אמר קרישנן. "הוא מספק מחוללי סביבה תואמי OpenAI שיאפשרו לחוקרים לאמן מספר אלגוריתמי למידת חיזוק ומדיניות מבוססת רשת עצבית."

בפלטפורמה שפיתחו קרישנן ועמיתיו, חוקרים יכולים להעריך את ביצועי האלגוריתמים שפיתחו לפי מדדי איכות טיסה (QoF) שונים. לדוגמה, הם יכולים להעריך את האנרגיה הנצרכת על ידי מזל"טים בעת שימוש באלגוריתמים שלהם, כמו גם את סיבולתם ואורך המסלול הממוצע שלהם בעת שימוש בחומרה מוגבלת משאבים, כגון Raspberry Pi.

"לאחר שתוכננו האלגוריתמים שלהם, חוקרים יכולים להשתמש בחומרה בתוך הלולאה כדי לחבר מחשב מוטבע ולהעריך את הביצועים של אלגוריתם האוטונומיה כאילו הוא פועל על מל"ט בפועל עם המחשב המשולב הזה", אמר קרישנן. "באמצעות טכניקות אלו ניתן לזהות צווארי בקבוק שונים של ביצועים ברמת המערכת בשלב מוקדם של תהליך העיצוב."

בעת הפעלת ניסויים על Air Learning, החוקרים גילו כי בדרך כלל יש פער בין ביצועים צפויים לבין תפקודם בפועל של מחשבים משולבים. אי התאמה זו יכולה להשפיע על הביצועים הכוללים של מל"טים, דבר שעלול להשפיע על פריסתם, תוצאות המשימה ובטיחותם.

"למרות שאנו מתמקדים במיוחד במל"טים, אנו מאמינים שניתן ליישם את המתודולוגיות שבהן השתמשנו על מערכות אוטונומיות אחרות, כגון מכוניות בנהיגה עצמית", אמר קרישנן. "בהתחשב במחשבים המשולבים האלה הם המוח של המערכות האוטונומיות, חסרה מתודולוגיה שיטתית כיצד לעצב אותן. כדי לעצב מחשבים משולבים ביעילות, ראשית עלינו להבין את צווארי הבקבוק בביצועים, ו- Air Learning מספק את החסימות הבסיסיות כדי להבין מהם צווארי הבקבוק של הביצועים. "

בעתיד, Air Learning יכולה להיות פלטפורמה בעלת ערך להערכת אלגוריתמים של RL שנועדו לאפשר הפעלה אוטונומית של מל"טים ומערכות רובוטיות אחרות. קרישנן ועמיתיו משתמשים כעת בפלטפורמה שיצרו כדי להתמודד עם מגוון בעיות מחקר, החל מפיתוח מל"טים שנועדו להשלים משימות ספציפיות ועד ליצירת מחשבים משולבים מיוחדים.

"ידוע כי למידת חיזוק איטית לשמצה באימונים", אמר קרישנן. "אנשים בדרך כלל מזרזים את אימוני ה- RL על ידי השלכת משאבי מחשוב נוספים, שעלולים להיות מחסומי כניסה יקרים ונמוכים יותר עבור חוקרים רבים. עבודתנו QuaRL (למידת חיזוק לכמות) משתמשת בכמות כדי להאיץ אימון RL והסקת מסקנות. השתמשנו ב- Air Learning כדי להציג את היישום האמיתי של QuaRL בפריסת מדיניות RL גדולה יותר על מל"טים מוגבלים בזיכרון. "

מחשבים משולבים משמשים כ"מוחם "של מערכות אוטונומיות, ולכן הם אמורים להיות מסוגלים להריץ ביעילות מגוון אלגוריתמים. אולם עיצוב מחשבים אלה עשוי להיות יקר מאוד וחסר מתודולוגיה עיצובית שיטתית. לכן, במחקריהם הבאים, קרישנן ועמיתיו מתכננים לחקור כיצד הם יכולים להפוך את העיצוב של מחשבים משולבים עבור מל"טים אוטונומיים, כדי להוריד את עלותם ולמקסם את ביצועי המל"ט.

"כבר השתמשנו ב- Air Learning כדי לאמן ולבדוק מספר מדיניות ניווט לתרחישי פריסה שונים", אמר קרישנן. "בנוסף, כחלק מהמחקר שלנו בנושא אוטונומי יישומים, יצרנו מל"ט אוטונומי לחלוטין לחיפוש מקורות אור. העבודה השתמשה ב- Air Learning כדי להכשיר ולפרוס מדיניות מחפשת אור להפעלה על מל"ט זעיר המופעל על ידי מיקרו. "

ELE טיימס
+ פוסטים
  • Bluetest ו-Anritsu תומכים במדידת OTA ב-IEEE 802.11ax 6 GHz-Band (Wi-Fi 6ה) מכשירים
  • מהנדסים עושים התקדמות קריטית בעיצוב מחשבים קוונטיים
  • Global Chip Crunch עשוי להימשך עד 2023, אומר מנכ"ל Infineon
  • שימוש באלגוריתמים של למידה עמוקה כדי לתת לרוכבי אופניים את 'הגל הירוק' באותות תנועה