التعلم الجوي: بيئة رياضية لتدريب خوارزميات التعزيز العميقة للملاحة بدون طيار

تحديث: 6 أغسطس 2023
التعلم الجوي: بيئة رياضية لتدريب خوارزميات التعزيز العميقة للملاحة بدون طيار

يحاول علماء الروبوتات في جميع أنحاء العالم تطوير مركبات جوية ذاتية التشغيل بدون طيار (UAVs) يمكن نشرها أثناء مهام البحث والإنقاذ أو التي يمكن استخدامها لرسم خريطة للمناطق الجغرافية والبحث عن المصدر. للعمل بشكل مستقل ، يجب أن تكون الطائرات بدون طيار قادرة على التحرك بأمان وكفاءة في بيئتها.

في السنوات الأخيرة ، حققت خوارزميات التعلم المعزز (RL) نتائج واعدة للغاية في تمكين قدر أكبر من الاستقلالية في الروبوتات. ومع ذلك ، تركز معظم تقنيات RL الحالية بشكل أساسي على تصميم الخوارزمية دون النظر إلى آثارها الفعلية. نتيجة لذلك ، عندما يتم تطبيق الخوارزميات على الطائرات بدون طيار الحقيقية ، يمكن أن يكون أداؤها مختلفًا أو مخيبًا للآمال.

على سبيل المثال ، نظرًا لأن العديد من الطائرات بدون طيار لديها قدرات حوسبة محدودة على متنها ، فإن خوارزميات RL المدربة على المحاكاة قد تستغرق وقتًا أطول لعمل تنبؤات عند تطبيقها على روبوتات حقيقية. يمكن أن تجعل أوقات الحساب الأطول هذه الطائرة بدون طيار أبطأ وأقل استجابة ، مما قد يؤثر بدوره على نتيجة المهمة أو يؤدي إلى وقوع حوادث واصطدامات.

قام باحثون في جامعة هارفارد و Google Research مؤخرًا بتطوير Air Learning ، وهو محاكي مفتوح المصدر وبيئة رياضية حيث يمكن للباحثين تدريب خوارزميات RL على الملاحة بدون طيار. يمكن أن يساعد ذلك في تحسين أداء الطائرات بدون طيار المستقلة في إعدادات العالم الحقيقي.

قال سريفاتسان كريشنان ، أحد الباحثين الذين أجروا الدراسة: "لتحقيق استقلالية حقيقية في الطائرات بدون طيار ، هناك حاجة للنظر في جوانب على مستوى النظام مثل اختيار الكمبيوتر الموجود على متن الطائرة". "لذلك ، كان الهدف الأساسي من دراستنا هو توفير الكتل الأساسية التي ستسمح للباحثين بتقييم خوارزميات الاستقلالية هذه بشكل شامل."

في التعلم الجوي ، يمكن أن يتعرض وكلاء الطائرات بدون طيار لسيناريوهات الملاحة الصعبة وتدريبهم عليها. وبشكل أكثر تحديدًا ، يمكن تدريبهم على مهام تجنب العوائق من نقطة إلى نقطة في ثلاث بيئات رئيسية ، باستخدام تقنيتين تدريبيتين تسمى شبكات Q العميقة (DQN) وخوارزميات تحسين السياسة القريبة (PPO).

قال كريشنان: "يوفر التعلم الجوي اللبنات الأساسية لتصميم وتقييم خوارزميات الاستقلالية بطريقة شاملة". "إنه يوفر مولدات بيئة متوافقة مع صالة الألعاب الرياضية OpenAI والتي ستسمح للباحثين بتدريب العديد من خوارزميات التعلم المعزز والسياسات القائمة على الشبكة العصبية."

على المنصة التي طورها كريشنان وزملاؤه ، يمكن للباحثين تقييم أداء الخوارزميات التي طوروها وفقًا لمقاييس جودة الرحلة المختلفة (QoF). على سبيل المثال ، يمكنهم تقييم الطاقة التي تستهلكها الطائرات بدون طيار عند استخدام الخوارزميات الخاصة بهم ، بالإضافة إلى قدرتها على التحمل ومتوسط ​​طول المسار عند استخدام أجهزة محدودة الموارد ، مثل Raspberry Pi.

قال كريشنان: "بمجرد تصميم الخوارزميات الخاصة بهم ، يمكن للباحثين استخدام الأجهزة في الحلقة لتوصيل جهاز كمبيوتر مضمن وتقييم كيفية أداء خوارزمية الاستقلالية كما لو كانت تعمل على طائرة بدون طيار فعلية مع هذا الكمبيوتر الموجود على متن الطائرة". "باستخدام هذه التقنيات ، يمكن تحديد الاختناقات المختلفة في الأداء على مستوى النظام في وقت مبكر من عملية التصميم."

عند إجراء الاختبارات على Air Learning ، وجد الباحثون أنه عادة ما يكون هناك تناقض بين الأداء المتوقع والأداء الفعلي لأجهزة الكمبيوتر الموجودة على متن الطائرة. يمكن أن يؤثر هذا التناقض على الأداء العام للطائرات بدون طيار ، مما قد يؤثر على انتشارها ونتائج مهمتها وسلامتها.

قال كريشنان: "على الرغم من أننا نركز بشكل خاص على الطائرات بدون طيار ، إلا أننا نعتقد أن المنهجيات التي استخدمناها يمكن تطبيقها على أنظمة مستقلة أخرى ، مثل السيارات ذاتية القيادة". "نظرًا لأن أجهزة الكمبيوتر الموجودة على متن الطائرة هي دماغ الأنظمة المستقلة ، فهناك نقص في المنهجية المنهجية حول كيفية تصميمها. لتصميم أجهزة الكمبيوتر على متن الطائرة بكفاءة ، نحتاج أولاً إلى فهم معوقات الأداء ، وتوفر Air Learning اللبنات الأساسية لفهم ماهية اختناقات الأداء ".

في المستقبل ، يمكن أن يثبت Air Learning أنه منصة قيمة لتقييم خوارزميات RL المصممة لتمكين التشغيل المستقل للطائرات بدون طيار والأنظمة الروبوتية الأخرى. يستخدم كريشنان وزملاؤه الآن المنصة التي أنشأوها لمعالجة مجموعة متنوعة من المشكلات البحثية ، بدءًا من تطوير الطائرات بدون طيار المصممة لإكمال مهام محددة إلى إنشاء أجهزة كمبيوتر متخصصة على متن الطائرة.

قال كريشنان: "من المعروف أن التعلم المعزز بطيء التدريب". "يسرّع الأشخاص عمومًا تدريب RL من خلال طرح المزيد من موارد الحوسبة ، والتي يمكن أن تكون باهظة الثمن وتقلل من حواجز الدخول للعديد من الباحثين. يستخدم عملنا QuaRL (التعلم المعزز الكمي) التكميم لتسريع تدريب RL والاستدلال. استخدمنا Air Learning لإظهار التطبيق الواقعي لـ QuaRL في نشر سياسات RL الأكبر على الطائرات بدون طيار ذات الذاكرة المحدودة ".

تعمل أجهزة الكمبيوتر الموجودة على متن الطائرة "كعقل" للأنظمة المستقلة ، وبالتالي يجب أن تكون قادرة على تشغيل مجموعة متنوعة من الخوارزميات بكفاءة. ومع ذلك ، قد يكون تصميم أجهزة الكمبيوتر هذه مكلفًا للغاية ويفتقر إلى منهجية تصميم منهجية. لذلك ، يخطط كريشنان وزملاؤه في دراساتهم التالية لاستكشاف كيف يمكنهم أتمتة تصميم أجهزة الكمبيوتر المحمولة للطائرات بدون طيار ذاتية القيادة ، لتقليل تكلفتها وزيادة أداء الطائرات بدون طيار.

قال كريشنان: "لقد استخدمنا بالفعل Air Learning لتدريب واختبار العديد من سياسات الملاحة لسيناريوهات نشر مختلفة". "بالإضافة إلى ذلك ، كجزء من بحثنا عن الحكم الذاتي التطبيقات، أنشأنا طائرة بدون طيار مستقلة تمامًا للبحث عن مصادر الضوء. استخدم العمل Air Learning للتدريب ونشر سياسة البحث عن الضوء للعمل على طائرة بدون طيار صغيرة تعمل بوحدة تحكم دقيقة ".

ELE تايمز
+ المشاركات
  • Bluetest وAnritsu يدعمان قياس OTA على نطاق IEEE 802.11ax 6 جيجا هرتز (واي فاي 6E) الأجهزة
  • يحقق المهندسون تقدمًا حاسمًا في تصميم الكمبيوتر الكمي
  • قد تستمر أزمة الرقائق العالمية حتى عام 2023 ، كما يقول الرئيس التنفيذي لشركة Infineon
  • استخدام خوارزميات التعلم العميق لمنح راكبي الدراجات "الموجة الخضراء" عند إشارات المرور