Air Learning: Ein Fitnessstudio zum Trainieren von Tiefenverstärkungsalgorithmen für die Navigation von UAVs

Update: 6. August 2023
Air Learning: Ein Fitnessstudio zum Trainieren von Tiefenverstärkungsalgorithmen für die Navigation von UAVs

Robotiker weltweit haben versucht, autonome unbemannte Luftfahrzeuge (UAVs) zu entwickeln, die bei Such- und Rettungsmissionen eingesetzt werden oder zur Kartierung geografischer Gebiete und zur Quellensuche verwendet werden könnten. Um autonom zu agieren, sollten sich Drohnen jedoch sicher und effizient in ihrer Umgebung bewegen können.

In den letzten Jahren haben Algorithmen des Reinforcement Learning (RL) vielversprechende Ergebnisse erzielt, um mehr Autonomie in Robotern zu ermöglichen. Die meisten existierenden RL-Techniken konzentrieren sich jedoch hauptsächlich auf das Design des Algorithmus, ohne seine tatsächlichen Auswirkungen zu berücksichtigen. Wenn die Algorithmen auf echte UAVs angewendet werden, kann ihre Leistung daher unterschiedlich oder enttäuschend sein.

Da beispielsweise viele Drohnen nur über begrenzte Rechenkapazitäten an Bord verfügen, können in Simulationen trainierte RL-Algorithmen länger brauchen, um Vorhersagen zu treffen, wenn sie auf realen Robotern angewendet werden. Diese längeren Rechenzeiten können ein UAV langsamer und weniger reaktionsschnell machen, was wiederum das Ergebnis einer Mission beeinflussen oder zu Unfällen und Kollisionen führen könnte.

Forscher der Harvard University und Google Research haben kürzlich Air Learning entwickelt, einen Open-Source-Simulator und eine Fitnessstudio-Umgebung, in der Forscher RL-Algorithmen für die UAV-Navigation trainieren können. Dies könnte dazu beitragen, die Leistung autonomer UAVs in realen Umgebungen zu verbessern.

„Um echte Autonomie in UAVs zu erreichen, müssen Aspekte auf Systemebene wie die Wahl des Bordcomputers betrachtet werden“, sagte Srivatsan Krishnan, einer der Forscher, die die Studie durchgeführt haben. „Das Hauptziel unserer Studie war es daher, die grundlegenden Bausteine ​​bereitzustellen, die es den Forschern ermöglichen, diese Autonomiealgorithmen ganzheitlich zu bewerten.“

Beim Air Learning können UAV-Agenten herausfordernden Navigationsszenarien ausgesetzt und trainiert werden. Genauer gesagt können sie auf Punkt-zu-Punkt-Hindernisvermeidungsaufgaben in drei Schlüsselumgebungen trainiert werden, wobei zwei Trainingstechniken verwendet werden, die als tiefe Q-Netzwerke (DQN) und Algorithmen zur proximalen Richtlinienoptimierung (PPO) bezeichnet werden.

„Air Learning bietet grundlegende Bausteine, um Autonomiealgorithmen auf ganzheitliche Weise zu entwerfen und zu bewerten“, sagte Krishnan. „Es bietet OpenAI-kompatible Umgebungsgeneratoren, die es Forschern ermöglichen, mehrere Algorithmen für das Reinforcement Learning und auf neuronalen Netzwerken basierende Richtlinien zu trainieren.“

Auf der von Krishnan und seinen Kollegen entwickelten Plattform können Forscher die Leistung der von ihnen entwickelten Algorithmen unter verschiedenen Quality-of-Flight (QoF)-Metriken bewerten. So können sie beispielsweise den Energieverbrauch von Drohnen bei der Verwendung ihrer Algorithmen sowie deren Ausdauer und durchschnittliche Flugbahnlänge bei Verwendung ressourcenbeschränkter Hardware wie einem Raspberry Pi beurteilen.

„Sobald ihre Algorithmen entwickelt sind, können Forscher die Hardware-in-the-Loop verwenden, um einen eingebetteten Computer anzuschließen und zu bewerten, wie der Autonomiealgorithmus funktioniert, als würde er auf einem echten UAV mit diesem Bordcomputer laufen“, sagte Krishnan. „Mit diesen Techniken können verschiedene Leistungsengpässe auf Systemebene frühzeitig im Designprozess identifiziert werden.“

Bei Tests zu Air Learning stellten die Forscher fest, dass in der Regel eine Diskrepanz zwischen den vorhergesagten Leistungen und der tatsächlichen Funktionsweise von Bordcomputern besteht. Diese Diskrepanz kann sich auf die Gesamtleistung von UAVs auswirken und möglicherweise ihren Einsatz, die Missionsergebnisse und die Sicherheit beeinträchtigen.

„Obwohl wir uns speziell auf UAVs konzentrieren, glauben wir, dass die von uns verwendeten Methoden auf andere autonome Systeme wie selbstfahrende Autos angewendet werden können“, sagte Krishnan. „Da diese Bordcomputer das Gehirn der autonomen Systeme sind, fehlt es an einer systematischen Methodik, sie zu entwerfen. Um Onboard-Computer effizient zu entwickeln, müssen wir zunächst die Leistungsengpässe verstehen, und Air Learning bietet die grundlegenden Bausteine, um die Leistungsengpässe zu verstehen.“

In Zukunft könnte sich Air Learning als wertvolle Plattform für die Evaluierung von RL-Algorithmen erweisen, die den autonomen Betrieb von UAVs und anderen Robotersystemen ermöglichen sollen. Krishnan und seine Kollegen nutzen die von ihnen geschaffene Plattform nun, um eine Vielzahl von Forschungsproblemen anzugehen, von der Entwicklung von Drohnen für bestimmte Missionen bis hin zur Entwicklung spezieller Bordcomputer.

„Es ist bekannt, dass Verstärkungslernen bekanntermaßen langsam zu trainieren ist“, sagte Krishnan. „Die Leute beschleunigen im Allgemeinen das RL-Training, indem sie mehr Computerressourcen einsetzen, was teuer sein kann und für viele Forscher die Eintrittsbarrieren senkt. Unsere Arbeit QuaRL (Quantized Reinforcement Learning) verwendet Quantisierung, um das RL-Training und die Inferenz zu beschleunigen. Wir haben Air Learning verwendet, um die reale Anwendung von QuaRL bei der Bereitstellung größerer RL-Richtlinien auf speicherbeschränkten UAVs zu zeigen.“

Bordcomputer fungieren als „Gehirn“ autonomer Systeme, daher sollten sie in der Lage sein, eine Vielzahl von Algorithmen effizient auszuführen. Das Entwerfen dieser Computer kann jedoch sehr teuer sein und es fehlt eine systematische Entwurfsmethodik. In ihren nächsten Studien planen Krishnan und seine Kollegen daher auch zu untersuchen, wie sie das Design von Bordcomputern für autonome UAVs automatisieren können, um deren Kosten zu senken und die UAV-Leistung zu maximieren.

„Wir haben Air Learning bereits verwendet, um mehrere Navigationsrichtlinien für verschiedene Einsatzszenarien zu trainieren und zu testen“, sagte Krishnan. „Außerdem haben wir im Rahmen unserer Forschung zu autonomen Anwendungen, haben wir ein vollständig autonomes UAV entwickelt, um Lichtquellen zu suchen. Bei der Arbeit wurde Air Learning verwendet, um eine lichtsuchende Richtlinie zu trainieren und bereitzustellen, die auf einem winzigen Mikrocontroller-betriebenen UAV ausgeführt wird.“

ELE-Zeiten
+ Beiträge
  • Bluetest und Anritsu unterstützen OTA-Messung im IEEE 802.11ax 6 GHz-Band (Wi-Fi 6E) Geräte
  • Ingenieure machen entscheidende Fortschritte beim Design von Quantencomputern
  • Globaler Chip Crunch kann bis 2023 andauern, sagt Infineon CEO
  • Mit Deep-Learning-Algorithmen Fahrradfahrern die „Grüne Welle“ an Ampeln geben