Air Learning: een sportschoolomgeving om diepe versterkingsalgoritmen voor UAV-navigatie te trainen

Update: 6 augustus 2023
Air Learning: een sportschoolomgeving om diepe versterkingsalgoritmen voor UAV-navigatie te trainen

Robotici over de hele wereld hebben geprobeerd autonome onbemande luchtvaartuigen (UAV's) te ontwikkelen die kunnen worden ingezet tijdens zoek- en reddingsmissies of die kunnen worden gebruikt om geografische gebieden in kaart te brengen en voor het zoeken naar bronnen. Om autonoom te opereren, moeten drones zich echter veilig en efficiënt in hun omgeving kunnen verplaatsen.

In de afgelopen jaren hebben algoritmen voor Reinforcement Learning (RL) veelbelovende resultaten geboekt bij het mogelijk maken van meer autonomie in robots. De meeste bestaande RL-technieken richten zich echter primair op het ontwerp van het algoritme zonder rekening te houden met de daadwerkelijke implicaties ervan. Als gevolg hiervan kunnen de prestaties van de algoritmen op echte UAV's afwijken of tegenvallen.

Aangezien veel drones bijvoorbeeld beperkte rekenmogelijkheden aan boord hebben, kan het langer duren voordat RL-algoritmen die zijn getraind in simulaties voorspellingen doen wanneer ze worden toegepast op echte robots. Deze langere rekentijden kunnen een UAV langzamer en minder responsief maken, wat op zijn beurt de uitkomst van een missie kan beïnvloeden of kan leiden tot ongevallen en botsingen.

Onderzoekers van Harvard University en Google Research hebben onlangs Air Learning ontwikkeld, een open-source simulator en gymomgeving waar onderzoekers RL-algoritmen voor UAV-navigatie kunnen trainen. Dit zou kunnen helpen om de prestaties van autonome UAV's in real-world settings te verbeteren.

"Om echte autonomie in UAV's te bereiken, is het nodig om te kijken naar aspecten op systeemniveau, zoals de keuze van de boordcomputer", vertelde Srivatsan Krishnan, een van de onderzoekers die het onderzoek uitvoerde. "Daarom was het primaire doel van onze studie om de basisblokken te bieden waarmee onderzoekers deze autonomie-algoritmen holistisch kunnen evalueren."

In Air Learning kunnen UAV-agenten worden blootgesteld aan en getraind in uitdagende navigatiescenario's. Meer specifiek kunnen ze worden getraind in point-to-point obstakelvermijdingstaken in drie belangrijke omgevingen, met behulp van twee trainingstechnieken genaamd diepe Q-netwerken (DQN) en algoritmen voor proximale beleidsoptimalisatie (PPO).

"Air Learning biedt fundamentele bouwstenen voor het ontwerpen en evalueren van autonomie-algoritmen op een holistische manier", aldus Krishnan. "Het biedt OpenAI sportschool-compatibele omgevingsgeneratoren waarmee onderzoekers verschillende algoritmen voor versterkend leren en neuraal netwerkgebaseerd beleid kunnen trainen."

Op het platform dat is ontwikkeld door Krishnan en zijn collega's, kunnen onderzoekers de prestaties beoordelen van de algoritmen die ze hebben ontwikkeld onder verschillende quality-of-flight (QoF) -statistieken. Ze kunnen bijvoorbeeld de energie beoordelen die drones verbruiken bij het gebruik van hun algoritmen, evenals hun uithoudingsvermogen en gemiddelde trajectlengte bij gebruik van hardware met beperkte middelen, zoals een Raspberry Pi.

"Zodra hun algoritmen zijn ontworpen, kunnen onderzoekers de hardware-in-the-loop gebruiken om een ​​ingebedde computer aan te sluiten en te evalueren hoe het autonomie-algoritme presteert alsof het op een echte UAV draait met die boordcomputer," zei Krishnan. "Met behulp van deze technieken kunnen verschillende prestatieknelpunten op systeemniveau al vroeg in het ontwerpproces worden geïdentificeerd."

Bij het uitvoeren van tests op Air Learning ontdekten de onderzoekers dat er meestal een discrepantie is tussen de voorspelde prestaties en het werkelijke functioneren van boordcomputers. Deze discrepantie kan van invloed zijn op de algehele prestaties van UAV's, wat mogelijk van invloed is op hun inzet, missieresultaten en veiligheid.

"Hoewel we ons specifiek richten op UAV's, geloven we dat de methodologieën die we hebben gebruikt kunnen worden toegepast op andere autonome systemen, zoals zelfrijdende auto's", zei Krishnan. “Aangezien deze boordcomputers het brein zijn van de autonome systemen, ontbreekt het aan een systematische methodologie om ze te ontwerpen. Om boordcomputers efficiënt te ontwerpen, moeten we eerst de knelpunten in de prestaties begrijpen, en Air Learning biedt de basisblokken om te begrijpen wat de knelpunten in de prestaties zijn.”

In de toekomst zou Air Learning een waardevol platform kunnen blijken te zijn voor de evaluatie van RL-algoritmen die zijn ontworpen om de autonome werking van UAV's en andere robotsystemen mogelijk te maken. Krishnan en zijn collega's gebruiken het platform dat ze hebben gecreëerd nu om een ​​verscheidenheid aan onderzoeksproblemen aan te pakken, variërend van de ontwikkeling van drones die zijn ontworpen om specifieke missies te voltooien tot het maken van gespecialiseerde boordcomputers.

"Reinforcement learning staat erom bekend dat het notoir traag is om te trainen," zei Krishnan. “Mensen versnellen RL-training over het algemeen door meer computerbronnen toe te voegen, wat voor veel onderzoekers duur kan zijn en de toegangsdrempel verlaagt. Ons werk QuaRL (Quantized Reinforcement Learning) gebruikt kwantisatie om RL-training en inferentie te versnellen. We hebben Air Learning gebruikt om de real-world toepassing van QuaRL te laten zien bij het implementeren van groter RL-beleid op UAV's met beperkte geheugen."

Boordcomputers fungeren als het "brein" van autonome systemen, dus ze zouden in staat moeten zijn om op efficiënte wijze een verscheidenheid aan algoritmen uit te voeren. Het ontwerpen van deze computers kan echter erg duur zijn en er ontbreekt een systematische ontwerpmethodiek. In hun volgende studies zijn Krishnan en zijn collega's daarom ook van plan om te onderzoeken hoe ze het ontwerp van boordcomputers voor autonome UAV's kunnen automatiseren, om hun kosten te verlagen en de UAV-prestaties te maximaliseren.

"We hebben Air Learning al gebruikt om verschillende navigatiebeleidsregels voor verschillende implementatiescenario's te trainen en te testen", aldus Krishnan. “Bovendien als onderdeel van ons onderzoek naar autonoom toepassingen, creëerden we een volledig autonome UAV om lichtbronnen te zoeken. Het werk gebruikte Air Learning om een ​​lichtzoekend beleid te trainen en in te zetten om te draaien op een kleine microcontroller-aangedreven UAV.

ELE-tijden
+ berichten
  • Bluetest en Anritsu ondersteunen OTA-metingen op IEEE 802.11ax 6 GHz-band (Wi-Fi 6E) Apparaten
  • Ingenieurs maken cruciale vooruitgang in het ontwerpen van kwantumcomputers
  • Global Chip Crunch kan aanhouden tot 2023, zegt CEO van Infineon
  • Deep Learning-algoritmen gebruiken om fietsers de 'groene golf' bij verkeerslichten te geven