空中学習:UAVナビゲーション用の深部補強アルゴリズムをトレーニングするためのジム環境

更新日: 6 年 2023 月 XNUMX 日
空中学習:UAVナビゲーション用の深部補強アルゴリズムをトレーニングするためのジム環境

世界中のロボット工学者は、捜索救助任務中に配備できる、または地理的領域のマッピングや情報源の探索に使用できる自律型無人航空機(UAV)の開発を試みてきました。 ただし、自律的に動作するには、ドローンが環境内で安全かつ効率的に移動できる必要があります。

近年、強化学習(RL)アルゴリズムは、ロボットの自律性を高めるという非常に有望な結果を達成しています。 ただし、ほとんどの既存のRL手法は、実際の影響を考慮せずに、主にアルゴリズムの設計に焦点を合わせています。 その結果、アルゴリズムが実際のUAVに適用されると、パフォーマンスが異なるか、期待外れになる可能性があります。

たとえば、多くのドローンはオンボードコンピューティング機能が制限されているため、シミュレーションでトレーニングされたRLアルゴリズムを実際のロボットに適用すると、予測に時間がかかる可能性があります。 これらの長い計算時間はUAVの速度を低下させ、応答性を低下させる可能性があり、その結果、ミッションの結果に影響を与えたり、事故や衝突を引き起こしたりする可能性があります。

ハーバード大学とGoogleResearchの研究者は最近、UAVナビゲーション用のRLアルゴリズムをトレーニングできるオープンソースのシミュレーターおよびジム環境であるAirLearningを開発しました。 これは、実際の設定で自律型UAVのパフォーマンスを向上させるのに役立つ可能性があります。

「UAVで真の自律性を実現するには、搭載コンピューターの選択など、システムレベルの側面を検討する必要があります」と、調査を実施した研究者のXNUMX人であるSrivatsanKrishnan氏は述べています。 「したがって、私たちの研究の主な目的は、研究者がこれらの自律アルゴリズムを全体的に評価できるようにする基本的なブロックを提供することでした。」

エアラーニングでは、UAVエージェントは、困難なナビゲーションシナリオにさらされ、トレーニングを受けることができます。 より具体的には、ディープQネットワーク(DQN)および近位ポリシー最適化(PPO)アルゴリズムと呼ばれるXNUMXつのトレーニング手法を使用して、XNUMXつの主要な環境でポイントツーポイントの障害物回避タスクについてトレーニングできます。

「AirLearningは、自律性アルゴリズムを全体論的に設計および評価するための基本的な構成要素を提供します」とクリシュナン氏は述べています。 「これは、研究者がいくつかの強化学習アルゴリズムとニューラルネットワークベースのポリシーをトレーニングできるようにするOpenAIジム互換環境ジェネレーターを提供します。」

クリシュナンと彼の同僚によって開発されたプラットフォーム上で、研究者はさまざまな飛行品質(QoF)メトリックの下で開発したアルゴリズムのパフォーマンスを評価できます。 たとえば、アルゴリズムを使用するときにドローンが消費するエネルギーや、RaspberryPiなどのリソースに制約のあるハードウェアを使用するときの耐久性と平均軌道長を評価できます。

「アルゴリズムが設計されると、研究者はハードウェアインザループを使用して組み込みコンピューターを接続し、自律アルゴリズムがそのオンボードコンピューターで実際のUAVで実行されているかのようにどのように機能するかを評価できます」とクリシュナン氏は述べています。 「これらの手法を使用すると、設計プロセスの早い段階でさまざまなシステムレベルのパフォーマンスのボトルネックを特定できます。」

Air Learningでテストを実行すると、研究者は通常、予測されたパフォーマンスとオンボードコンピューターの実際の機能との間に不一致があることを発見しました。 この不一致はUAVの全体的なパフォーマンスに影響を与える可能性があり、UAVの展開、ミッションの結果、および安全性に影響を与える可能性があります。

「私たちは特にUAVに焦点を当てていますが、私たちが使用した方法論は、自動運転車などの他の自律システムにも適用できると信じています」とクリシュナン氏は述べています。 「これらのオンボードコンピューターが自律システムの頭脳であることを考えると、それらを設計する方法に関する体系的な方法論が不足しています。 オンボードコンピューターを効率的に設計するには、まずパフォーマンスのボトルネックを理解する必要があります。AirLearningは、パフォーマンスのボトルネックが何であるかを理解するための基本的なブロックを提供します。」

将来的には、Air Learningは、UAVやその他のロボットシステムの自律運用を可能にするように設計されたRLアルゴリズムを評価するための貴重なプラットフォームになる可能性があります。 クリシュナンと彼の同僚は現在、特定の任務を完了するように設計されたドローンの開発から特殊な車載コンピューターの作成に至るまで、さまざまな研究問題に取り組むために作成したプラットフォームを使用しています。

「強化学習はトレーニングが遅いことで有名です」とクリシュナン氏は言います。 「一般的に、人々はより多くのコンピューティングリソースを投入することで、RLトレーニングをスピードアップします。これは、多くの研究者にとって、費用がかかり、参入障壁が低くなる可能性があります。 私たちの仕事QuaRL(量子化強化学習)は、量子化を使用してRLトレーニングと推論を高速化します。 Air Learningを使用して、メモリに制約のあるUAVに大規模なRLポリシーを展開する際のQuaRLの実際のアプリケーションを示しました。」

オンボードコンピュータは自律システムの「頭脳」として機能するため、さまざまなアルゴリズムを効率的に実行できる必要があります。 ただし、これらのコンピューターの設計は非常に費用がかかる可能性があり、体系的な設計方法論が欠けています。 したがって、次の研究では、クリシュナンと彼の同僚は、自律型UAVのオンボードコンピューターの設計を自動化して、コストを削減し、UAVのパフォーマンスを最大化する方法を模索することも計画しています。

「私たちはすでにAirLearningを使用して、さまざまな展開シナリオのいくつかのナビゲーションポリシーをトレーニングおよびテストしました」とKrishnan氏は述べています。 「さらに、自律性に関する研究の一環として 、光源を探すために完全自律型UAVを作成しました。 この作業では、Air Learningを使用して、マイクロコントローラーを搭載した小さなUAVで実行するための光探索ポリシーをトレーニングおよび展開しました。」

ELEタイムズ
+投稿
  • Bluetest とアンリツ、IEEE 802.11ax 6 GHz 帯域での OTA 測定をサポート (Wi-Fi 6E) デバイス
  • エンジニアは量子コンピューターの設計を大きく前進させる
  • グローバルチップクランチは2023年まで続く可能性があるとインフィニオンのCEOは述べています
  • ディープラーニングアルゴリズムを使用して、信号機で自転車に「グリーンウェーブ」を与える