Pembelajaran Udara: Lingkungan Gym untuk Melatih Algoritma Penguatan Mendalam untuk Navigasi UAV

Pembelajaran Udara: Lingkungan Gym untuk Melatih Algoritma Penguatan Dalam untuk Navigasi UAV

Robotika di seluruh dunia telah mencoba mengembangkan kendaraan udara tak berawak otonom (UAV) yang dapat digunakan selama misi pencarian dan penyelamatan atau yang dapat digunakan untuk memetakan wilayah geografis dan untuk pencarian sumber. Namun, untuk beroperasi secara mandiri, drone harus dapat bergerak dengan aman dan efisien di lingkungannya.

Dalam beberapa tahun terakhir, algoritma pembelajaran penguatan (RL) telah mencapai hasil yang sangat menjanjikan dalam memungkinkan otonomi yang lebih besar pada robot. Namun, sebagian besar teknik RL yang ada terutama berfokus pada desain algoritme tanpa mempertimbangkan implikasi aktualnya. Akibatnya, ketika algoritme diterapkan pada UAV nyata, kinerjanya bisa berbeda atau mengecewakan.

Misalnya, karena banyak drone memiliki kemampuan komputasi onboard yang terbatas, algoritme RL yang dilatih dalam simulasi dapat memakan waktu lebih lama untuk membuat prediksi saat diterapkan pada robot sungguhan. Waktu komputasi yang lebih lama ini dapat membuat UAV lebih lambat dan kurang responsif, yang pada gilirannya dapat memengaruhi hasil misi atau mengakibatkan kecelakaan dan tabrakan.

Para peneliti di Universitas Harvard dan Google Research baru-baru ini mengembangkan Air Learning, simulator sumber terbuka dan lingkungan gym tempat para peneliti dapat melatih algoritme RL untuk navigasi UAV. Ini dapat membantu meningkatkan kinerja UAV otonom dalam pengaturan dunia nyata.

“Untuk mencapai otonomi sejati dalam UAV, ada kebutuhan untuk melihat aspek tingkat sistem seperti pilihan komputer onboard,” kata Srivatsan Krishnan, salah satu peneliti yang melakukan penelitian. “Oleh karena itu, tujuan utama dari penelitian kami adalah untuk menyediakan blok dasar yang memungkinkan peneliti untuk mengevaluasi algoritma otonomi ini secara holistik.”

Di Air Learning, agen UAV dapat terpapar dan dilatih tentang skenario navigasi yang menantang. Lebih khusus lagi, mereka dapat dilatih pada tugas penghindaran rintangan point-to-point di tiga lingkungan utama, menggunakan dua teknik pelatihan yang disebut algoritma deep Q networks (DQN) dan proximal policy optimasi (PPO).

“Air Learning menyediakan blok bangunan dasar untuk merancang dan mengevaluasi algoritme otonomi secara holistik,” kata Krishnan. “Ini menyediakan generator lingkungan yang kompatibel dengan gym OpenAI yang akan memungkinkan para peneliti untuk melatih beberapa algoritma pembelajaran penguatan dan kebijakan berbasis jaringan saraf.”

Pada platform yang dikembangkan oleh Krishnan dan rekan-rekannya, para peneliti dapat menilai kinerja algoritme yang mereka kembangkan di bawah berbagai metrik kualitas penerbangan (QoF). Misalnya, mereka dapat menilai energi yang dikonsumsi oleh drone saat menggunakan algoritme mereka, serta daya tahan dan panjang lintasan rata-rata saat menggunakan perangkat keras dengan sumber daya terbatas, seperti Raspberry Pi.

“Setelah algoritme mereka dirancang, para peneliti dapat menggunakan perangkat keras-dalam-loop untuk menyambungkan komputer yang tertanam dan mengevaluasi bagaimana kinerja algoritme otonomi seolah-olah berjalan pada UAV yang sebenarnya dengan komputer terpasang itu,” kata Krishnan. “Dengan menggunakan teknik ini, berbagai hambatan kinerja tingkat sistem dapat diidentifikasi sejak awal dalam proses desain.”

Saat menjalankan tes di Air Learning, para peneliti menemukan bahwa biasanya ada perbedaan antara kinerja yang diprediksi dan fungsi sebenarnya dari komputer onboard. Perbedaan ini dapat memengaruhi kinerja UAV secara keseluruhan, yang berpotensi memengaruhi penyebaran, hasil misi, dan keamanannya.

“Meskipun kami secara khusus fokus pada UAV, kami percaya bahwa metodologi yang kami gunakan dapat diterapkan pada sistem otonom lainnya, seperti mobil self-driving,” kata Krishnan. “Mengingat komputer onboard ini adalah otak dari sistem otonom, ada kekurangan metodologi sistematis tentang cara mendesainnya. Untuk merancang komputer onboard secara efisien, pertama-tama kita perlu memahami hambatan kinerja, dan Air Learning menyediakan blok dasar untuk memahami apa hambatan kinerja itu.”

Di masa depan, Air Learning dapat terbukti menjadi platform yang berharga untuk evaluasi algoritma RL yang dirancang untuk memungkinkan operasi otonom UAV dan sistem robot lainnya. Krishnan dan rekan-rekannya sekarang menggunakan platform yang mereka buat untuk mengatasi berbagai masalah penelitian, mulai dari pengembangan drone yang dirancang untuk menyelesaikan misi tertentu hingga pembuatan komputer onboard khusus.

“Pembelajaran penguatan dikenal sangat lambat untuk dilatih,” kata Krishnan. “Orang umumnya mempercepat pelatihan RL dengan membuang lebih banyak sumber daya komputasi, yang bisa mahal dan hambatan masuk yang lebih rendah bagi banyak peneliti. Pekerjaan kami QuaRL (Pembelajaran penguatan terkuantisasi) menggunakan kuantisasi untuk mempercepat pelatihan dan inferensi RL. Kami menggunakan Air Learning untuk menunjukkan aplikasi QuaRL di dunia nyata dalam menerapkan kebijakan RL yang lebih besar pada UAV dengan memori terbatas.”

Komputer onboard bertindak sebagai "otak" dari sistem otonom, sehingga mereka harus dapat menjalankan berbagai algoritma secara efisien. Merancang komputer ini, bagaimanapun, bisa sangat mahal dan tidak memiliki metodologi desain yang sistematis. Oleh karena itu, dalam studi mereka berikutnya, Krishnan dan rekan-rekannya juga berencana untuk mengeksplorasi bagaimana mereka dapat mengotomatiskan desain komputer onboard untuk UAV otonom, untuk menurunkan biaya dan memaksimalkan kinerja UAV.

“Kami sudah menggunakan Air Learning untuk melatih dan menguji beberapa kebijakan navigasi untuk skenario penyebaran yang berbeda,” kata Krishnan. “Selain itu, sebagai bagian dari penelitian kami tentang otonomi aplikasi, kami menciptakan UAV yang sepenuhnya otonom untuk mencari sumber cahaya. Pekerjaan tersebut menggunakan Air Learning untuk melatih dan menerapkan kebijakan pencarian cahaya untuk dijalankan pada UAV kecil bertenaga mikrokontroler.”

Waktu ELE

+ posting

Waktu ELE

https://www.eletimes.com/author/eletimes-news

Bluetest dan Anritsu Mendukung Pengukuran OTA pada IEEE 802.11ax 6 GHz-Band (Wi-Fi 6E) Perangkat
Waktu ELE

https://www.eletimes.com/author/eletimes-news

Insinyur Membuat Kemajuan Kritis dalam Desain Komputer Kuantum
Waktu ELE

https://www.eletimes.com/author/eletimes-news

Global Chip Crunch Dapat Bertahan hingga 2023, kata CEO Infineon
Waktu ELE

https://www.eletimes.com/author/eletimes-news

Menggunakan Algoritma Deep Learning untuk Memberi Pesepeda 'Gelombang Hijau' di Sinyal Lalu Lintas

Pembelajaran Udara: Lingkungan Gym untuk Melatih Algoritma Penguatan Dalam untuk Navigasi UAV

Waktu ELE