Pembelajaran Udara: Persekitaran Gim untuk Melatih Algoritma Pengukuhan Dalam untuk Navigasi UAV

Kemas kini: 6 Ogos 2023
Pembelajaran Udara: Persekitaran Gim untuk Melatih Algoritma Pengukuhan Dalam untuk Navigasi UAV

Robotis di seluruh dunia telah berusaha untuk mengembangkan kenderaan udara tanpa pemandu autonomi (UAV) yang dapat digunakan selama misi mencari dan menyelamat atau yang dapat digunakan untuk memetakan kawasan geografi dan untuk mencari sumber. Namun, untuk beroperasi secara autonomi, drone harus dapat bergerak dengan selamat dan efisien di persekitarannya.

Dalam beberapa tahun kebelakangan ini, algoritma pembelajaran pengukuhan (RL) telah mencapai hasil yang sangat menjanjikan dalam membolehkan autonomi yang lebih besar dalam robot. Walau bagaimanapun, kebanyakan teknik RL yang ada terutama menumpukan pada reka bentuk algoritma tanpa mempertimbangkan implikasi sebenarnya. Hasilnya, apabila algoritma diterapkan pada UAV sebenar, prestasinya boleh berbeza atau mengecewakan.

Sebagai contoh, kerana banyak drone memiliki kemampuan pengkomputeran onboard yang terbatas, algoritma RL yang dilatih dalam simulasi memerlukan waktu lebih lama untuk membuat ramalan ketika diterapkan pada robot sebenar. Waktu pengiraan yang lebih lama ini dapat membuat UAV lebih lambat dan kurang responsif, yang pada gilirannya dapat mempengaruhi hasil misi atau mengakibatkan kemalangan dan perlanggaran.

Penyelidik di Universiti Harvard dan Google Research baru-baru ini mengembangkan Air Learning, sebuah simulator sumber terbuka dan persekitaran gim di mana para penyelidik dapat melatih algoritma RL untuk navigasi UAV. Ini dapat membantu meningkatkan prestasi UAV autonomi dalam tetapan dunia nyata.

"Untuk mencapai autonomi sebenar dalam UAV, ada keperluan untuk melihat aspek tingkat sistem seperti pilihan komputer onboard," kata Srivatsan Krishnan, salah seorang penyelidik yang melakukan kajian ini. "Oleh itu, objektif utama kajian kami adalah untuk menyediakan blok asas yang akan membolehkan para penyelidik menilai algoritma autonomi ini secara holistik."

Dalam Pembelajaran Udara, ejen UAV dapat didedahkan dan dilatih mengenai senario navigasi yang mencabar. Lebih khusus lagi, mereka dapat dilatih mengenai tugas menghindari halangan dari titik ke titik dalam tiga lingkungan utama, menggunakan dua teknik latihan yang disebut algoritma deep Q network (DQN) dan proximal Policy optimization (PPO).

"Air Learning menyediakan blok bangunan asas untuk merancang dan menilai algoritma autonomi secara holistik," kata Krishnan. "Ia menyediakan generator persekitaran yang sesuai dengan gym OpenAI yang akan membolehkan para penyelidik melatih beberapa algoritma pembelajaran pengukuhan dan dasar berasaskan rangkaian saraf."

Di platform yang dikembangkan oleh Krishnan dan rakan-rakannya, penyelidik dapat menilai prestasi algoritma yang mereka kembangkan di bawah pelbagai metrik kualiti penerbangan (QoF). Sebagai contoh, mereka dapat menilai tenaga yang digunakan oleh drone ketika menggunakan algoritma mereka, serta daya tahan dan panjang lintasan rata-rata ketika menggunakan perkakasan yang dibatasi sumber, seperti Raspberry Pi.

"Setelah algoritma mereka dirancang, para penyelidik dapat menggunakan perkakasan-dalam-gelung untuk memasang komputer tertanam dan menilai bagaimana prestasi algoritma autonomi seolah-olah ia berjalan pada UAV yang sebenarnya dengan komputer itu," kata Krishnan. "Dengan menggunakan teknik ini, berbagai hambatan prestasi tingkat sistem dapat dikenal pasti sejak awal dalam proses perancangan."

Semasa menjalankan ujian dalam Pembelajaran Udara, para penyelidik mendapati bahawa biasanya terdapat perbezaan antara prestasi yang diramalkan dan fungsi sebenar komputer onboard. Perbezaan ini dapat mempengaruhi prestasi keseluruhan UAV, berpotensi mempengaruhi penggunaan, hasil misi dan keselamatannya.

"Walaupun kami secara khusus fokus pada UAV, kami percaya bahawa metodologi yang kami gunakan dapat diterapkan pada sistem otonomi lain, seperti kereta memandu sendiri," kata Krishnan. "Memandangkan komputer onboard ini adalah otak sistem autonomi, ada kekurangan metodologi sistematik tentang bagaimana merancangnya. Untuk merancang komputer dalam pesawat dengan cekap, pertama-tama kita perlu memahami hambatan prestasi, dan Air Learning menyediakan blok asas untuk memahami apa itu hambatan prestasi. "

Pada masa akan datang, Air Learning dapat membuktikan menjadi platform yang berharga untuk penilaian algoritma RL yang dirancang untuk membolehkan operasi UAV autonomi dan sistem robotik yang lain. Krishnan dan rakan-rakannya sekarang menggunakan platform yang mereka buat untuk mengatasi berbagai masalah penyelidikan, mulai dari pengembangan drone yang dirancang untuk menyelesaikan misi khusus hingga penciptaan komputer onboard khusus.

"Pembelajaran pengukuhan diketahui sangat lambat untuk dilatih," kata Krishnan. "Orang umumnya mempercepat latihan RL dengan membuang lebih banyak sumber pengkomputeran, yang boleh menjadi penghalang masuk yang mahal dan lebih rendah bagi banyak penyelidik. Kerja kami QuaRL (Quantized reinforcement learning) menggunakan kuantisasi untuk mempercepat latihan dan inferensi RL. Kami menggunakan Air Learning untuk menunjukkan aplikasi QuaRL di dunia nyata dalam menerapkan kebijakan RL yang lebih besar pada UAV yang dibatasi memori. "

Komputer onboard bertindak sebagai "otak" sistem autonomi, oleh itu mereka harus dapat menjalankan pelbagai algoritma dengan cekap. Walau bagaimanapun, merancang komputer ini sangat mahal dan tidak mempunyai metodologi reka bentuk yang sistematik. Oleh itu, dalam kajian seterusnya, Krishnan dan rakan-rakannya juga merancang untuk meneroka bagaimana mereka dapat mengotomatisasi reka bentuk komputer onboard untuk UAV autonomi, untuk menurunkan kos mereka dan memaksimumkan prestasi UAV.

"Kami sudah menggunakan Air Learning untuk melatih dan menguji beberapa dasar navigasi untuk senario penggunaan yang berbeza," kata Krishnan. "Selain itu, sebagai sebahagian daripada penyelidikan kami mengenai autonomi aplikasi, kami mencipta UAV sepenuhnya autonomi untuk mencari sumber cahaya. Kerja itu menggunakan Air Learning untuk melatih dan menerapkan kebijakan mencari cahaya untuk dijalankan pada UAV berkuasa mikrokontroler kecil. "

ELE Kali
+ siaran
  • Bluetest dan Anritsu Menyokong Pengukuran OTA pada IEEE 802.11ax 6 GHz-Band (Wi-Fi 6E) Peranti
  • Jurutera Membuat Kemajuan Kritikal dalam Reka Bentuk Komputer Kuantum
  • Global Chip Crunch Mungkin Berlanjutan hingga 2023 kata Ketua Pegawai Eksekutif Infineon
  • Menggunakan Algoritma Pembelajaran Dalam untuk Memberikan 'Green Wave' kepada Penunggang basikal pada Isyarat Lalu Lintas