Air Learning: Môi trường phòng tập thể dục để đào tạo các thuật toán tăng cường sâu cho Điều hướng UAV

Học trên không: Môi trường tập thể dục để đào tạo các thuật toán củng cố sâu cho điều hướng của UAV

Các nhà chế tạo robot trên toàn thế giới đang cố gắng phát triển các máy bay không người lái tự động (UAV) có thể được triển khai trong các nhiệm vụ tìm kiếm và cứu nạn hoặc có thể được sử dụng để lập bản đồ các khu vực địa lý và tìm kiếm nguồn tin. Tuy nhiên, để hoạt động một cách tự chủ, máy bay không người lái phải có thể di chuyển an toàn và hiệu quả trong môi trường của chúng.

Trong những năm gần đây, các thuật toán học tăng cường (RL) đã đạt được những kết quả rất hứa hẹn trong việc cho phép robot tự chủ cao hơn. Tuy nhiên, hầu hết các kỹ thuật RL hiện có chủ yếu tập trung vào thiết kế của thuật toán mà không xem xét các tác động thực tế của nó. Kết quả là, khi các thuật toán được áp dụng trên UAV thực, hiệu suất của chúng có thể khác hoặc đáng thất vọng.

Ví dụ: vì nhiều máy bay không người lái có khả năng tính toán hạn chế trên bo mạch, các thuật toán RL được đào tạo trong mô phỏng có thể mất nhiều thời gian hơn để đưa ra dự đoán khi chúng được áp dụng trên rô bốt thực. Thời gian tính toán lâu hơn này có thể làm cho UAV chậm hơn và phản ứng kém hơn, do đó có thể ảnh hưởng đến kết quả của nhiệm vụ hoặc dẫn đến tai nạn và va chạm.

Các nhà nghiên cứu tại Đại học Harvard và Google Research gần đây đã phát triển Air Learning, một môi trường phòng tập và mô phỏng mã nguồn mở, nơi các nhà nghiên cứu có thể đào tạo các thuật toán RL để điều hướng UAV. Điều này có thể giúp cải thiện hiệu suất của các UAV tự hành trong môi trường thực tế.

Srivatsan Krishnan, một trong những nhà nghiên cứu thực hiện nghiên cứu, cho biết: “Để đạt được quyền tự chủ thực sự trong UAV, cần phải xem xét các khía cạnh cấp hệ thống, chẳng hạn như sự lựa chọn của máy tính trên bo mạch. “Do đó, mục tiêu chính của nghiên cứu của chúng tôi là cung cấp các khối nền tảng cho phép các nhà nghiên cứu đánh giá các thuật toán tự trị này một cách tổng thể.”

Trong Air Learning, các đặc vụ UAV có thể được tiếp xúc và đào tạo về các tình huống điều hướng đầy thử thách. Cụ thể hơn, họ có thể được đào tạo về các nhiệm vụ tránh chướng ngại vật điểm-điểm trong ba môi trường chính, sử dụng hai kỹ thuật đào tạo được gọi là mạng Q sâu (DQN) và thuật toán tối ưu hóa chính sách gần (PPO).

Krishnan nói: “Air Learning cung cấp các khối xây dựng nền tảng để thiết kế và đánh giá các thuật toán tự chủ theo cách tổng thể. “Nó cung cấp các trình tạo môi trường tương thích với phòng tập thể dục OpenAI sẽ cho phép các nhà nghiên cứu đào tạo một số thuật toán học tập củng cố và các chính sách dựa trên mạng nơ-ron”.

Trên nền tảng do Krishnan và các đồng nghiệp của ông phát triển, các nhà nghiên cứu có thể đánh giá hiệu suất của các thuật toán mà họ đã phát triển theo nhiều chỉ số đo lường chất lượng chuyến bay (QoF). Ví dụ: họ có thể đánh giá năng lượng tiêu thụ của máy bay không người lái khi sử dụng thuật toán của họ, cũng như độ bền và độ dài quỹ đạo trung bình của chúng khi sử dụng phần cứng hạn chế tài nguyên, chẳng hạn như Raspberry Pi.

“Sau khi các thuật toán của họ được thiết kế, các nhà nghiên cứu có thể sử dụng phần cứng trong vòng lặp để cắm vào một máy tính nhúng và đánh giá cách thuật toán tự động hoạt động như thể nó đang chạy trên một UAV thực tế với máy tính tích hợp đó,” Krishnan nói. “Sử dụng các kỹ thuật này, có thể sớm xác định được các điểm nghẽn hiệu suất cấp hệ thống trong quá trình thiết kế.”

Khi chạy thử nghiệm trên Air Learning, các nhà nghiên cứu nhận thấy rằng thường có sự khác biệt giữa hiệu suất dự đoán và hoạt động thực tế của các máy tính tích hợp. Sự khác biệt này có thể ảnh hưởng đến hiệu suất tổng thể của UAV, có khả năng ảnh hưởng đến việc triển khai, kết quả nhiệm vụ và sự an toàn của chúng.

“Mặc dù chúng tôi đặc biệt tập trung vào UAV, nhưng chúng tôi tin rằng các phương pháp mà chúng tôi đã sử dụng có thể được áp dụng cho các hệ thống tự hành khác, chẳng hạn như ô tô tự lái,” Krishnan nói. “Vì những máy tính trên bo mạch này là bộ não của các hệ thống tự hành, nên thiếu hệ thống phương pháp luận về cách thiết kế chúng. Để thiết kế máy tính tích hợp hiệu quả, trước tiên chúng ta cần hiểu các nút thắt về hiệu suất và Air Learning cung cấp các khối cơ bản để hiểu các nút thắt về hiệu suất là gì ”.

Trong tương lai, Air Learning có thể trở thành một nền tảng có giá trị để đánh giá các thuật toán RL được thiết kế để cho phép hoạt động tự động của UAV và các hệ thống robot khác. Krishnan và các đồng nghiệp của ông hiện đang sử dụng nền tảng mà họ tạo ra để giải quyết nhiều vấn đề nghiên cứu khác nhau, từ việc phát triển các máy bay không người lái được thiết kế để hoàn thành các nhiệm vụ cụ thể đến việc tạo ra các máy tính chuyên dụng trên bo mạch.

Krishnan nói: “Học tập củng cố được biết đến là rất chậm để rèn luyện. “Mọi người thường đẩy nhanh quá trình đào tạo RL bằng cách cung cấp nhiều tài nguyên máy tính hơn, điều này có thể tốn kém và làm giảm rào cản gia nhập đối với nhiều nhà nghiên cứu. Công việc của chúng tôi QuaRL (Học tăng cường lượng tử hóa) sử dụng lượng tử hóa để tăng tốc độ đào tạo và suy luận RL. Chúng tôi đã sử dụng Air Learning để cho thấy ứng dụng thực tế của QuaRL trong việc triển khai các chính sách RL lớn hơn trên các UAV hạn chế bộ nhớ ”.

Máy tính trên bo mạch hoạt động như "bộ não" của các hệ thống tự trị, do đó chúng sẽ có thể chạy hiệu quả nhiều loại thuật toán. Tuy nhiên, việc thiết kế những máy tính này có thể rất tốn kém và thiếu một phương pháp thiết kế có hệ thống. Do đó, trong các nghiên cứu tiếp theo của họ, Krishnan và các đồng nghiệp của ông cũng dự định khám phá cách họ có thể tự động hóa việc thiết kế máy tính trên bo mạch cho các UAV tự hành, nhằm hạ giá thành và tối đa hóa hiệu suất của UAV.

“Chúng tôi đã sử dụng Air Learning để đào tạo và thử nghiệm một số chính sách điều hướng cho các tình huống triển khai khác nhau,” Krishnan nói. “Ngoài ra, là một phần trong nghiên cứu của chúng tôi về quyền tự trị các ứng dụng, chúng tôi đã tạo ra một UAV hoàn toàn tự động để tìm kiếm nguồn sáng. Công trình đã sử dụng Air Learning để đào tạo và triển khai chính sách tìm kiếm ánh sáng để chạy trên một UAV nhỏ chạy bằng vi điều khiển ”.

ELE lần

+ bài đăng

ELE lần

https://www.eletimes.com/author/eletimes-news

Bluetest và Anritsu hỗ trợ đo OTA trên băng tần IEEE 802.11ax 6 GHz (Wi-Fi 6E) Thiết bị
ELE lần

https://www.eletimes.com/author/eletimes-news

Kỹ sư đạt được tiến bộ quan trọng trong thiết kế máy tính lượng tử
ELE lần

https://www.eletimes.com/author/eletimes-news

Giám đốc điều hành Infineon nói
ELE lần

https://www.eletimes.com/author/eletimes-news

Sử dụng các thuật toán học sâu để cung cấp cho người đi xe đạp 'Làn sóng xanh' tại các tín hiệu giao thông

Học trên không: Môi trường tập thể dục để đào tạo các thuật toán củng cố sâu cho điều hướng của UAV

ELE lần