항공 학습: UAV 탐색을 위한 심층 강화 알고리즘을 훈련하기 위한 체육관 환경

업데이트: 6년 2023월 XNUMX일
항공 학습: UAV 탐색을 위한 심층 강화 알고리즘을 훈련하기 위한 체육관 환경

전 세계 로봇 공학자들은 수색 및 구조 임무 중에 배치될 수 있거나 지리적 영역을 매핑하고 소스 탐색에 사용할 수 있는 자율 무인 항공기(UAV)를 개발하려고 노력해 왔습니다. 그러나 자율적으로 작동하려면 드론이 주변 환경에서 안전하고 효율적으로 이동할 수 있어야 합니다.

최근 몇 년 동안 강화 학습(RL) 알고리즘은 로봇에서 더 큰 자율성을 가능하게 하는 매우 유망한 결과를 달성했습니다. 그러나 대부분의 기존 RL 기술은 실제 의미를 고려하지 않고 주로 알고리즘 설계에 중점을 둡니다. 결과적으로 알고리즘을 실제 UAV에 적용하면 성능이 다르거나 실망스러울 수 있습니다.

예를 들어, 많은 드론이 온보드 컴퓨팅 기능에 제한이 있기 때문에 시뮬레이션에서 훈련된 RL 알고리즘이 실제 로봇에 적용될 때 예측을 수행하는 데 더 오래 걸릴 수 있습니다. 이러한 계산 시간이 길어지면 UAV가 느려지고 응답성이 낮아져 미션 결과에 영향을 미치거나 사고 및 충돌이 발생할 수 있습니다.

Harvard University와 Google Research의 연구원들은 최근 연구자들이 UAV 탐색을 위한 RL 알고리즘을 훈련할 수 있는 오픈 소스 시뮬레이터 및 체육관 환경인 Air Learning을 개발했습니다. 이는 실제 환경에서 자율 UAV의 성능을 향상시키는 데 도움이 될 수 있습니다.

연구를 수행한 연구원 중 한 명인 Srivatsan Krishnan은 "UAV에서 진정한 자율성을 달성하려면 온보드 컴퓨터 선택과 같은 시스템 수준 측면을 살펴볼 필요가 있습니다. "따라서 우리 연구의 주요 목적은 연구자들이 이러한 자율성 알고리즘을 전체적으로 평가할 수 있도록 하는 기본 블록을 제공하는 것이었습니다."

Air Learning에서 UAV 에이전트는 까다로운 탐색 시나리오에 노출되고 훈련될 수 있습니다. 보다 구체적으로, DQN(심층 Q 네트워크) 및 PPO(근위 정책 최적화) 알고리즘이라는 두 가지 교육 기술을 사용하여 세 가지 주요 환경에서 지점 간 장애물 회피 작업에 대해 교육할 수 있습니다.

Krishnan은 “Air Learning은 전체론적 방식으로 자율성 알고리즘을 설계하고 평가하기 위한 기본 빌딩 블록을 제공합니다. "연구자들이 여러 강화 학습 알고리즘과 신경망 기반 정책을 훈련할 수 있는 OpenAI 체육관 호환 환경 생성기를 제공합니다."

Krishnan과 그의 동료들이 개발한 플랫폼에서 연구원들은 다양한 비행 품질(QoF) 메트릭에서 개발한 알고리즘의 성능을 평가할 수 있습니다. 예를 들어, 알고리즘을 사용할 때 드론이 소비하는 에너지와 Raspberry Pi와 같이 리소스가 제한된 하드웨어를 사용할 때 내구성 및 평균 궤적 길이를 평가할 수 있습니다.

"알고리즘이 설계되면 연구원들은 하드웨어 인 더 루프를 사용하여 임베디드 컴퓨터를 연결하고 마치 온보드 컴퓨터가 있는 실제 UAV에서 실행되는 것처럼 자율 알고리즘이 어떻게 수행되는지 평가할 수 있습니다."라고 Krishnan이 말했습니다. "이러한 기술을 사용하면 다양한 시스템 수준 성능 병목 현상을 설계 프로세스 초기에 식별할 수 있습니다."

Air Learning에서 테스트를 실행할 때 연구원들은 일반적으로 온보드 컴퓨터의 예상 성능과 실제 기능 사이에 불일치가 있음을 발견했습니다. 이러한 불일치는 UAV의 전체 성능에 영향을 미치고 잠재적으로 배치, 임무 결과 및 안전에 영향을 미칠 수 있습니다.

Krishnan은 "우리는 특히 UAV에 중점을 두고 있지만 우리가 사용한 방법론이 자율 주행 자동차와 같은 다른 자율 시스템에도 적용될 수 있다고 믿습니다."라고 말했습니다. “이러한 온보드 컴퓨터가 자율 시스템의 두뇌라는 점을 감안할 때 이를 설계하는 방법에 대한 체계적인 방법론이 부족합니다. 온보드 컴퓨터를 효율적으로 설계하려면 먼저 성능 병목 현상을 이해해야 하며 Air Learning은 성능 병목 현상이 무엇인지 이해하기 위한 기본 블록을 제공합니다."

미래에 Air Learning은 UAV 및 기타 로봇 시스템의 자율 작동을 가능하게 하도록 설계된 RL 알고리즘 평가를 위한 귀중한 플랫폼이 될 수 있습니다. Krishnan과 그의 동료들은 이제 그들이 만든 플랫폼을 사용하여 특정 임무를 완수하도록 설계된 드론 개발에서 특수 온보드 컴퓨터 생성에 이르기까지 다양한 연구 문제를 해결하고 있습니다.

"강화 학습은 훈련 속도가 느리기로 악명 높은 것으로 알려져 있습니다."라고 Krishnan은 말했습니다. "사람들은 일반적으로 더 많은 컴퓨팅 리소스를 사용하여 RL 교육 속도를 높입니다. 이는 많은 연구자에게 비용이 많이 들고 진입 장벽을 낮출 수 있습니다. 우리의 작업 QuaRL(양자화 강화 학습)은 양자화를 사용하여 RL 교육 및 추론 속도를 높입니다. 우리는 Air Learning을 사용하여 메모리가 제한된 UAV에 더 큰 RL 정책을 배포할 때 QuaRL의 실제 응용 프로그램을 보여주었습니다."

온보드 컴퓨터는 자율 시스템의 "두뇌" 역할을 하므로 다양한 알고리즘을 효율적으로 실행할 수 있어야 합니다. 그러나 이러한 컴퓨터를 설계하는 것은 비용이 많이 들고 체계적인 설계 방법론이 부족할 수 있습니다. 따라서 Krishnan과 그의 동료들은 다음 연구에서 자율 UAV용 온보드 컴퓨터 설계를 자동화하여 비용을 낮추고 UAV 성능을 극대화할 수 있는 방법을 모색할 계획입니다.

"우리는 이미 Air Learning을 사용하여 다양한 배포 시나리오에 대한 여러 탐색 정책을 훈련하고 테스트했습니다."라고 Krishnan이 말했습니다. “또한 자율주행 연구의 일환으로 어플리케이션, 우리는 광원을 찾기 위해 완전히 자율적인 UAV를 만들었습니다. 이 작업에서는 Air Learning을 사용하여 초소형 마이크로컨트롤러 구동 UAV에서 실행되는 Light-seeking 정책을 훈련하고 배포했습니다.”

ELE 타임즈
+ 게시물
  • Bluetest와 Anritsu는 IEEE 802.11ax 6GHz 대역에서 OTA 측정을 지원합니다(Wi-Fi 인터넷 6E) 장치
  • 엔지니어, 양자 컴퓨터 설계의 중요한 발전
  • 인피니언 CEO "글로벌 칩 크런치는 2023년까지 지속될 수 있다"
  • 딥 러닝 알고리즘을 사용하여 교통 신호에서 자전거 타는 사람에게 '녹색 물결' 제공