Air Learning: um ambiente de academia para treinar algoritmos de reforço profundo para navegação de UAVs

Aprendizado aéreo: um ambiente de academia para treinar algoritmos de reforço profundo para navegação de UAVs

Roboticistas em todo o mundo têm tentado desenvolver veículos aéreos não tripulados autônomos (UAVs) que poderiam ser implantados durante missões de busca e resgate ou que poderiam ser usados para mapear áreas geográficas e para busca de fontes. Para operar de forma autônoma, no entanto, os drones devem ser capazes de se mover com segurança e eficiência em seu ambiente.

Nos últimos anos, algoritmos de aprendizagem por reforço (RL) têm alcançado resultados altamente promissores ao possibilitar maior autonomia em robôs. No entanto, a maioria das técnicas de RL existentes se concentram principalmente no projeto do algoritmo, sem considerar suas implicações reais. Como resultado, quando os algoritmos são aplicados em UAVs reais, seu desempenho pode ser diferente ou decepcionante.

Por exemplo, como muitos drones têm recursos de computação integrados limitados, os algoritmos RL treinados em simulações podem demorar mais para fazer previsões quando aplicados em robôs reais. Esses tempos de computação mais longos podem tornar um UAV mais lento e menos responsivo, o que, por sua vez, pode afetar o resultado de uma missão ou resultar em acidentes e colisões.

Pesquisadores da Harvard University e do Google Research desenvolveram recentemente o Air Learning, um simulador de código aberto e ambiente de academia onde os pesquisadores podem treinar algoritmos RL para navegação de UAV. Isso pode ajudar a melhorar o desempenho de UAVs autônomos em configurações do mundo real.

“Para alcançar a verdadeira autonomia em UAVs, é necessário olhar para os aspectos do sistema, como a escolha do computador de bordo”, disse Srivatsan Krishnan, um dos pesquisadores que realizou o estudo. “Portanto, o objetivo principal do nosso estudo foi fornecer os blocos fundamentais que permitirão aos pesquisadores avaliar esses algoritmos de autonomia de forma holística.”

No Air Learning, os agentes de UAV podem ser expostos e treinados em cenários de navegação desafiadores. Mais especificamente, eles podem ser treinados em tarefas de prevenção de obstáculos ponto a ponto em três ambientes principais, usando duas técnicas de treinamento chamadas redes Q profundas (DQN) e algoritmos de otimização de política proximal (PPO).

“O Air Learning fornece blocos de construção básicos para projetar e avaliar algoritmos de autonomia de uma forma holística”, disse Krishnan. “Ele fornece geradores de ambiente compatíveis com a academia OpenAI que permitirão aos pesquisadores treinar vários algoritmos de aprendizagem por reforço e políticas baseadas em rede neural.”

Na plataforma desenvolvida por Krishnan e seus colegas, os pesquisadores podem avaliar o desempenho dos algoritmos que desenvolveram sob várias métricas de qualidade de voo (QoF). Por exemplo, eles podem avaliar a energia consumida por drones ao usar seus algoritmos, bem como sua resistência e duração média da trajetória ao usar hardware com recursos limitados, como um Raspberry Pi.

“Uma vez que seus algoritmos são projetados, os pesquisadores podem usar o hardware-in-the-loop para conectar um computador embarcado e avaliar como o algoritmo de autonomia funciona como se estivesse rodando em um UAV real com aquele computador de bordo”, disse Krishnan. “Usando essas técnicas, vários gargalos de desempenho no nível do sistema podem ser identificados no início do processo de design.”

Ao executar testes no Air Learning, os pesquisadores descobriram que geralmente há uma discrepância entre o desempenho previsto e o funcionamento real dos computadores de bordo. Esta discrepância pode afetar o desempenho geral dos UAVs, potencialmente afetando sua implantação, resultados de missão e segurança.

“Embora nos concentremos especificamente em UAVs, acreditamos que as metodologias que usamos podem ser aplicadas a outros sistemas autônomos, como carros autônomos”, disse Krishnan. “Como esses computadores de bordo são o cérebro dos sistemas autônomos, falta uma metodologia sistemática para projetá-los. Para projetar computadores de bordo com eficiência, primeiro precisamos entender os gargalos de desempenho, e o Air Learning fornece os blocos básicos para entender quais são os gargalos de desempenho. ”

No futuro, o Air Learning pode provar ser uma plataforma valiosa para a avaliação de algoritmos RL projetados para permitir a operação autônoma de UAVs e outros sistemas robóticos. Krishnan e seus colegas agora estão usando a plataforma que criaram para resolver uma variedade de problemas de pesquisa, que vão desde o desenvolvimento de drones projetados para completar missões específicas até a criação de computadores de bordo especializados.

“O aprendizado por reforço é conhecido por ser notoriamente lento para treinar”, disse Krishnan. “As pessoas geralmente aceleram o treinamento de RL por meio do uso de mais recursos de computação, o que pode ser caro e reduzir as barreiras de entrada para muitos pesquisadores. Nosso trabalho QuaRL (Quantized reforcement learning) usa a quantização para acelerar o treinamento e a inferência de RL. Usamos o Air Learning para mostrar a aplicação do QuaRL no mundo real na implantação de políticas RL maiores em UAVs com restrição de memória. ”

Os computadores de bordo atuam como os “cérebros” de sistemas autônomos, portanto, eles devem ser capazes de executar com eficiência uma variedade de algoritmos. Projetar esses computadores, no entanto, pode ser muito caro e carece de uma metodologia de projeto sistemática. Em seus próximos estudos, portanto, Krishnan e seus colegas também planejam explorar como eles poderiam automatizar o projeto de computadores de bordo para UAVs autônomos, para reduzir seu custo e maximizar o desempenho do UAV.

“Já usamos o Air Learning para treinar e testar várias políticas de navegação para diferentes cenários de implantação”, disse Krishnan. “Além disso, como parte de nossa pesquisa sobre autônomo aplicações, criamos um UAV totalmente autônomo para buscar fontes de luz. O trabalho usou o Air Learning para treinar e implantar uma política de busca de luz para funcionar em um pequeno UAV movido a microcontrolador. ”

Horários ELE

+ postagens

Horários ELE

https://www.eletimes.com/author/eletimes-news

Bluetest e Anritsu com suporte para medição OTA na banda IEEE 802.11ax de 6 GHz (Wi-Fi 6E) Dispositivos
Horários ELE

https://www.eletimes.com/author/eletimes-news

Engenheiros fazem um avanço crítico no design de computador quântico
Horários ELE

https://www.eletimes.com/author/eletimes-news

Global Chip Crunch pode persistir até 2023, diz o CEO da Infineon
Horários ELE

https://www.eletimes.com/author/eletimes-news

Usando algoritmos de aprendizado profundo para dar aos ciclistas a 'onda verde' nos sinais de trânsito

Aprendizado aéreo: um ambiente de academia para treinar algoritmos de reforço profundo para navegação de UAVs

Horários ELE