Usando aprendizagem por reforço sim-to-real para treinar robôs para realizar tarefas simples em ambientes amplos

Implantação em ambientes externos. Crédito: Ilija Radosavov

Uma equipe de roboticistas da Universidade da Califórnia, Berkeley, relata que é possível treinar robôs para realizar tarefas relativamente simples usando o aprendizado por reforço de simulação para real para treiná-los. Em seu estudo, publicado na revista Robótica ciência, o grupo treinou um robô para andar em ambientes desconhecidos enquanto carregava diversas cargas, tudo sem tombar.

Nos últimos anos, os roboticistas usaram uma variedade de técnicas para treinar robôs para se moverem de forma eficiente e rápida em ambientes variados. Mas, como observam os pesquisadores com este novo esforço, esses robôs não têm muitas aplicações úteis. Eles sugerem que robôs capazes de realizar tarefas mundanas de maneira lenta, mas eficiente, seriam muito mais úteis. Para esse fim, eles recorreram ao aprendizado por reforço do sim para o real.

Implantação em ambientes externos. Crédito: Ilija Radosavov

A técnica envolve treinar uma versão simulada de um robô para realizar as tarefas desejadas, expondo-o a bilhões de exemplos em ambientes simulados. O método também envolve o uso de um sistema de recompensa/penalidade como parte do treinamento do robô – se ele fizer algo certo ao tentar atingir uma meta, será recompensado recebendo um “1”, por exemplo. Se fizer algo errado, entretanto, receberá um “-1”. Com o tempo, melhora o seu desempenho à medida que procura aumentar a sua contagem de recompensas.

A equipe de pesquisa usou a abordagem para treinar um robô chamado Digit para percorrer um caminho ao longo de uma calçada em uma parte desconhecida de uma cidade e se recuperar após ser repetidamente atacado por uma grande bola, para superar uma restrição física, para caminhar sobre materiais que poderiam fazê-lo tropeçar, carregar uma mochila, carregar um saco de lixo para uma lixeira e usar uma sacola para carregar itens pessoais.

Experimentos internos e benchmark de simulação. Crédito: Ilija Radosavovic

Os pesquisadores sugerem que o aprendizado por reforço de simulação para real poderia ser usado para treinar robôs em ambientes do mundo real, como casa, escritório ou chão de fábrica. A ideia, observam eles, é tornar os robôs mais úteis.