Los robots 'lo hacen bien a la primera' después del aprendizaje aleatorio de IA

Actualización: 3 de mayo de 2024 Tags:ecoeliclglt

Robot de difusión aleatoria NorthwesternU

Apodado 'MaxDiff RL' (aprendizaje por refuerzo de máxima difusión), "el éxito del algoritmo reside en su capacidad de animar a los robots a explorar sus entornos de la forma más aleatoria posible para obtener un conjunto diverso de experiencias", según la universidad. “El algoritmo funciona tan bien que los robots aprendieron nuevas tareas y luego las realizaron con éxito en un solo intento, haciéndolo bien a la primera. Esto contrasta marcadamente con los modelos actuales de IA, que permiten el aprendizaje mediante prueba y error”.

El equipo contrasta el aprendizaje automático para sistemas incorpóreos que utilizan grandes cantidades de material curado por humanos (ChatGPT y Google Gemini/Bard), con un sistema incorporado como un robot que tiene que aprender de los datos que ha recopilado sin curación externa.

"Los algoritmos tradicionales no son compatibles con la robótica de dos maneras distintas", dijo el profesor de ingeniería Todd Murphey. “En primer lugar, los sistemas incorpóreos pueden aprovechar un mundo donde las leyes físicas no se aplican. En segundo lugar, los fracasos individuales no tienen consecuencias. Para las aplicaciones informáticas, lo único que importa es que tenga éxito la mayor parte del tiempo. En robótica, un fallo podría ser catastrófico”.

El algoritmo ha sido simulado en computadoras y aún no se ha utilizado en un sistema físico, aunque NoodleBot ( ) se está desarrollando para probarlo en el mundo real.

“En general, los robots que utilizan MaxDiff RL aprendieron más rápido que los otros modelos. También realizaron tareas correctamente de manera mucho más consistente y confiable que otros”, según Northwestern. "Los robots que utilizan el método MaxDiff RL a menudo logran realizar correctamente una tarea en un solo intento, incluso cuando comenzaron sin conocimientos".

Los detalles del algoritmo están disponibles en el artículo 'Aprendizaje por refuerzo de difusión máxima', publicado en Nature Machine Intelligence: se requiere pago sin suscripción.