Uso de técnicas de generalización para hacer que los sistemas de inteligencia artificial sean más versátiles

Actualización: 2 de agosto de 2021
Uso de técnicas de generalización para hacer que los sistemas de inteligencia artificial sean más versátiles

Un grupo de DeepMind llamado Open-Ended Learning Team ha desarrollado una nueva forma de entrenar sistemas de IA para jugar. En lugar de exponerlo a millones de juegos anteriores, como se hace con otros sistemas de IA de juegos, el grupo de DeepMind le ha dado a sus nuevos agentes del sistema de IA un conjunto de habilidades mínimas que utilizan para lograr un objetivo simple (como detectar a otro jugador). en un mundo virtual) y luego construir sobre él. Los investigadores crearon un mundo virtual llamado XLand, un mundo virtual colorido que tiene una apariencia general de videojuego. En él, los jugadores de IA, a los que los investigadores llaman agentes, parten para lograr un objetivo general y, a medida que lo hacen, adquieren habilidades que pueden utilizar para lograr otros objetivos. Luego, los investigadores cambian el juego, dando a los agentes un nuevo objetivo pero permitiéndoles retener las habilidades que han aprendido en juegos anteriores.

Un ejemplo de la técnica involucra a un agente que intenta llegar a una parte de su mundo que es demasiado alta para subir directamente y para la cual no hay puntos de acceso como escaleras o rampas. Al dar vueltas, el agente descubre que puede mover un objeto plano que encuentre para que le sirva de rampa y así llegar hasta donde necesita ir. Para permitir que sus agentes aprendan más habilidades, los investigadores crearon 700,000 escenarios o juegos en los que los agentes enfrentaron aproximadamente 3.4 millones de tareas únicas. Al adoptar este enfoque, los agentes pudieron aprender a sí mismos cómo jugar múltiples juegos, como marcar, capturar la bandera y esconderse. Los investigadores llaman a su enfoque infinitamente desafiante. Otro aspecto interesante de XLand es que existe una especie de señor supremo, una entidad que vigila a los agentes y anota qué habilidades están aprendiendo y luego genera nuevos juegos para fortalecer sus habilidades. Con este enfoque, los agentes seguirán aprendiendo mientras se les asignen nuevas tareas.

Al ejecutar su mundo virtual, los investigadores encontraron que los agentes aprendieron nuevas habilidades, generalmente por accidente, que encontraron útiles y luego las desarrollaron, lo que llevó a habilidades más avanzadas, como recurrir a la experimentación cuando se quedaron sin opciones, cooperar con otros agentes. y aprender a usar objetos como herramientas. Sugieren que su enfoque es un paso hacia la creación de algoritmos generalmente capaces que aprenden a jugar nuevos juegos por sí mismos, habilidades que algún día podrían ser utilizadas por autónomos. los robots.