Utiliser des techniques de généralisation pour rendre les systèmes d'IA plus polyvalents

Un groupe de DeepMind appelé Open-Ended Learning Team a développé une nouvelle façon de former des systèmes d'IA pour jouer à des jeux. Au lieu de l'exposer à des millions de jeux antérieurs, comme c'est le cas avec d'autres systèmes d'IA de jeu, le groupe de DeepMind a donné à ses nouveaux agents de système d'IA un ensemble de compétences minimales qu'ils utilisent pour atteindre un objectif simple (comme repérer un autre joueur dans un monde virtuel) et ensuite s'appuyer dessus. Les chercheurs ont créé un monde virtuel appelé XLand, un monde virtuel coloré qui a une apparence générale de jeu vidéo. Dans ce document, les joueurs d'IA, que les chercheurs appellent des agents, partent pour atteindre un objectif général et, ce faisant, ils acquièrent des compétences qu'ils peuvent utiliser pour atteindre d'autres objectifs. Les chercheurs modifient ensuite le jeu, donnant aux agents un nouvel objectif mais leur permettant de conserver les compétences qu'ils ont acquises lors des jeux précédents.

Un exemple de la technique implique un agent tentant de se frayer un chemin vers une partie de son monde qui est trop haute pour y grimper directement et pour laquelle il n'y a pas de points d'accès tels que des escaliers ou des rampes. En trépignant, l'agent constate qu'il peut déplacer un objet plat qu'il trouve pour servir de rampe et ainsi se frayer un chemin jusqu'à l'endroit où il doit aller. Pour permettre à leurs agents d'acquérir plus de compétences, les chercheurs ont créé 700,000 3.4 scénarios ou jeux dans lesquels les agents devaient faire face à environ XNUMX millions de tâches uniques. En adoptant cette approche, les agents ont pu apprendre par eux-mêmes à jouer à plusieurs jeux, tels que le tag, la capture du drapeau et le cache-cache. Les chercheurs appellent leur approche un défi sans fin. Un autre aspect intéressant de XLand est qu'il existe une sorte de suzerain, une entité qui garde un œil sur les agents et note les compétences qu'ils apprennent, puis génère de nouveaux jeux pour renforcer leurs compétences. Avec cette approche, les agents continueront d'apprendre tant qu'on leur confiera de nouvelles tâches.

En gérant leur monde virtuel, les chercheurs ont découvert que les agents ont acquis de nouvelles compétences, généralement par accident, qu'ils ont trouvées utiles, puis les ont développées, conduisant à des compétences plus avancées telles que le recours à l'expérimentation lorsqu'ils sont à court d'options, la coopération avec d'autres agents. et apprendre à utiliser les objets comme outils. Ils suggèrent que leur approche est une étape vers la création d'algorithmes généralement capables qui apprennent à jouer à de nouveaux jeux par eux-mêmes - des compétences qui pourraient un jour être utilisées par des personnes autonomes. Collaboratif.