Utilizzo di tecniche di generalizzazione per rendere i sistemi di intelligenza artificiale più versatili

Un gruppo di DeepMind chiamato Open-Ended Learning Team ha sviluppato un nuovo modo per addestrare i sistemi di intelligenza artificiale a giocare. Invece di esporlo a milioni di giochi precedenti, come avviene con altri sistemi di gioco di intelligenza artificiale, il gruppo di DeepMind ha fornito ai suoi nuovi agenti del sistema di intelligenza artificiale una serie di abilità minime che usano per raggiungere un obiettivo semplice (come individuare un altro giocatore in un mondo virtuale) e poi costruire su di esso. I ricercatori hanno creato un mondo virtuale chiamato XLand, un mondo virtuale colorato che ha un aspetto generale da videogioco. In esso, i giocatori di intelligenza artificiale, che i ricercatori chiamano agenti, partono per raggiungere un obiettivo generale e, mentre lo fanno, acquisiscono abilità che possono utilizzare per raggiungere altri obiettivi. I ricercatori quindi cambiano il gioco, dando agli agenti un nuovo obiettivo ma permettendo loro di mantenere le abilità che hanno imparato nei giochi precedenti.

Un esempio della tecnica coinvolge un agente che tenta di farsi strada verso una parte del suo mondo che è troppo alta per arrampicarsi direttamente e per la quale non ci sono punti di accesso come scale o rampe. Inciampando, l'agente scopre di poter spostare un oggetto piatto che trova per fungere da rampa e quindi farsi strada fino al punto in cui deve andare. Per consentire ai loro agenti di apprendere più abilità, i ricercatori hanno creato 700,000 scenari o giochi in cui gli agenti hanno affrontato circa 3.4 milioni di compiti unici. Adottando questo approccio, gli agenti sono stati in grado di imparare a giocare a più giochi, come taggare, catturare la bandiera e nascondino. I ricercatori definiscono il loro approccio infinitamente impegnativo. Un altro aspetto interessante di XLand è che esiste una sorta di overlord, un'entità che tiene d'occhio gli agenti e annota quali abilità stanno imparando e quindi genera nuovi giochi per rafforzare le loro abilità. Con questo approccio, gli agenti continueranno ad apprendere finché riceveranno nuovi compiti.

Nel gestire il loro mondo virtuale, i ricercatori hanno scoperto che gli agenti hanno appreso nuove abilità, generalmente per caso, che hanno trovato utili e poi sviluppate su di esse, portando a abilità più avanzate come il ricorso alla sperimentazione quando si esauriscono le opzioni, la cooperazione con altri agenti e imparare a usare gli oggetti come strumenti. Suggeriscono che il loro approccio sia un passo verso la creazione di algoritmi generalmente capaci che apprendano come giocare a nuovi giochi da soli, abilità che un giorno potrebbero essere utilizzate da autonomi robot.