I robot "fanno bene la prima volta" dopo l'apprendimento casuale dell'IA

Aggiornamento: 3 maggio 2024 Tag:ecoeliclglt

Robot a diffusione casuale NorthwesternU

Soprannominato "MaxDiff RL" (apprendimento per rinforzo a massima diffusione), "il successo dell'algoritmo risiede nella sua capacità di incoraggiare i robot a esplorare i loro ambienti nel modo più casuale possibile per acquisire una serie diversificata di esperienze", secondo l'università. “L’algoritmo funziona così bene che i robot imparano nuovi compiti e poi li eseguono con successo in un unico tentativo, riuscendo a farlo bene la prima volta. Ciò contrasta nettamente con gli attuali modelli di intelligenza artificiale, che consentono l’apprendimento attraverso tentativi ed errori”.

Il team contrappone l’apprendimento automatico per sistemi disincarnati che utilizzano grandi quantità di materiale curato dall’uomo (ChatGPT e Google Gemini/Bard), con un sistema incarnato come un robot che deve imparare dai dati raccolti senza cura esterna.

“Gli algoritmi tradizionali non sono compatibili con la robotica in due modi distinti”, ha affermato il professore di ingegneria Todd Murphey. “In primo luogo, i sistemi incorporei possono trarre vantaggio da un mondo in cui le leggi fisiche non si applicano. In secondo luogo, i fallimenti individuali non hanno conseguenze. Per le applicazioni informatiche, l’unica cosa che conta è che abbia successo nella maggior parte dei casi. Nella robotica, un fallimento potrebbe essere catastrofico”.

L'algoritmo è stato simulato nei computer e non ancora utilizzato in un sistema fisico, sebbene NoodleBot (foto) è in fase di sviluppo per testarlo nel mondo reale.

“In generale, i robot che utilizzano MaxDiff RL hanno imparato più velocemente rispetto agli altri modelli. Inoltre, hanno eseguito correttamente i compiti in modo molto più coerente e affidabile rispetto ad altri”, secondo la Northwestern. "I robot che utilizzano il metodo MaxDiff RL spesso riescono a eseguire correttamente un'attività in un unico tentativo, anche quando iniziano senza alcuna conoscenza."

I dettagli dell'algoritmo sono disponibili nel documento "Apprendimento con rinforzo a diffusione massima", pubblicato su Nature Machine Intelligence - pagamento richiesto senza abbonamento.