Een team van robotici van de Universiteit van Californië, Berkeley, meldt dat het mogelijk is robots te trainen om relatief eenvoudige taken uit te voeren door ze te trainen met behulp van sim-to-real-bekrachtigingsleren. In hun onderzoek, gepubliceerd in het tijdschrift Science Roboticstrainde de groep een robot om in onbekende omgevingen te lopen terwijl hij verschillende lasten droeg, allemaal zonder om te vallen.
De afgelopen jaren hebben robotici een verscheidenheid aan technieken gebruikt om robots te trainen om efficiënt en snel door verschillende omgevingen te bewegen. Maar zoals de onderzoekers met deze nieuwe poging opmerken, hebben dergelijke robots niet veel nuttige toepassingen. Ze suggereren dat robots die alledaagse taken op een langzame maar efficiënte manier kunnen uitvoeren, veel nuttiger zouden zijn. Daartoe hebben ze zich tot sim-to-real-bekrachtigingsleren gewend.
De techniek omvat het trainen van een gesimuleerde versie van een robot om de gewenste taken uit te voeren door hem bloot te stellen aan miljarden voorbeelden in gesimuleerde omgevingen. De methode omvat ook het gebruik van een belonings-/strafsysteem als onderdeel van de training van de robot. Als hij iets goed doet terwijl hij een doel probeert te bereiken, wordt hij beloond met bijvoorbeeld een '1'. Als het echter iets verkeerd doet, krijgt het een “-1.” Na verloop van tijd verbetert het zijn prestaties terwijl het het aantal beloningen probeert te verhogen.
Het onderzoeksteam gebruikte deze aanpak om een robot genaamd Digit te trainen om een pad langs een trottoir in een onbekend deel van een stad te navigeren en te herstellen na herhaaldelijk te zijn aangevallen door een grote bal, om een fysieke belemmering te overwinnen, om over materialen te lopen die mogelijk ervoor zorgen dat hij struikelt, een rugzak draagt, een zak met afval naar een afvalbak draagt en een draagtas gebruikt om persoonlijke spullen mee te nemen.
De onderzoekers suggereren dat sim-to-real-versterkingsleren kan worden gebruikt om robots te trainen in echte omgevingen zoals thuis, op kantoor of op de fabrieksvloer. Het idee, zo merken ze op, is om robots nuttiger te maken.