Роботы «делают все правильно с первого раза» после случайного обучения ИИ

Робот случайной диффузии NorthwesternU

По данным университета, получивший название «MaxDiff RL» (обучение с максимальным диффузионным подкреплением), «успех алгоритма заключается в его способности побуждать роботов исследовать окружающую среду как можно случайнее, чтобы получить разнообразный набор опыта». «Алгоритм работает настолько хорошо, что роботы изучают новые задачи, а затем успешно выполняют их за одну попытку, делая все правильно с первого раза. Это резко контрастирует с нынешними моделями искусственного интеллекта, которые позволяют учиться методом проб и ошибок».

Команда противопоставляет машинное обучение бестелесным системам, которые используют большие объемы материала, курируемого человеком (ChatGPT и Google Gemini/Bard), воплощенной системе, такой как робот, который должен учиться на данных, которые он собрал без внешнего курирования.

«Традиционные алгоритмы несовместимы с робототехникой по двум различным причинам», — сказал профессор инженерии Тодд Мерфи. «Во-первых, бестелесные системы могут воспользоваться преимуществами мира, в котором законы физики не действуют. Во-вторых, отдельные неудачи не имеют последствий. Для приложений в области информатики единственное, что имеет значение, — это успех в большинстве случаев. В робототехнике одна ошибка может обернуться катастрофой».

Алгоритм был смоделирован на компьютерах и еще не использовался в физической системе, хотя NoodleBot (Фото) разрабатывается для тестирования его в реальном мире.

«В целом роботы, использующие MaxDiff RL, обучались быстрее, чем другие модели. Они также правильно выполняли задачи, гораздо более последовательно и надежно, чем другие», — утверждают в Northwestern. «Роботам, использующим метод MaxDiff RL, часто удавалось правильно выполнить задачу за одну попытку, даже если они начинали без каких-либо знаний».

Подробности об алгоритме доступны в статье «Обучение с максимальным диффузионным усилением», опубликованной в журнале Nature Machine Intelligence — оплата требуется без подписки.