무작위 AI 학습 후 로봇이 '처음부터 제대로 작동'

업데이트: 3년 2024월 XNUMX일 태그 :환경eliclglt

NorthwesternU 랜덤 확산 로봇

대학에 따르면 'MaxDiff RL'(최대 확산 강화 학습)이라고 불리는 "알고리즘의 성공은 로봇이 다양한 경험을 얻기 위해 가능한 한 무작위로 환경을 탐색하도록 장려하는 능력에 있습니다"라고 합니다. “알고리즘이 매우 잘 작동하여 로봇이 새로운 작업을 학습한 다음 한 번의 시도로 성공적으로 수행하여 처음부터 올바른 작업을 수행할 수 있었습니다. 이는 시행착오를 통해 학습을 가능하게 하는 현재의 AI 모델과 극명하게 대조됩니다.”

팀은 인간이 선별한 자료(ChatGPT 및 Google Gemini/Bard)를 대량으로 사용하는 분리된 시스템에 대한 기계 학습을 외부 선별 없이 수집한 데이터로부터 학습해야 하는 로봇과 같은 구현된 시스템과 대조합니다.

토드 머피(Todd Murphey) 공학 교수는 “전통적인 알고리즘은 두 가지 측면에서 로봇 공학과 호환되지 않습니다. “첫째, 실체 없는 시스템은 물리적 법칙이 적용되지 않는 세계를 활용할 수 있습니다. 둘째, 개인의 실패는 결과를 가져오지 않습니다. 컴퓨터 과학 응용 프로그램의 경우 중요한 것은 대부분의 경우 성공한다는 것입니다. 로봇 공학에서는 한 번의 실패가 재앙이 될 수 있습니다.”

알고리즘은 컴퓨터에서 시뮬레이션되었으며 NoodleBot(사진)을 현실 세계에서 테스트하기 위해 개발 중입니다.

“전반적으로 MaxDiff RL을 사용하는 로봇은 다른 모델보다 빠르게 학습했습니다. 또한 그들은 다른 사람들보다 훨씬 일관되고 안정적으로 작업을 올바르게 수행했습니다.”라고 Northwestern은 말했습니다. "MaxDiff RL 방법을 사용하는 로봇은 지식 없이 시작한 경우에도 한 번의 시도로 작업을 올바르게 수행하는 데 성공하는 경우가 많습니다."

알고리즘에 대한 자세한 내용은 Nature Machine Intelligence에 게재된 '최대 확산 강화 학습' 논문에서 확인할 수 있습니다. 구독 없이 결제가 필요합니다.