일반화 기술을 사용하여 AI 시스템을 더욱 다양하게 만들기

Open-Ended Learning Team이라는 DeepMind의 그룹은 게임을 하도록 AI 시스템을 훈련시키는 새로운 방법을 개발했습니다. DeepMind의 그룹은 AI 시스템을 실행하는 다른 게임에서와 같이 수백만 개의 이전 게임에 노출하는 대신 새로운 AI 시스템 에이전트에게 간단한 목표를 달성하는 데 사용하는 최소한의 기술 세트를 제공했습니다(예: 다른 플레이어 발견 가상 세계에서) 그런 다음 빌드합니다. 연구원들은 일반적인 비디오 게임 모양을 가진 다채로운 가상 세계인 Xland라는 가상 세계를 만들었습니다. 그 안에서 연구자들이 에이전트라고 부르는 AI 플레이어는 일반적인 목표를 달성하기 위해 출발하고, 그렇게 하면서 다른 목표를 달성하는 데 사용할 수 있는 기술을 습득합니다. 그런 다음 연구원은 게임을 전환하여 에이전트에게 새로운 목표를 제공하지만 이전 게임에서 배운 기술을 유지할 수 있도록 합니다.

이 기술의 한 가지 예는 너무 높아 직접 올라갈 수 없고 계단이나 경사로와 같은 접근 지점이 없는 세계의 일부로 에이전트가 이동하려고 시도하는 것과 관련됩니다. 주변을 두리번거리면서 에이전트는 경사로 역할을 하는 평평한 물체를 이동하여 필요한 곳까지 이동할 수 있음을 발견합니다. 에이전트가 더 많은 기술을 배울 수 있도록 연구원은 에이전트가 약 700,000만 개의 고유 작업에 직면하는 3.4개의 시나리오 또는 게임을 만들었습니다. 이 접근 방식을 사용하여 에이전트는 태그 지정, 깃발 캡처, 숨바꼭질과 같은 여러 게임을 하는 방법을 스스로 가르칠 수 있었습니다. 연구자들은 그들의 접근 방식을 끝없이 도전적이라고 부릅니다. XLand의 또 다른 흥미로운 측면은 일종의 대군주가 존재한다는 것입니다. 에이전트는 에이전트를 감시하고 그들이 배우고 있는 기술을 기록한 다음 기술을 강화하기 위해 새로운 게임을 생성합니다. 이 접근 방식을 사용하면 에이전트는 새로운 작업이 주어지는 한 계속 학습합니다.

가상 세계를 운영하면서 연구원들은 에이전트가 일반적으로 우연히 새로운 기술을 배우고 유용하다고 생각한 다음 이를 기반으로 구축하여 옵션이 부족할 때 실험에 의존하고 다른 에이전트와 협력하는 것과 같은 고급 기술로 이어진다는 것을 발견했습니다. 도구로 물건을 사용하는 방법을 배웁니다. 그들은 그들의 접근 방식이 스스로 새로운 게임을 하는 방법을 배우는 일반적으로 유능한 알고리즘을 만드는 단계라고 제안합니다. 로봇.

AI 시스템을 보다 다재다능하게 만들기 위한 일반화 기술 사용