기계 학습 애플리케이션에는 예상보다 적은 데이터가 필요합니다

브리티시 컬럼비아 대학과 앨버타 대학의 연구원은 적어도 일부 기계 학습 응용 프로그램이 가정된 것보다 훨씬 적은 수의 예제에서 학습할 수 있다는 것을 발견했습니다. 그룹은 특정 유형의 분자를 예측하기 위해 만들어진 기계 학습 응용 프로그램으로 수행한 테스트를 설명합니다. 구조.

기계 학습은 다양한 응용 분야에서 사용할 수 있습니다. 가장 잘 알려진 것 중 하나는 사진에서 사람이나 사물을 찾는 학습입니다. 이러한 응용 프로그램은 일반적으로 교육을 위해 엄청난 양의 데이터가 필요합니다. 이 새로운 노력에서 연구원들은 어떤 경우에는 기계 학습 응용 프로그램이 유용하기 위해 그렇게 많은 양의 데이터가 필요하지 않다는 것을 발견했습니다.

연구자들은 처음에 불법 설계 약물의 구조를 예측하는 방법을 찾고 있었습니다. 그렇게 하면 의료 연구원이 이를 섭취하는 사람들이 병원 응급실에 나타나기 시작하는 경우에 대비하는 데 도움이 될 것입니다. 팀은 기계 학습 응용 프로그램을 사용할 수 있다면 작업이 훨씬 더 쉬울 것이라는 것을 깨달았습니다. 불행히도 그러한 시스템을 훈련하는 데 사용할 수 있는 알려진 설계 약물은 1,700개에 불과합니다. 연구자들은 낙담하지 않고 그러한 시스템이 유용하기 위해 얼마나 많은 데이터가 필요한지 알아내는 것이 가능한지, 또는 알고리즘을 수정하는 방법이나 허용하도록 훈련하는 데 사용된 데이터가 있는지 궁금해했습니다. 사용 가능한 데이터가 적습니다.

이를 알아내기 위해 연구원들은 8,500개의 모델을 만들고 단순화된 분자 입력 라인 입력 시스템의 500,000개 분자에서 가져온 서로 다른 크기의 데이터 세트에서 각 모델을 훈련했습니다. 그런 다음 그들은 모델을 사용하여 가능한 분자 유형을 예측했습니다. 그렇게 함으로써, 그들은 제한된 데이터 세트에서 많은 모델이 아주 잘 작동한다는 것을 발견했습니다. 그들은 또한 그들 대부분이 10,000에서 20,000에 불과한 후에 예측 능력에서 평준화되기 시작했다는 것을 발견했습니다. 데이터 기록. 가장 성능이 좋은 모델을 사용하여 초기 연구를 수행했을 때 결과가 약 50%의 시간 동안 정확하다는 것을 발견했습니다.

머신 러닝 애플리케이션은 예상보다 적은 데이터를 필요로 합니다.