Aplicativos de aprendizado de máquina precisam de menos dados do que foi assumido

Atualização: 31 de julho de 2021
Aplicativos de aprendizado de máquina precisam de menos dados do que foi assumido

Pesquisadores da University of British Columbia e da University of Alberta descobriram que pelo menos alguns aplicativos de aprendizado de máquina podem aprender com muito menos exemplos do que foi assumido. O grupo descreve os testes realizados com aplicativos de aprendizado de máquina criados para prever certos tipos de estruturas.

O aprendizado de máquina pode ser usado em uma ampla variedade de aplicativos - um dos mais conhecidos é aprender a identificar pessoas ou objetos em fotografias. Esses aplicativos normalmente requerem grandes quantidades de dados para treinamento. Nesse novo esforço, os pesquisadores descobriram que, em alguns casos, os aplicativos de aprendizado de máquina não precisam de grandes quantidades de dados para serem úteis.

Os pesquisadores estavam inicialmente procurando maneiras de prever a estrutura das drogas ilegais. Fazer isso ajudaria os pesquisadores médicos a se prepararem para eles, caso as pessoas que os consomem comecem a aparecer nas salas de emergência do hospital. A equipe percebeu que seu trabalho seria muito mais fácil se pudessem usar um aplicativo de aprendizado de máquina; infelizmente, existem apenas 1,700 drogas sintéticas conhecidas que poderiam ser usadas para treinar tal sistema. Destemidos, os pesquisadores se perguntaram se seria possível descobrir quantos dados seriam necessários para que tal sistema fosse útil, ou se poderia haver uma maneira de modificar um algoritmo ou os dados que foram usados ​​para treiná-lo para permitir para menos dados disponíveis.

Para descobrir, os pesquisadores criaram 8,500 modelos e treinaram cada um deles em conjuntos de dados de tamanhos diferentes retirados das 500,000 moléculas no sistema simplificado de entrada de linha de entrada molecular. Em seguida, eles usaram os modelos para prever possíveis tipos moleculares. Ao fazer isso, eles descobriram que muitos dos modelos funcionavam muito bem com o conjunto de dados limitado. Eles também descobriram que a maioria deles começou a estabilizar suas habilidades preditivas depois de apenas 10,000 a 20,000 dados, registros. Quando eles usaram os modelos de melhor desempenho para conduzir sua pesquisa inicial, eles descobriram que os resultados estavam corretos aproximadamente 50% das vezes.