Les applications d'apprentissage automatique nécessitent moins de données qu'on ne le pensait

Les applications d'apprentissage automatique ont besoin de moins de données que prévu

Des chercheurs de l'Université de la Colombie-Britannique et de l'Université de l'Alberta ont découvert qu'au moins certaines applications d'apprentissage automatique peuvent apprendre à partir de beaucoup moins d'exemples qu'on ne le pensait, le groupe décrit les tests qu'ils ont effectués avec des applications d'apprentissage automatique créées pour prédire certains types de molécules structure.

L'apprentissage automatique peut être utilisé dans une grande variété d'applications. L'une des plus connues est d'apprendre à repérer des personnes ou des objets sur des photographies. De telles applications nécessitent généralement d'énormes quantités de données pour la formation. Dans ce nouvel effort, les chercheurs ont découvert que dans certains cas, les applications d'apprentissage automatique n'ont pas besoin d'une telle quantité de données pour être utiles.

Les chercheurs cherchaient initialement des moyens de prédire la structure des drogues de synthèse illégales. Cela aiderait les chercheurs en médecine à s'y préparer si les personnes qui les consomment commençaient à se présenter dans les salles d'urgence des hôpitaux. L'équipe s'est rendu compte que leur travail serait beaucoup plus facile s'ils pouvaient utiliser une application d'apprentissage automatique ; Malheureusement, il n'y a que 1,700 XNUMX drogues de synthèse connues qui pourraient être utilisées pour former un tel système. Imperturbables, les chercheurs se sont demandé s'il serait possible de déterminer combien de données seraient nécessaires pour qu'un tel système soit utile, ou s'il pourrait y avoir un moyen de modifier un algorithme ou les données qui ont été utilisées pour l'entraîner à permettre pour moins de données disponibles.

Pour le savoir, les chercheurs ont créé 8,500 500,000 modèles et entraîné chacun d'eux sur des ensembles de données de tailles différentes tirés des 10,000 20,000 molécules du système simplifié d'entrée de ligne d'entrée moléculaire. Ensuite, ils ont utilisé les modèles pour prédire les types moléculaires possibles. Ce faisant, ils ont découvert que de nombreux modèles fonctionnaient assez bien avec l'ensemble de données limité. Ils ont également constaté que la plupart d'entre eux ont commencé à stabiliser leurs capacités prédictives après seulement XNUMX XNUMX à XNUMX XNUMX données enregistrements. Lorsqu'ils ont utilisé les modèles les plus performants pour mener leurs recherches initiales, ils ont constaté que les résultats étaient corrects environ 50 % du temps.

Les applications d'apprentissage automatique ont besoin de moins de données que prévu