Las aplicaciones de aprendizaje automático necesitan menos datos de los que se suponía

Actualización: 31 de julio de 2021
Las aplicaciones de aprendizaje automático necesitan menos datos de los que se suponía

Investigadores de la Universidad de Columbia Británica y la Universidad de Alberta han descubierto que al menos algunas aplicaciones de aprendizaje automático pueden aprender de muchos menos ejemplos de los que se suponía, el grupo describe las pruebas que llevaron a cabo con aplicaciones de aprendizaje automático creadas para predecir ciertos tipos de estructuras.

El aprendizaje automático se puede utilizar en una amplia variedad de aplicaciones; una de las más conocidas es aprender a detectar personas u objetos en fotografías. Normalmente, estas aplicaciones requieren una gran cantidad de datos para la formación. En este nuevo esfuerzo, los investigadores han descubierto que, en algunos casos, las aplicaciones de aprendizaje automático no necesitan cantidades tan grandes de datos para ser útiles.

Inicialmente, los investigadores buscaban formas de predecir la estructura de las drogas de diseño ilegales. Hacerlo ayudaría a los investigadores médicos a prepararse para ellos en caso de que las personas que los consuman comiencen a aparecer en las salas de emergencia de los hospitales. El equipo se dio cuenta de que su trabajo sería mucho más fácil si pudieran usar una aplicación de aprendizaje automático; Desafortunadamente, solo se conocen 1,700 medicamentos de diseño que podrían usarse para entrenar tal sistema. Sin desanimarse, los investigadores se preguntaron si sería posible averiguar cuántos datos se necesitarían para que un sistema de este tipo fuera útil, o si podría haber una forma de modificar un algoritmo o los datos que se usaron para entrenarlo para permitir para menos datos disponibles.

Para averiguarlo, los investigadores crearon 8,500 modelos y entrenaron a cada uno de ellos en conjuntos de datos de diferentes tamaños tomados de las 500,000 moléculas en el sistema simplificado de entrada de línea de entrada molecular. Luego usaron los modelos para predecir posibles tipos moleculares. Al hacerlo, encontraron que muchos de los modelos funcionaban bastante bien con el conjunto de datos limitado. También encontraron que la mayoría de ellos comenzaron a estabilizarse en sus habilidades predictivas después de solo 10,000 a 20,000 datos registros. Cuando utilizaron los modelos de mejor rendimiento para realizar su investigación inicial, encontraron que los resultados eran correctos aproximadamente el 50% de las veces.