Le applicazioni di apprendimento automatico richiedono meno dati di quanto ipotizzato

Aggiornamento: 31 luglio 2021
Le applicazioni di apprendimento automatico richiedono meno dati di quanto ipotizzato

I ricercatori dell'Università della British Columbia e dell'Università dell'Alberta hanno scoperto che almeno alcune applicazioni di apprendimento automatico possono imparare da molti meno esempi di quanto si supponesse, il gruppo descrive i test eseguiti con applicazioni di apprendimento automatico create per prevedere determinati tipi di molecole molecolari. strutture.

L'apprendimento automatico può essere utilizzato in un'ampia varietà di applicazioni: una delle più note è imparare a individuare persone o oggetti nelle fotografie. Tali applicazioni richiedono in genere enormi quantità di dati per l'addestramento. In questo nuovo sforzo, i ricercatori hanno scoperto che in alcuni casi, le applicazioni di apprendimento automatico non hanno bisogno di tali enormi quantità di dati per essere utili.

Inizialmente i ricercatori stavano cercando modi per prevedere la struttura delle droghe illegali di design. Ciò aiuterebbe i ricercatori medici a prepararsi per loro se le persone che li consumano iniziano a presentarsi nei pronto soccorso degli ospedali. Il team si è reso conto che il loro lavoro sarebbe stato molto più semplice se avessero potuto utilizzare un'applicazione di apprendimento automatico; sfortunatamente, ci sono solo 1,700 farmaci di design conosciuti che potrebbero essere usati per addestrare un tale sistema. Imperterriti, i ricercatori si sono chiesti se fosse possibile capire quanti dati sarebbero necessari affinché un tale sistema fosse utile, o se potesse esserci un modo per modificare un algoritmo o i dati utilizzati per addestrarlo per consentire per dati meno disponibili.

Per scoprirlo, i ricercatori hanno creato 8,500 modelli e hanno addestrato ciascuno di essi su set di dati di dimensioni diverse prelevati dalle 500,000 molecole nel sistema di immissione della linea di input molecolare semplificato. Quindi hanno usato i modelli per prevedere possibili tipi molecolari. In tal modo, hanno scoperto che molti dei modelli funzionavano abbastanza bene con il set di dati limitato. Hanno anche scoperto che la maggior parte di loro ha iniziato a stabilizzarsi nelle proprie capacità predittive dopo appena 10,000 - 20,000 dati record. Quando hanno utilizzato i modelli più performanti per condurre la loro ricerca iniziale, hanno scoperto che i risultati erano corretti circa il 50% delle volte.