Machine Learning-Anwendungen benötigen weniger Daten als angenommen

Aktualisierung: 31. Juli 2021
Machine Learning-Anwendungen benötigen weniger Daten als angenommen

Forscher der University of British Columbia und der University of Alberta haben herausgefunden, dass zumindest einige Anwendungen des maschinellen Lernens aus weit weniger Beispielen lernen können als angenommen Strukturen.

Maschinelles Lernen kann in einer Vielzahl von Anwendungen eingesetzt werden – eine der bekanntesten ist das Erlernen des Erkennens von Personen oder Objekten auf Fotos. Solche Anwendungen erfordern typischerweise riesige Datenmengen für das Training. Bei diesem neuen Versuch haben die Forscher herausgefunden, dass Anwendungen für maschinelles Lernen in einigen Fällen nicht so große Datenmengen benötigen, um nützlich zu sein.

Die Forscher suchten zunächst nach Möglichkeiten, die Struktur illegaler Designerdrogen vorherzusagen. Dies würde medizinischen Forschern helfen, sich auf sie vorzubereiten, falls Menschen, die sie konsumieren, in der Notaufnahme eines Krankenhauses auftauchen. Das Team erkannte, dass seine Arbeit viel einfacher wäre, wenn es eine Anwendung für maschinelles Lernen verwenden könnte. Leider gibt es nur 1,700 bekannte Designerdrogen, mit denen ein solches System trainiert werden könnte. Unerschrocken fragten sich die Forscher, ob es möglich sein könnte herauszufinden, wie viele Daten für ein solches System benötigt werden, um nützlich zu sein, oder ob es eine Möglichkeit geben könnte, einen Algorithmus oder die Daten, mit denen es trainiert wurde, so zu modifizieren, dass dies möglich ist für weniger verfügbare Daten.

Um dies herauszufinden, erstellten die Forscher 8,500 Modelle und trainierten jedes von ihnen mit unterschiedlich großen Datensätzen, die von den 500,000 Molekülen im vereinfachten molekularen Eingabe-Linieneingabesystem entnommen wurden. Dann nutzten sie die Modelle, um mögliche Molekültypen vorherzusagen. Dabei stellten sie fest, dass viele der Modelle mit dem begrenzten Datensatz recht gut funktionierten. Sie fanden auch heraus, dass die meisten von ihnen bereits nach 10,000 bis 20,000 anfingen, in ihren Vorhersagefähigkeiten abzuflachen technische Daten Aufzeichnungen. Als sie die leistungsstärksten Modelle für ihre ersten Recherchen verwendeten, stellten sie fest, dass die Ergebnisse in etwa 50 % der Fälle korrekt waren.