機械学習アプリケーションに必要なデータは、想定されているよりも少なくなります

更新:31年2021月XNUMX日
機械学習アプリケーションに必要なデータは、想定されているよりも少なくなります

ブリティッシュコロンビア大学とアルバータ大学の研究者は、少なくとも一部の機械学習アプリケーションが想定よりもはるかに少ない例から学習できることを発見しました。グループは、特定の種類の分子を予測するために作成された機械学習アプリケーションで実行したテストについて説明しています。構造。

機械学習はさまざまなアプリケーションで使用できます。最もよく知られているのは、写真の中の人や物を見つけることを学ぶことです。 このようなアプリケーションは通常、トレーニングのために大量のデータを必要とします。 この新しい取り組みの中で、研究者は、場合によっては、機械学習アプリケーションが有用であるためにそのような膨大な量のデータを必要としないことを発見しました。

研究者たちは当初、違法なデザイナードラッグの構造を予測する方法を探していました。 そうすることで、医学研究者は、それらを消費する人々が病院の救急治療室に現れ始めた場合に備えて準備するのに役立ちます。 チームは、機械学習アプリケーションを使用できれば、仕事がはるかに簡単になることに気づきました。 残念ながら、そのようなシステムを訓練するために使用できる既知のデザイナードラッグは1,700しかありません。 研究者たちは、そのようなシステムが有用であるために必要なデータの量を把握できるのではないか、あるいはアルゴリズムやシステムをトレーニングするために使用されたデータを変更して許可する方法があるのではないかと考えました。利用可能なデータが少ない場合。

研究者たちは、8,500のモデルを作成し、簡略化された分子入力ラインエントリシステムで500,000の分子から取得したさまざまなサイズのデータ​​セットでそれぞれをトレーニングしました。 次に、モデルを使用して、考えられる分子タイプを予測しました。 そうすることで、彼らはモデルの多くが限られたデータセットで非常にうまく機能することを発見しました。 彼らはまた、彼らのほとんどがわずか10,000から20,000の後に、予測能力が横ばいになり始めたことを発見しました。 データ 記録。 彼らが最初の調査を行うために最高のパフォーマンスのモデルを使用したとき、彼らは結果が約50%の確率で正しいことを発見しました。