Aplikasi Pembelajaran Mesin membutuhkan Lebih Sedikit Data daripada yang Diasumsikan

Pembaruan: 31 Juli 2021
Aplikasi Pembelajaran Mesin membutuhkan Lebih Sedikit Data daripada yang Diasumsikan

Para peneliti dari University of British Columbia dan University of Alberta telah menemukan bahwa setidaknya beberapa aplikasi pembelajaran mesin dapat belajar dari contoh yang jauh lebih sedikit daripada yang telah diasumsikan, kelompok tersebut menjelaskan pengujian yang mereka lakukan dengan aplikasi pembelajaran mesin yang dibuat untuk memprediksi jenis molekul tertentu. struktur.

Pembelajaran mesin dapat digunakan dalam berbagai aplikasi—salah satu yang paling terkenal adalah belajar mengenali orang atau objek dalam foto. Aplikasi semacam itu biasanya membutuhkan sejumlah besar data untuk pelatihan. Dalam upaya baru ini, para peneliti telah menemukan bahwa dalam beberapa kasus, aplikasi pembelajaran mesin tidak memerlukan data dalam jumlah besar untuk berguna.

Para peneliti awalnya mencari cara untuk memprediksi struktur obat desainer ilegal. Melakukan hal itu akan membantu peneliti medis mempersiapkan mereka jika orang yang mengonsumsinya mulai muncul di ruang gawat darurat rumah sakit. Tim menyadari pekerjaan mereka akan jauh lebih mudah jika mereka dapat menggunakan aplikasi pembelajaran mesin; sayangnya, hanya ada 1,700 obat perancang yang diketahui dapat digunakan untuk melatih sistem seperti itu. Tanpa gentar, para peneliti bertanya-tanya apakah mungkin untuk mengetahui berapa banyak data yang diperlukan agar sistem seperti itu berguna, atau apakah mungkin ada cara untuk memodifikasi algoritma atau data yang digunakan untuk melatihnya agar memungkinkan untuk data yang tersedia lebih sedikit.

Untuk mengetahuinya, para peneliti membuat 8,500 model dan melatih masing-masing model pada kumpulan data berukuran berbeda yang diambil dari 500,000 molekul dalam sistem entri baris masukan molekul yang disederhanakan. Kemudian mereka menggunakan model untuk memprediksi kemungkinan jenis molekul. Dalam melakukannya, mereka menemukan banyak model bekerja cukup baik dengan dataset yang terbatas. Mereka juga menemukan bahwa sebagian besar dari mereka mulai mendatar dalam kemampuan prediksi mereka setelah hanya 10,000 hingga 20,000 data catatan. Ketika mereka menggunakan model berkinerja terbaik untuk melakukan penelitian awal mereka, mereka menemukan hasilnya benar sekitar 50% dari waktu.