Aplikasi Pembelajaran Mesin memerlukan Kurang Data daripada yang Diandaikan

Kemas kini: 31 Julai 2021
Aplikasi Pembelajaran Mesin memerlukan Kurang Data daripada yang Diandaikan

Penyelidik dari University of British Columbia dan University of Alberta telah mendapati bahawa sekurang-kurangnya beberapa aplikasi pembelajaran mesin dapat belajar dari contoh yang jauh lebih sedikit daripada yang diasumsikan, kumpulan itu menggambarkan pengujian yang mereka lakukan dengan aplikasi pembelajaran mesin yang dibuat untuk meramalkan jenis molekul tertentu struktur.

Pembelajaran mesin dapat digunakan dalam berbagai aplikasi - salah satu yang paling terkenal adalah belajar melihat orang atau objek dalam foto. Aplikasi sedemikian biasanya memerlukan sejumlah besar data untuk latihan. Dalam usaha baru ini, para penyelidik mendapati bahawa dalam beberapa keadaan, aplikasi pembelajaran mesin tidak memerlukan sejumlah besar data untuk berguna.

Para penyelidik pada mulanya mencari kaedah untuk meramalkan struktur ubat perancang haram. Melakukannya akan membantu penyelidik perubatan mempersiapkan mereka sekiranya orang yang memakannya mula muncul di bilik kecemasan hospital. Pasukan menyedari tugas mereka akan menjadi lebih mudah sekiranya mereka dapat menggunakan aplikasi pembelajaran mesin; malangnya, hanya ada 1,700 ubat perancang yang diketahui yang dapat digunakan untuk melatih sistem sedemikian. Tidak gentar, para penyelidik tertanya-tanya apakah mungkin untuk mengetahui berapa banyak data yang diperlukan agar sistem tersebut berguna, atau apakah mungkin ada cara untuk mengubah algoritma atau data yang digunakan untuk melatihnya untuk memungkinkan untuk data yang kurang tersedia.

Untuk mengetahui, para penyelidik mencipta 8,500 model dan melatih masing-masing pada set data yang berlainan ukuran yang diambil dari 500,000 molekul dalam sistem kemasukan baris input molekul yang dipermudahkan. Kemudian mereka menggunakan model untuk meramalkan kemungkinan jenis molekul. Dengan berbuat demikian, mereka mendapati banyak model berfungsi dengan baik dengan set data terhad. Mereka juga mendapati bahawa sebahagian besar dari mereka mulai meningkatkan kemampuan ramalan mereka setelah hanya 10,000 hingga 20,000 data rekod. Ketika mereka menggunakan model berkinerja terbaik untuk melakukan penyelidikan awal, mereka mendapati hasilnya betul kira-kira 50% dari waktu itu.