Makine Öğrenimi Uygulamaları Varsayılandan Daha Az Veriye İhtiyaç Duyar

Güncelleme: 31 Temmuz 2021
Makine Öğrenimi Uygulamaları Varsayılandan Daha Az Veriye İhtiyaç Duyar

British Columbia Üniversitesi ve Alberta Üniversitesi'nden araştırmacılar, en azından bazı makine öğrenimi uygulamalarının, varsayıldığından çok daha az sayıda örnekten öğrenebildiğini buldu. Grup, belirli moleküler veri türlerini tahmin etmek için oluşturulan makine öğrenimi uygulamalarıyla gerçekleştirdikleri testleri açıklıyor. yapılar.

Makine öğrenimi çok çeşitli uygulamalarda kullanılabilir; en bilinenlerinden biri, fotoğraflardaki insanları veya nesneleri tespit etmeyi öğrenmektir. Bu tür uygulamalar genellikle eğitim için büyük miktarda veri gerektirir. Bu yeni çalışmada araştırmacılar, bazı durumlarda makine öğrenimi uygulamalarının faydalı olması için bu kadar büyük miktarda veriye ihtiyaç duymadığını buldu.

Araştırmacılar başlangıçta yasa dışı tasarım uyuşturucuların yapısını tahmin etmenin yollarını arıyorlardı. Bunu yapmak, tıbbi araştırmacıların, bunları tüketen kişilerin hastanelerin acil servislerine gelmeye başlaması durumunda onlara hazırlanmalarına yardımcı olacaktır. Ekip, bir makine öğrenimi uygulamasını kullanabilirlerse işlerinin çok daha kolay olacağını fark etti; ne yazık ki böyle bir sistemi eğitmek için kullanılabilecek bilinen yalnızca 1,700 tasarımcı ilacı var. Araştırmacılar, yılmadan, böyle bir sistemin kullanışlı olması için ne kadar veriye ihtiyaç duyulacağını anlamanın mümkün olup olmadığını veya bir algoritmayı veya onu eğitmek için kullanılan verileri değiştirmenin bir yolu olup olmadığını merak ettiler. daha az kullanılabilir veri için.

Bunu öğrenmek için araştırmacılar 8,500 model oluşturdular ve her birini basitleştirilmiş moleküler giriş hattı giriş sistemindeki 500,000 molekülden alınan farklı büyüklükteki veri kümeleri üzerinde eğittiler. Daha sonra modelleri olası moleküler türleri tahmin etmek için kullandılar. Bunu yaparken, modellerin çoğunun sınırlı veri kümesiyle oldukça iyi çalıştığını gördüler. Ayrıca çoğunun tahmin yeteneklerinde sadece 10,000 ila 20,000 sonra dengelenmeye başladığını da buldular. veri kayıtları. İlk araştırmalarını yürütmek için en iyi performans gösteren modelleri kullandıklarında, sonuçların yaklaşık %50 oranında doğru olduğunu buldular.