יישומי למידת מכונה דורשים פחות נתונים ממה שהניח

עדכון: 31 ביולי 2021
יישומי למידת מכונה דורשים פחות נתונים ממה שהניח

חוקרים מאוניברסיטת קולומביה הבריטית ומאוניברסיטת אלברטה גילו שלפחות כמה יישומי למידת מכונה יכולים ללמוד ממעט פחות דוגמאות ממה שהניח, הקבוצה מתארת ​​בדיקות שערכו עם יישומי למידת מכונה שנוצרו כדי לחזות סוגים מסוימים של מולקולות מבנים.

למידת מכונה יכולה לשמש במגוון רחב של יישומים-אחת הידועות ביותר היא למידה לאתר אנשים או אובייקטים בתצלומים. יישומים כאלה דורשים בדרך כלל כמויות עצומות של נתונים לצורך אימון. במאמץ חדש זה, החוקרים גילו כי במקרים מסוימים, יישומי למידת מכונה אינם זקוקים לכמויות נתונים כה גדולות כדי להיות שימושיות.

החוקרים חיפשו בתחילה דרכים לחזות את מבנה תרופות המעצבים הבלתי חוקיות. פעולה זו תעזור לחוקרים רפואיים להתכונן אליהם אם אנשים שיצרכו אותם יתחילו להופיע בחדרי המיון של בית החולים. הצוות הבין שתפקידם יהיה הרבה יותר קל אם יוכלו להשתמש ביישום למידת מכונה; למרבה הצער, יש רק 1,700 תרופות מעצבים ידועות שניתן להשתמש בהן לאימון מערכת כזו. החוקרים תמהו אם לא ניתן היה להבין כמה נתונים יידרשו כדי שמערכת כזו תהיה שימושית, או שיש דרך לשנות אלגוריתם או את הנתונים ששימשו אותם כדי לאפשר זאת לנתונים פחות זמינים.

כדי לברר זאת, החוקרים יצרו 8,500 מודלים והכשירו כל אחד מהם על מערכי נתונים בגודל שונה שנלקחו מ -500,000 המולקולות במערכת הכניסה הקו המולקולרית הפשוטה. לאחר מכן הם השתמשו במודלים כדי לחזות סוגים מולקולריים אפשריים. בכך הם מצאו שרבים מהמודלים עובדים די טוב עם מערך הנתונים המוגבל. הם גם גילו שרובם החלו להתייצב ביכולות הניבוי שלהם לאחר 10,000 עד 20,000 בלבד נתונים רשומות. כשהשתמשו במודלים עם הביצועים הטובים ביותר לביצוע המחקר הראשוני שלהם, הם גילו שהתוצאות נכונות כ -50% מהזמן.