Приложениям машинного обучения требуется меньше данных, чем предполагалось

Исследователи из Университета Британской Колумбии и Университета Альберты обнаружили, что, по крайней мере, некоторые приложения машинного обучения могут обучаться на гораздо меньшем количестве примеров, чем предполагалось. Группа описывает тестирование, которое они провели с приложениями машинного обучения, созданными для прогнозирования определенных типов молекулярных процессов. структуры.

Машинное обучение можно использовать в самых разных приложениях, одно из самых известных — научиться распознавать людей или объекты на фотографиях. Такие приложения обычно требуют огромных объемов данных для обучения. В ходе этой новой работы исследователи обнаружили, что в некоторых случаях приложениям машинного обучения не нужны такие огромные объемы данных, чтобы быть полезными.

Первоначально исследователи искали способы предсказать структуру нелегальных дизайнерских наркотиков. Это поможет медицинским исследователям подготовиться к ним, если люди, потребляющие их, начнут появляться в отделениях неотложной помощи больниц. Команда поняла, что их работа будет намного проще, если они смогут использовать приложение машинного обучения; к сожалению, известно только 1,700 дизайнерских лекарств, которые можно использовать для обучения такой системы. Не испугавшись, исследователи задавались вопросом, можно ли выяснить, сколько данных потребуется для того, чтобы такая система была полезной, или есть ли способ изменить алгоритм или данные, которые использовались для его обучения, чтобы позволить для менее доступных данных.

Чтобы это выяснить, исследователи создали 8,500 моделей и обучили каждую из них на наборах данных разного размера, взятых из 500,000 10,000 молекул в упрощенной системе линейного ввода молекулярного ввода. Затем они использовали модели для предсказания возможных типов молекул. При этом они обнаружили, что многие модели достаточно хорошо работают с ограниченным набором данных. Они также обнаружили, что у большинства из них свои предсказательные способности начали выравниваться уже после 20,000 XNUMX–XNUMX XNUMX данным записи. Когда они использовали наиболее эффективные модели для проведения первоначального исследования, они обнаружили, что результаты были верными примерно в 50% случаев.