Các ứng dụng học máy cần ít dữ liệu hơn mức giả định

Ứng dụng học máy cần ít dữ liệu hơn mức đã được giả định

Các nhà nghiên cứu từ Đại học British Columbia và Đại học Alberta đã phát hiện ra rằng ít nhất một số ứng dụng học máy có thể học từ ít ví dụ hơn nhiều so với giả định, nhóm mô tả thử nghiệm mà họ thực hiện với các ứng dụng học máy được tạo ra để dự đoán một số loại phân tử cấu trúc.

Học máy có thể được sử dụng trong nhiều ứng dụng — một trong những ứng dụng nổi tiếng nhất là học cách phát hiện người hoặc vật thể trong ảnh. Các ứng dụng như vậy thường yêu cầu một lượng lớn dữ liệu để đào tạo. Trong nỗ lực mới này, các nhà nghiên cứu đã phát hiện ra rằng trong một số trường hợp, các ứng dụng học máy không cần lượng dữ liệu khổng lồ như vậy để trở nên hữu ích.

Các nhà nghiên cứu ban đầu đang tìm cách dự đoán cấu trúc của các loại thuốc thiết kế bất hợp pháp. Làm như vậy sẽ giúp các nhà nghiên cứu y tế chuẩn bị cho chúng nếu những người tiêu thụ chúng bắt đầu xuất hiện trong các phòng cấp cứu của bệnh viện. Nhóm nhận thấy công việc của họ sẽ dễ dàng hơn nhiều nếu họ có thể sử dụng một ứng dụng học máy; Thật không may, chỉ có 1,700 loại thuốc thiết kế được biết đến có thể được sử dụng để đào tạo một hệ thống như vậy. Không nản lòng, các nhà nghiên cứu tự hỏi liệu có thể tìm ra lượng dữ liệu cần thiết để một hệ thống như vậy trở nên hữu ích hay không, hoặc liệu có cách nào để sửa đổi một thuật toán hoặc dữ liệu được sử dụng để đào tạo nó cho phép cho dữ liệu có sẵn ít hơn.

Để tìm ra nguyên nhân, các nhà nghiên cứu đã tạo ra 8,500 mô hình và đào tạo từng mô hình trên các tập dữ liệu có kích thước khác nhau được lấy từ 500,000 phân tử trong hệ thống nhập dòng đầu vào phân tử đơn giản hóa. Sau đó, họ sử dụng các mô hình để dự đoán các dạng phân tử có thể có. Khi làm như vậy, họ nhận thấy nhiều mô hình hoạt động khá tốt với tập dữ liệu hạn chế. Họ cũng phát hiện ra rằng hầu hết trong số họ bắt đầu chững lại khả năng dự đoán của mình chỉ sau 10,000 đến 20,000 dữ liệu Hồ sơ. Khi họ sử dụng các mô hình hoạt động tốt nhất để thực hiện nghiên cứu ban đầu, họ nhận thấy kết quả đúng khoảng 50% thời gian.

Ứng dụng học máy cần ít dữ liệu hơn mức đã được giả định