Cải thiện hiệu suất học máy bằng cách bỏ Zeros

Cập nhật: ngày 6 tháng 2023 năm XNUMX
Cải thiện hiệu suất học máy bằng cách bỏ Zeros

Các nhà nghiên cứu của KAUST đã tìm ra cách tăng đáng kể tốc độ đào tạo. Các mô hình học máy lớn có thể được huấn luyện nhanh hơn đáng kể bằng cách quan sát tần suất tạo ra kết quả bằng 0 trong học máy phân tán sử dụng tập dữ liệu huấn luyện lớn.

Các mô hình AI phát triển “trí thông minh” của chúng bằng cách được đào tạo trên các bộ dữ liệu đã được gắn nhãn để cho mô hình biết cách phân biệt giữa các đầu vào khác nhau và sau đó phản hồi tương ứng. Càng đưa vào nhiều dữ liệu được gắn nhãn thì mô hình càng thực hiện tốt hơn bất kỳ nhiệm vụ nào được giao. Đối với các ứng dụng học sâu phức tạp, chẳng hạn như xe tự lái, điều này đòi hỏi bộ dữ liệu đầu vào khổng lồ và thời gian đào tạo rất dài, ngay cả khi sử dụng nền tảng siêu máy tính song song mạnh mẽ và đắt tiền.

Trong quá trình đào tạo, các nhiệm vụ học tập nhỏ được giao cho hàng chục hoặc hàng trăm nút điện toán, sau đó chia sẻ kết quả của chúng qua mạng truyền thông trước khi chạy nhiệm vụ tiếp theo. Một trong những nguồn chi phí tính toán lớn nhất trong các tác vụ tính toán song song như vậy thực tế là sự giao tiếp giữa các nút tính toán ở mỗi bước của mô hình.

Nhóm KAUST giải thích: “Giao tiếp là một nút thắt hiệu suất lớn trong học tập sâu phân tán”. “Cùng với sự gia tăng nhanh chóng về kích thước mô hình, chúng tôi cũng nhận thấy sự gia tăng tỷ lệ các giá trị 0 được tạo ra trong quá trình học tập mà chúng tôi gọi là độ thưa thớt. Ý tưởng của chúng tôi là khai thác sự thưa thớt này để tối đa hóa việc sử dụng băng thông hiệu quả bằng cách chỉ gửi các khối dữ liệu khác 0.”

Dựa trên sự phát triển KAUST trước đó có tên SwitchML, tối ưu hóa giao tiếp nội bộ bằng cách chạy mã tổng hợp hiệu quả trên các bộ chuyển mạch mạng xử lý truyền dữ liệu, Fei, Marco Canini và các đồng nghiệp của họ đã tiến một bước xa hơn bằng cách xác định kết quả bằng 0 và phát triển cách loại bỏ đường truyền mà không cần làm gián đoạn quá trình đồng bộ hóa của quá trình tính toán song song.

Nhóm nghiên cứu cho biết: “Làm thế nào để khai thác tính thưa thớt để tăng tốc đào tạo phân tán là một vấn đề đầy thách thức. “Tất cả các nút cần xử lý các khối dữ liệu ở cùng một vị trí trong một khe thời gian, vì vậy chúng tôi phải điều phối các nút để đảm bảo rằng chỉ các khối dữ liệu ở cùng một vị trí mới được tổng hợp. Để khắc phục điều này, chúng tôi đã tạo ra một quy trình tổng hợp để điều phối các công nhân, hướng dẫn họ gửi khối nào tiếp theo.”

Nhóm đã trình diễn sơ đồ OmniReduce của họ trên nền tảng thử nghiệm bao gồm một loạt các đơn vị xử lý đồ họa (GPU) và đã đạt được tốc độ tăng gấp 8 lần cho các thiết bị thông thường. học kĩ càng nhiệm vụ.

ELE lần
+ bài đăng
  • BD Soft kết nối với Data Resolve, tăng cường các sản phẩm của mình trong lĩnh vực An ninh mạng & Trí tuệ Doanh nghiệp
  • Phương pháp tiếp cận kết hợp tìm ra quỹ đạo trực tiếp tốt nhất cho việc tạo đường dẫn cho robot
  • Một vật liệu có hai chức năng có thể dẫn đến bộ nhớ nhanh hơn
  • Mới Công nghệ Có thể mang phiên bản 5G nhanh nhất đến nhà và nơi làm việc của bạn