Tingkatkan Performa Pembelajaran Mesin dengan Menjatuhkan Nol

Pembaruan: 6 Agustus 2023
Tingkatkan Performa Pembelajaran Mesin dengan Menjatuhkan Nol

Peneliti KAUST telah menemukan cara untuk meningkatkan kecepatan pelatihan secara signifikan. Model pembelajaran mesin besar dapat dilatih secara signifikan lebih cepat dengan mengamati seberapa sering hasil nol dihasilkan dalam pembelajaran mesin terdistribusi yang menggunakan set data pelatihan besar.

Model AI mengembangkan "kecerdasan" mereka dengan dilatih pada kumpulan data yang telah diberi label untuk memberi tahu model cara membedakan antara input yang berbeda dan kemudian meresponsnya. Semakin banyak data berlabel yang masuk, semakin baik model dalam melakukan tugas apa pun yang telah ditugaskan untuk dilakukan. Untuk aplikasi pembelajaran mendalam yang kompleks, seperti kendaraan self-driving, ini membutuhkan kumpulan data input yang sangat besar dan waktu pelatihan yang sangat lama, bahkan ketika menggunakan platform superkomputer paralel yang sangat kuat dan mahal.

Selama pelatihan, tugas pembelajaran kecil ditugaskan ke puluhan atau ratusan node komputasi, yang kemudian membagikan hasilnya melalui jaringan komunikasi sebelum menjalankan tugas berikutnya. Salah satu sumber terbesar dari overhead komputasi dalam tugas komputasi paralel tersebut sebenarnya adalah komunikasi antara node komputasi pada setiap langkah model.

“Komunikasi adalah hambatan kinerja utama dalam pembelajaran mendalam terdistribusi,” jelas tim KAUST. “Seiring dengan peningkatan ukuran model yang cepat, kami juga melihat peningkatan proporsi nilai nol yang dihasilkan selama proses pembelajaran, yang kami sebut sparity. Ide kami adalah untuk mengeksploitasi sparity ini untuk memaksimalkan penggunaan bandwidth yang efektif dengan hanya mengirimkan blok data yang bukan nol.”

Membangun pengembangan KAUST sebelumnya yang disebut SwitchML, yang mengoptimalkan komunikasi internode dengan menjalankan kode agregasi yang efisien pada switch jaringan yang memproses transfer data, Fei, Marco Canini dan rekan mereka melangkah lebih jauh dengan mengidentifikasi hasil nol dan mengembangkan cara untuk menghentikan transmisi tanpa mengganggu sinkronisasi proses komputasi paralel.

“Bagaimana tepatnya memanfaatkan sparity untuk mempercepat pelatihan terdistribusi adalah masalah yang menantang, kata tim tersebut. “Semua node perlu memproses blok data di lokasi yang sama dalam slot waktu, jadi kami harus mengoordinasikan node untuk memastikan bahwa hanya blok data di lokasi yang sama yang dikumpulkan. Untuk mengatasi ini, kami membuat proses agregator untuk mengoordinasikan para pekerja, menginstruksikan mereka di blok mana yang akan dikirim selanjutnya.”

Tim mendemonstrasikan skema OmniReduce mereka pada testbed yang terdiri dari serangkaian unit pemrosesan grafis (GPU) dan mencapai percepatan delapan kali lipat untuk tipikal belajar mendalam tugas.

Waktu ELE
+ posting
  • BD Soft Ikatan dengan Data Resolve, Memperkuat Penawarannya dalam Keamanan Cyber ​​& Intelijen Perusahaan
  • Pendekatan Gabungan Menemukan Lintasan Langsung Terbaik untuk Pembuatan Jalur Robot
  • Satu Bahan dengan Dua Fungsi Dapat Menghasilkan Memori Lebih Cepat
  • New Teknologi Dapat Menghadirkan Versi 5G Tercepat ke Rumah dan Tempat Kerja Anda