Tingkatkan Prestasi Pembelajaran Mesin dengan Menjatuhkan Nol

Kemas kini: 6 Ogos 2023
Tingkatkan Prestasi Pembelajaran Mesin dengan Menjatuhkan Nol

Penyelidik KAUST telah menemui cara untuk meningkatkan kepantasan latihan dengan ketara. Model pembelajaran mesin yang besar dapat dilatih dengan lebih cepat dengan memerhatikan seberapa kerap hasil sifar dihasilkan dalam pembelajaran mesin yang diedarkan yang menggunakan set data latihan yang besar.

Model AI mengembangkan "kecerdasan" mereka dengan dilatih pada set data yang telah diberi label untuk memberitahu model bagaimana membezakan antara input yang berbeza dan kemudian bertindak balas dengan sewajarnya. Semakin banyak data berlabel yang masuk, semakin baik model dalam melaksanakan tugas apa pun yang telah ditugaskan untuk dilakukan. Untuk aplikasi pembelajaran mendalam yang kompleks, seperti kenderaan memandu sendiri, ini memerlukan dataset input yang sangat besar dan masa latihan yang sangat panjang, walaupun menggunakan platform superkomputer yang sangat kuat dan mahal.

Semasa latihan, tugas pembelajaran kecil ditugaskan kepada puluhan atau ratusan node pengkomputeran, yang kemudian berkongsi hasilnya melalui rangkaian komunikasi sebelum menjalankan tugas berikutnya. Salah satu sumber terbesar pengkomputeran overhead dalam tugas pengkomputeran selari ini sebenarnya komunikasi ini di antara node pengkomputeran pada setiap langkah model.

"Komunikasi adalah hambatan prestasi utama dalam pembelajaran mendalam yang diedarkan," jelas pasukan KAUST. "Seiring dengan peningkatan ukuran model yang cepat, kami juga melihat peningkatan dalam proporsi nilai nol yang dihasilkan selama proses pembelajaran, yang kami sebut sparsity. Idea kami adalah untuk memanfaatkan jarak ini untuk memaksimumkan penggunaan lebar jalur yang berkesan dengan hanya menghantar blok data bukan sifar. "

Berdasarkan pengembangan KAUST sebelumnya yang disebut SwitchML, yang mengoptimumkan komunikasi internode dengan menjalankan kod agregasi yang efisien pada suis rangkaian yang memproses pemindahan data, Fei, Marco Canini dan rakan-rakan mereka melangkah lebih jauh dengan mengenal pasti hasil sifar dan mengembangkan cara untuk menghentikan penghantaran tanpa mengganggu penyegerakan proses pengkomputeran selari.

"Tepat bagaimana memanfaatkan kelangkaan untuk mempercepat latihan yang diedarkan adalah masalah yang mencabar," kata tim. "Semua node perlu memproses blok data di lokasi yang sama dalam slot waktu, jadi kami harus mengkoordinasikan node untuk memastikan bahawa hanya blok data di lokasi yang sama yang dikumpulkan. Untuk mengatasinya, kami membuat proses agregator untuk mengkoordinasikan pekerja, mengarahkan mereka pada blok mana yang akan dihantar seterusnya. "

Pasukan ini menunjukkan skema OmniReduce mereka di tempat ujian yang terdiri daripada pelbagai unit pemprosesan grafik (GPU) dan mencapai kelajuan lapan kali lipat untuk tipikal pembelajaran mendalam tugas.

ELE Kali
+ siaran
  • BD Soft Hubungan dengan Penyelesaian Data, Memperkukuhkan Penawarannya dalam Cyber ​​Security & Enterprise Intelligence
  • Pendekatan Gabungan Mencari Lintasan Langsung Terbaik untuk Penjanaan Laluan Robot
  • Satu Bahan dengan Dua Fungsi Boleh Menghasilkan Ingatan Lebih Pantas
  • Baru Teknologi Boleh Membawa Versi 5G Terpantas ke Rumah dan Tempat Kerja anda