AI: seberapa rendah Anda bisa pergi?

Pasar tunduk pada mode dan sektor kontrol yang tertanam jauh dari kebal terhadapnya. Pada 1990-an, logika fuzzy tampaknya menjadi jalan ke depan dan vendor mikrokontroler (MCU) bergegas untuk memberikan dukungan ke dalam penawaran mereka hanya untuk melihatnya padam.

Pembelajaran mesin tertanam (ML) melihat hiruk-pikuk makan yang jauh lebih besar karena para pemain MCU yang sudah mapan dan start-up akselerasi AI mencoba menunjukkan komitmen mereka terhadap ide tersebut, yang sebagian besar berada di bawah panji TinyML.

Daniel Situnayake, pendiri TinyML engineer di perusahaan perangkat lunak Edge Impulse dan rekan penulis buku terkenal di teknologi, mengatakan situasi saat ini sangat berbeda dengan tahun 1990-an.

“Hal yang menarik tentang ML tersemat adalah bahwa pembelajaran mesin dan pembelajaran mendalam bukanlah teknologi baru dan belum terbukti - mereka sebenarnya telah berhasil diterapkan di komputer kelas server untuk waktu yang relatif lama, dan merupakan inti dari banyak kesuksesan produk. ML yang disematkan adalah tentang menerapkan sekumpulan teknologi yang telah terbukti ke konteks baru yang akan memungkinkan banyak aplikasi baru yang sebelumnya tidak memungkinkan. ”

ABI Research memperkirakan pasar untuk MCU dan akselerator berkemampuan AI berdaya rendah untuk pasar TinyML akan naik dari pendapatan tahunan kurang dari $ 30 juta tahun ini menjadi lebih dari $ 2 miliar pada awal dekade berikutnya.

Meskipun pertumbuhan pesat, analis ABI Lian Jye Su memperkirakan persaingan akan semakin ketat saat perusahaan besar seperti Bosch memasuki pasar. Beberapa start-up seperti Eta Compute telah beralih dari silikon ke perangkat lunak.

“Kami melihat beberapa konsolidasi. Pada saat yang sama, fragmentasi besar di pasar IoT berarti sejumlah besar penyedia akan bertahan, seperti pasar chipset MCU atau IoT pada umumnya, ”katanya, menunjuk ke sejumlah besar pemasok yang fokus pada pasar vertikal tertentu.

TinyML menghadapi kendala yang parah. Pete Warden, pimpinan teknis kerangka TensorFlow Micro di raksasa mesin pencari tersebut dan rekan penulis Situnayake pada “TinyML: Pembelajaran Mesin dengan TensorFlow Lite di Arduino dan Mikrokontroler Berdaya Ultra Rendah”, mengatakan pada Konferensi Prosesor Musim Gugur Linley Group bahwa tujuannya adalah untuk mengambil model pembelajaran mendalam dan “menjalankannya pada perangkat yang memiliki RAM sedikitnya 20KB. Kami ingin mengambil model yang dibuat menggunakan teknologi mutakhir ini teknologi dan menghancurkannya untuk dijalankan pada prosesor berdaya sangat rendah.

“Karena ini adalah perangkat lunak sumber terbuka, kami tidak hanya berinteraksi dengan tim produk di dalam Google, tetapi juga mendapatkan banyak permintaan dari tim produk di seluruh dunia yang mencoba membuat produk yang menarik. Dan kita sering harus berkata: tidak, itu belum mungkin. Kami bisa melihat, secara agregat, banyak persyaratan yang belum terpenuhi, ”kata Warden.

Masalah intinya adalah bahwa model pembelajaran dalam yang dipindahkan dari lingkungan server membutuhkan jutaan atau bahkan milyaran fungsi multiply-add (MAC) untuk dilakukan dalam waktu singkat bahkan untuk model yang relatif sederhana. Linley Gwennap, presiden Linley Group, mengatakan aplikasi audio yang relatif sederhana, seperti menangkap kata-kata dalam pidato yang dapat mengaktifkan pengenalan suara, membutuhkan sekitar 2 juta MAC per detik. Video membutuhkan lebih banyak lagi.

Vendor silikon telah mampu mendorong jumlah MAC dengan memanfaatkan persyaratan yang relatif rendah untuk akurasi dalam perhitungan individu saat melakukan penarikan kesimpulan. Sementara pelatihan pada server umumnya menuntut aritmatika floating point presisi tunggal atau ganda, kalkulasi bilangan bulat lebar-byte (int8) tampaknya cukup untuk sebagian besar aplikasi.

Ada indikasi bahwa untuk lapisan yang dipilih dalam model, bahkan MAC int8 tidak diperlukan. Perhitungan biner atau terner yang dapat dilakukan dengan menggunakan lebih dari beberapa gerbang, masing-masing tidak mengganggu keakuratan secara keseluruhan dalam banyak kasus. Secara potensial, peningkatan kinerja sangat besar tetapi tidak memiliki kombinasi dukungan perangkat keras dan perangkat lunak yang diperlukan untuk memanfaatkannya sepenuhnya, kata Situnayake.

Meskipun fitur untuk framework TensorFlow Lite biasanya mendukung bobot int8, dukungan untuk resolusi yang lebih rendah masih jauh dari tersebar luas. "Ini berubah dengan cepat," catat Situnayake, menunjuk ke akselerator seperti Syntiant yang mendukung bobot biner, 2bit dan 4bit serta bekerja oleh Plumerai untuk melatih jaringan neural binaris secara langsung.

“Meskipun teknologi ini masih mutakhir dan belum menjadi arus utama bagi pengembang ML yang disematkan, itu tidak akan lama sebelum mereka menjadi bagian dari perangkat standar,” tambahnya.

Mengurangi beban aritmatika

Ada pilihan lain untuk pekerjaan TinyML yang mengurangi beban aritmatika. Berbicara di konferensi TinyML Asia akhir tahun lalu, Jan Jongboom, salah satu pendiri dan CTO Edge Impulse mengatakan bahwa daya tarik utama ML adalah kemampuannya untuk menemukan korelasi dalam data yang tidak dipilih oleh algoritme konvensional. Masalahnya terletak pada banyaknya parameter yang harus diproses oleh kebanyakan model konvensional untuk menemukan korelasi tersebut jika inputnya adalah sampel mentah.

“Anda ingin membantu algoritme pembelajaran mesin Anda untuk membuat hidupnya lebih mudah,” kata Jongboom. Teknik yang paling membantu untuk sinyal real-time tipikal adalah penggunaan ekstraksi fitur: mengubah data menjadi representasi yang memungkinkan untuk membangun jaringan neural dengan urutan parameter yang lebih sedikit.

Mengambil ucapan sebagai contoh, transformasi ke ruang mel-cepstrum secara besar-besaran mengurangi jumlah parameter yang dapat secara efisien menyandikan perubahan dalam suara.

Dalam data sensor lainnya, seperti umpan dari akselerometer yang digunakan untuk deteksi getaran pada mesin yang berputar, bentuk representasi frekuensi waktu gabungan lainnya akan sering berfungsi.

Pendekatan ini digunakan oleh John Edwards, konsultan dan insinyur DSP di Sigma Numerix dan dosen tamu di Universitas Oxford, dalam proyek analisis getaran.

Dalam hal ini, transformasi Fourier pendek memiliki trade-off terbaik yang digabungkan dengan transformasi yang mengimbangi motor kecepatan variabel. Ekstraksi fitur mengurangi ukuran model menjadi hanya dua lapisan yang dapat dengan mudah diproses pada NXP LPC55C69, yang menggabungkan inti Arm Cortex-M33 dengan akselerator DSP.

Jongboom mengatakan meskipun mungkin tergoda untuk melakukan pembelajaran mendalam, algoritme pembelajaran mesin lainnya dapat memberikan hasil. “Model pendeteksian anomali terbaik kami bukanlah jaringan neural: pengelompokan k-means dasarnya.”

Jika pembelajaran mendalam merupakan persyaratan, ketersebaran memberikan pengurangan lebih lanjut dalam overhead model. Ini dapat berupa pemangkasan, di mana bobot yang memiliki pengaruh kecil pada keluaran model akan dibuang begitu saja dari pipeline. Pilihan lainnya adalah memfokuskan upaya pada bagian aliran data yang menunjukkan perubahan seiring waktu. Misalnya, dalam video pengawasan, hal ini dapat berarti penggunaan pemrosesan gambar untuk mendeteksi objek bergerak dan memisahkannya dari latar belakang sebelum memasukkan piksel yang diproses ke model.

Ini merupakan pengalaman belajar bagi Jongboom dan lainnya. Dalam menjelaskan kemajuannya melalui tahapan TinyML, pada musim panas 2017 dia menganggap keseluruhan konsep itu mustahil. Pada musim panas 2020, setelah mencari cara untuk mengoptimalkan aplikasi dan desain model bersama-sama, sikapnya telah berubah menjadi percaya bahwa klasifikasi gambar real-time pada perangkat keras berdaya rendah dapat dilakukan. Saat akselerator daya rendah yang mendukung presisi rendah dan ketersebaran muncul secara lebih efisien, rentang model yang dapat berjalan pada tenaga mikro harus diperluas.

Hasilnya, klaim Situnayake, kemungkinan besar “ML akan mewakili bagian yang lebih besar daripada jenis beban kerja lainnya. Keuntungan ML pada perangkat akan mendorong industri untuk membuat dan menerapkan chip berdaya rendah yang lebih cepat dan lebih berkemampuan yang akan mewakili mayoritas dari semua komputasi tersemat di dunia ”. Meskipun akan ada banyak perangkat yang tidak menjalankan beban kerja ini, kebutuhan akan kecepatan karena ukuran model pasti akan tumbuh akan memusatkan perhatian pada kebutuhannya dan mulai mendominasi pengembangan arsitektur perangkat lunak dan perangkat keras, selama aplikasi mengikuti.