AI: คุณจะไปได้ต่ำแค่ไหน?

ตลาดขึ้นอยู่กับแฟชั่นและภาคการควบคุมแบบฝังอยู่ห่างไกลจากภูมิคุ้มกันสำหรับพวกเขา ในช่วงทศวรรษ 1990 ตรรกะที่คลุมเครือดูเหมือนจะเป็นหนทางไปข้างหน้าและผู้ขายไมโครคอนโทรลเลอร์ (MCU) ก็พยายามที่จะให้การสนับสนุนในข้อเสนอของพวกเขาเพียงเพื่อที่จะเห็นว่ามันลุกเป็นไฟ

การเรียนรู้ของเครื่องในตัว (ML) กำลังมองเห็นความบ้าคลั่งในการให้อาหารที่ยิ่งใหญ่กว่าเดิมเนื่องจากผู้เล่น MCU ที่เป็นที่ยอมรับและการเริ่มต้นระบบ AI-เร่งความเร็วพยายามแสดงให้เห็นถึงความมุ่งมั่นที่มีต่อแนวคิดนี้ซึ่งส่วนใหญ่อยู่ภายใต้ร่มธงของ TinyML

Daniel Situnayake ผู้ก่อตั้งวิศวกร TinyML ที่ Edge Impulse บริษัท ซอฟต์แวร์และผู้ร่วมเขียนหนังสือชื่อดังเรื่อง เทคโนโลยีกล่าวว่าสถานการณ์ในวันนี้แตกต่างจากช่วงปี 1990 มาก

“ สิ่งที่น่าตื่นเต้นเกี่ยวกับ ML แบบฝังตัวคือการเรียนรู้ของเครื่องและการเรียนรู้เชิงลึกไม่ใช่เทคโนโลยีใหม่ที่ยังไม่ได้รับการพิสูจน์ แต่ในความเป็นจริงแล้วพวกมันถูกนำไปใช้งานบนคอมพิวเตอร์ระดับเซิร์ฟเวอร์ได้สำเร็จเป็นเวลานานและเป็นหัวใจสำคัญของความสำเร็จมากมาย ผลิตภัณฑ์ Embedded ML เป็นเรื่องเกี่ยวกับการใช้ชุดเทคโนโลยีที่ได้รับการพิสูจน์แล้วกับบริบทใหม่ซึ่งจะช่วยให้สามารถใช้งานแอปพลิเคชันใหม่ ๆ จำนวนมากที่ไม่สามารถทำได้ก่อนหน้านี้”

ABI Research คาดการณ์ว่าตลาดสำหรับ MCU และตัวเร่งความเร็ว AI ที่ใช้พลังงานต่ำสำหรับตลาด TinyML จะเพิ่มขึ้นจากรายรับต่อปีน้อยกว่า 30 ล้านดอลลาร์ในปีนี้เป็นมากกว่า 2 พันล้านดอลลาร์ภายในต้นทศวรรษหน้า

แม้จะมีการเติบโตอย่างรวดเร็ว Lian Jye Su นักวิเคราะห์ของ ABI คาดว่าการแข่งขันจะรุนแรงขึ้นเมื่อ บริษัท ขนาดใหญ่เช่น Bosch เข้าสู่ตลาด แล้วสตาร์ทอัพบางส่วนเช่น Eta Compute ได้ย้ายจากซิลิคอนไปสู่เครื่องมือซอฟต์แวร์

“ เราเห็นการรวมบางอย่าง ในขณะเดียวกันการกระจายตัวขนาดใหญ่ในตลาด IoT หมายถึงผู้ให้บริการจำนวนมากที่จะอยู่รอดได้เช่นเดียวกับตลาดชิปเซ็ต MCU หรือ IoT โดยทั่วไป” เขากล่าวโดยชี้ไปที่ซัพพลายเออร์จำนวนมากที่มุ่งเน้นไปที่ตลาดแนวดิ่งเฉพาะ

TinyML เผชิญกับข้อจำกัดที่รุนแรง Pete Warden ผู้นำด้านเทคนิคของเฟรมเวิร์ก TensorFlow Micro ของบริษัทเสิร์ชเอ็นจิ้นยักษ์ใหญ่และผู้ร่วมเขียนเรื่อง “TinyML: Machine Learning with TensorFlow Lite บน Arduino และไมโครคอนโทรลเลอร์ที่ใช้พลังงานต่ำเป็นพิเศษ” กล่าวในการประชุม Fall Processing Conference ของ Linley Group ว่า จุดมุ่งหมายคือการใช้โมเดลการเรียนรู้เชิงลึกและ "ทำให้โมเดลเหล่านี้ทำงานบนอุปกรณ์ที่มี RAM เพียง 20KB เราต้องการนำโมเดลที่สร้างขึ้นโดยใช้เทคโนโลยีล้ำสมัยนี้มาใช้ เทคโนโลยี และบดขยี้พวกมันให้ทำงานบนโปรเซสเซอร์ที่ใช้พลังงานต่ำมาก

“ เนื่องจากเป็นซอฟต์แวร์โอเพนซอร์สเราจึงไม่เพียง แต่โต้ตอบกับทีมผลิตภัณฑ์ภายใน Google แต่ยังได้รับคำขอจำนวนมากจากทีมผลิตภัณฑ์ทั่วโลกที่พยายามสร้างผลิตภัณฑ์ที่น่าสนใจอีกด้วย และเรามักจะต้องพูดว่า: ไม่นั่นยังทำไม่ได้ เราได้เห็นข้อกำหนดที่ไม่เป็นไปตามข้อกำหนดจำนวนมาก "Warden กล่าว

ปัญหาหลักคือโมเดลการเรียนรู้เชิงลึกที่ย้ายมาจากสภาพแวดล้อมเซิร์ฟเวอร์เรียกร้องให้มีการใช้งานฟังก์ชัน Multiply-add (MAC) นับล้านหรือหลายพันล้านฟังก์ชันในระยะเวลาอันสั้นแม้จะเป็นโมเดลที่ค่อนข้างเรียบง่ายก็ตาม Linley Gwennap ประธานของ Linley Group กล่าวว่าแอปพลิเคชั่นเสียงที่ค่อนข้างเรียบง่ายเช่นการเลือกคำในเสียงพูดที่สามารถเปิดใช้งานการจดจำเสียงเรียกใช้ MACs ประมาณ 2 ล้านครั้งต่อวินาที วิดีโอต้องการมากกว่านี้

ผู้จำหน่ายซิลิคอนสามารถเพิ่มจำนวน MAC ได้โดยใช้ประโยชน์จากข้อกำหนดที่ค่อนข้างต่ำเพื่อความแม่นยำในการคำนวณแต่ละรายการเมื่อทำการอนุมาน ในขณะที่การฝึกอบรมบนเซิร์ฟเวอร์โดยทั่วไปต้องการเลขคณิตทศนิยมเดี่ยวหรือสองเท่าการคำนวณจำนวนเต็มแบบกว้างไบต์ (int8) ดูเหมือนจะเพียงพอสำหรับแอปพลิเคชันส่วนใหญ่

มีข้อบ่งชี้ว่าสำหรับเลเยอร์ที่เลือกในโมเดลแม้กระทั่ง Int8 MAC ก็ไม่จำเป็น การคำนวณแบบไบนารีหรือแบบ ternary ที่สามารถทำได้โดยใช้ประตูมากกว่าสองสามประตูแต่ละประตูไม่ส่งผลกระทบต่อความแม่นยำโดยรวมในหลาย ๆ กรณี Situnayake กล่าวว่าประสิทธิภาพที่ได้รับอาจเพิ่มขึ้นอย่างมาก แต่ขาดการสนับสนุนฮาร์ดแวร์และซอฟต์แวร์ที่จำเป็นในการใช้ประโยชน์อย่างเต็มที่ Situnayake

แม้ว่าโดยทั่วไปแล้วเครื่องมือสำหรับเฟรมเวิร์ก TensorFlow Lite จะรองรับน้ำหนัก int8 แต่การรองรับความละเอียดที่ต่ำกว่านั้นยังไม่แพร่หลาย “ สิ่งนี้กำลังเปลี่ยนแปลงอย่างรวดเร็ว” Situnayake ตั้งข้อสังเกตโดยชี้ไปที่ตัวเร่งความเร็วเช่น Syntiant ที่รองรับน้ำหนักไบนารี 2 บิตและ 4 บิตรวมถึงการทำงานของ Plumerai เพื่อฝึกเครือข่ายประสาทแบบไบนารี่โดยตรง

“ แม้ว่าเทคโนโลยีเหล่านี้จะยังคงล้ำสมัยและยังไม่ได้ทำให้เป็นกระแสหลักสำหรับนักพัฒนา ML แบบฝังตัว แต่ก็ใช้เวลาไม่นานก่อนที่เทคโนโลยีเหล่านี้จะเป็นส่วนหนึ่งของชุดเครื่องมือมาตรฐาน” เขากล่าวเสริม

ลดภาระทางคณิตศาสตร์

มีตัวเลือกอื่น ๆ สำหรับงาน TinyML ที่ช่วยลดภาระทางคณิตศาสตร์ ในการประชุม TinyML Asia เมื่อปลายปีที่แล้ว Jan Jongboom ผู้ร่วมก่อตั้งและ CTO ของ Edge Impulse กล่าวว่าสิ่งที่น่าสนใจที่สำคัญของ ML คือความสามารถในการค้นหาความสัมพันธ์ในข้อมูลที่อัลกอริทึมทั่วไปไม่ได้เลือก ปัญหาอยู่ที่จำนวนพารามิเตอร์ที่แท้จริงแบบจำลองทั่วไปส่วนใหญ่ต้องประมวลผลเพื่อค้นหาความสัมพันธ์เหล่านั้นหากอินพุตเป็นตัวอย่างดิบ

“ คุณต้องการให้อัลกอริทึมการเรียนรู้ของเครื่องช่วยให้ชีวิตง่ายขึ้น” Jongboom กล่าว เทคนิคที่เป็นประโยชน์ที่สุดสำหรับสัญญาณเรียลไทม์โดยทั่วไปคือการใช้การแยกคุณลักษณะ: การแปลงข้อมูลให้เป็นตัวแทนที่ทำให้สามารถสร้างเครือข่ายประสาทโดยมีลำดับขนาดพารามิเตอร์น้อยลง

การพูดเป็นตัวอย่างการเปลี่ยนแปลงไปยังพื้นที่ mel-cepstrum ช่วยลดจำนวนพารามิเตอร์ที่สามารถเข้ารหัสการเปลี่ยนแปลงของเสียงได้อย่างมีประสิทธิภาพ

ในข้อมูลเซ็นเซอร์อื่น ๆ เช่นฟีดจากเครื่องวัดความเร่งที่ใช้สำหรับการตรวจจับการสั่นสะเทือนในเครื่องจักรที่หมุนการแสดงความถี่เวลาร่วมในรูปแบบอื่น ๆ มักจะใช้ได้ผล

วิธีนี้ใช้โดย John Edwards ที่ปรึกษาและวิศวกร DSP ที่ Sigma Numerix และวิทยากรเยี่ยมชมที่ University of Oxford ในโครงการวิเคราะห์การสั่นสะเทือน

ในกรณีนี้การแปลงฟูเรียร์แบบสั้นมีการแลกเปลี่ยนที่ดีที่สุดควบคู่ไปกับการเปลี่ยนแปลงที่ชดเชยมอเตอร์ความเร็วตัวแปร การแยกคุณสมบัติลดขนาดของโมเดลให้เหลือเพียงสองชั้นที่สามารถประมวลผลได้อย่างง่ายดายบน NXP LPC55C69 ซึ่งรวมคอร์ Arm Cortex-M33 เข้ากับตัวเร่งความเร็ว DSP

Jongboom กล่าวว่าแม้ว่าอาจจะเป็นเรื่องที่น่าสนใจที่จะลงไปสู่เส้นทางแห่งการเรียนรู้เชิงลึก แต่อัลกอริทึมการเรียนรู้ของเครื่องอื่น ๆ ก็สามารถให้ผลลัพธ์ได้ “ รูปแบบการตรวจจับความผิดปกติที่ดีที่สุดของเราไม่ใช่เครือข่ายประสาทเทียม: การทำคลัสเตอร์ k-mean พื้นฐาน”

ในกรณีที่ต้องการการเรียนรู้เชิงลึกความเบาบางจะช่วยลดค่าใช้จ่ายของโมเดลลงอีก สิ่งนี้สามารถอยู่ในรูปแบบของการตัดแต่งซึ่งน้ำหนักที่มีผลเพียงเล็กน้อยต่อเอาต์พุตแบบจำลองจะถูกลบออกจากท่อ อีกทางเลือกหนึ่งคือการมุ่งเน้นไปที่ส่วนต่างๆของสตรีมข้อมูลที่แสดงให้เห็นถึงการเปลี่ยนแปลงเมื่อเวลาผ่านไป ตัวอย่างเช่นในวิดีโอเฝ้าระวังอาจหมายถึงการใช้การประมวลผลภาพเพื่อตรวจจับวัตถุที่เคลื่อนไหวและแยกออกจากพื้นหลังก่อนที่จะป้อนพิกเซลที่ประมวลผลไปยังแบบจำลอง

มันเป็นประสบการณ์การเรียนรู้สำหรับ Jongboom และคนอื่น ๆ ในการอธิบายความคืบหน้าของเขาผ่านขั้นตอนของ TinyML ในช่วงฤดูร้อนปี 2017 เขาคิดว่าแนวคิดทั้งหมดเป็นไปไม่ได้ ในช่วงฤดูร้อนปี 2020 เมื่อพิจารณาถึงวิธีการเพิ่มประสิทธิภาพแอปพลิเคชันและการออกแบบโมเดลร่วมกันทัศนคติของเขาได้เปลี่ยนไปเป็นการเชื่อว่าการจัดประเภทภาพแบบเรียลไทม์บนฮาร์ดแวร์พลังงานต่ำนั้นเป็นไปได้ เนื่องจากตัวเร่งความเร็วต่ำที่รองรับความแม่นยำต่ำและความเบาบางมีประสิทธิภาพมากขึ้นจึงปรากฏขึ้นช่วงของรุ่นที่สามารถทำงานด้วยพลังงานไมโครได้ควรขยายออกไป

ผลลัพธ์ที่ Situnayake กล่าวว่าน่าจะเป็นไปได้ว่า“ ML จะลงเอยด้วยเศษส่วนมากกว่าปริมาณงานประเภทอื่น ๆ ข้อดีของ ML บนอุปกรณ์จะขับเคลื่อนอุตสาหกรรมไปสู่การสร้างและปรับใช้ชิปพลังงานต่ำที่เร็วขึ้นและมีความสามารถมากขึ้นซึ่งจะเป็นตัวแทนของการประมวลผลแบบฝังตัวส่วนใหญ่ในโลก” แม้ว่าจะมีอุปกรณ์มากมายที่ไม่ได้ใช้งานเวิร์กโหลดเหล่านี้ แต่ความต้องการความเร็วเนื่องจากขนาดของโมเดลเติบโตขึ้นอย่างหลีกเลี่ยงไม่ได้ แต่จะให้ความสำคัญกับความต้องการและเริ่มครอบงำการพัฒนาซอฟต์แวร์และสถาปัตยกรรมฮาร์ดแวร์ตราบเท่าที่แอปพลิเคชันยังคงดำเนินต่อไป