AI : 얼마나 낮게 갈 수 있습니까?

업데이트: 10년 2023월 XNUMX일

 

AI : 얼마나 낮게 갈 수 있습니까?

AI : 얼마나 낮게 갈 수 있습니까?

시장은 유행의 영향을 받으며 임베디드 제어 부문은 유행에 영향을 받지 않습니다. 1990년대에는 퍼지 논리가 앞으로 나아가는 길인 것처럼 보였고 마이크로컨트롤러(MCU) 공급업체는 자사 제품에 대한 지원을 제공하기 위해 허둥지둥했지만 결국에는 실패했습니다.

 

내장형 기계 학습(ML)은 기존 MCU 플레이어와 AI 가속 스타트업이 대부분 TinyML의 기치 아래에 있는 아이디어에 대한 헌신을 입증하려고 시도함에 따라 훨씬 더 큰 공급 열풍을 보고 있습니다.

Daniel Situnayake, 소프트웨어 도구 회사인 Edge Impulse의 TinyML 창립 엔지니어이자 technology, 오늘날의 상황은 1990년대의 상황과 매우 다르다고 말합니다.

“임베디드 ML의 흥미로운 점은 머신 러닝과 딥 러닝이 새롭고 입증되지 않은 기술이 아니라는 것입니다. 사실 이러한 기술은 비교적 오랫동안 서버급 컴퓨터에 성공적으로 배포되었으며 수많은 성공적인 제품의 핵심입니다. Embedded ML은 이전에는 불가능했던 많은 새로운 애플리케이션을 가능하게 하는 새로운 컨텍스트에 검증된 기술 집합을 적용하는 것입니다.”

ABI Research는 TinyML 시장을 위한 저전력 AI 지원 MCU 및 가속기 시장이 올해 연간 매출이 30천만 달러 미만에서 다음 2년 초까지 XNUMX억 달러 이상으로 증가할 것으로 예측합니다.

급속한 성장에도 불구하고 ABI 분석가 Lian Jye Su는 Bosch와 같은 대기업이 시장에 진입함에 따라 경쟁이 더욱 치열해질 것으로 예상합니다. 이미 Eta Compute와 같은 일부 신생 기업은 실리콘에서 소프트웨어 도구로 이동했습니다.

“우리는 약간의 통합을 봅니다. 동시에 IoT 시장의 엄청난 분열은 일반적으로 MCU 또는 IoT 칩셋 시장과 같이 상당수의 공급자가 살아남을 것이라는 것을 의미합니다.”라고 그는 특정 수직 시장에 집중하는 많은 공급자를 가리키며 말했습니다.

TinyML은 심각한 제약에 직면해 있습니다. 거대 검색 엔진의 TensorFlow Micro 프레임워크 기술 책임자이자 Situnayake의 "TinyML: Arduino 및 초저전력 마이크로컨트롤러에서 TensorFlow Lite를 사용한 기계 학습"의 공동 저자인 Pete Warden은 Linley Group의 가을 프로세서 컨퍼런스에서 다음과 같이 말했습니다. 목표는 딥러닝 모델을 가져와 “RAM이 20KB에 불과한 장치에서 실행되도록 하는 것입니다. 우리는 이 최첨단 기술을 사용하여 제작된 모델을 사용하고 싶습니다. technology 매우 낮은 전력의 프로세서에서 실행되도록 분쇄합니다.

“오픈 소스 소프트웨어이기 때문에 Google 내부의 제품 팀과 상호 작용할 수 있을 뿐만 아니라 흥미로운 제품을 만들려고 노력하는 전 세계 제품 팀으로부터 많은 요청을 받습니다. 그리고 우리는 종종 이렇게 말해야 합니다. 아니, 그것은 아직 불가능합니다. 총체적으로 충족되지 않은 많은 요구 사항을 보게 됩니다.”라고 Warden은 말합니다.

핵심 문제는 서버 환경에서 이식된 딥러닝 모델은 상대적으로 단순한 모델에서도 짧은 시간에 수백만 또는 수십억 개의 MAC(Multiply-Add) 기능을 수행해야 한다는 것입니다. Linley Group의 회장인 Linley Gwennap은 음성 인식을 활성화할 수 있는 음성 단어 선택과 같은 비교적 간단한 오디오 애플리케이션은 초당 약 2백만 MAC를 요구한다고 말합니다. 비디오에는 훨씬 더 많은 것이 필요합니다.

실리콘 공급업체는 추론을 수행할 때 개별 계산의 정확도에 대한 상대적으로 낮은 요구 사항을 활용하여 MAC 수를 늘릴 수 있었습니다. 서버에 대한 교육은 일반적으로 단정밀도 또는 배정밀도 부동 소수점 산술을 요구하지만 대부분의 응용 프로그램에서는 바이트 범위 정수(int8) 계산으로 충분해 보입니다.

모델의 선택된 계층에 대해 int8 MAC도 불필요하다는 표시가 있습니다. 각각 몇 개의 게이트 이상을 사용하여 수행할 수 있는 이진 또는 삼진 계산은 많은 경우에 전체 정확도를 손상시키지 않습니다. 잠재적으로 성능 향상은 엄청나지만 이를 완전히 활용하는 데 필요한 하드웨어 및 소프트웨어 지원의 조합이 부족하다고 Situnayake는 말합니다.

TensorFlow Lite 프레임워크용 도구는 일반적으로 int8 가중치를 지원하지만 낮은 해상도에 대한 지원은 널리 보급되지 않았습니다. Situnayake는 바이너리, 2비트 및 4비트 가중치를 지원하는 Syntiant와 같은 가속기뿐만 아니라 Plumerai가 이진화된 신경망을 직접 훈련시키는 작업을 가리키며 "이것은 빠르게 변화하고 있습니다."라고 지적합니다.

"이러한 기술은 여전히 ​​최첨단에 있으며 내장형 ML 개발자를 위한 주류가 되지는 않았지만 머지않아 표준 툴킷의 일부가 될 것입니다."라고 그는 덧붙입니다.

산술 부담 줄이기

산술 부담을 줄이는 TinyML 작업을 위한 다른 옵션이 있습니다. 작년 말 TinyML 아시아 컨퍼런스에서 Edge Impulse의 공동 창립자이자 CTO인 Jan Jongboom은 ML의 주요 매력은 기존 알고리즘이 선택하지 않는 데이터에서 상관 관계를 찾을 수 있는 능력이라고 말했습니다. 문제는 입력이 원시 샘플인 경우 대부분의 기존 모델이 이러한 상관 관계를 찾기 위해 처리해야 하는 매개 변수의 순전한 수에 있습니다.

Jongboom은 "머신 러닝 알고리즘의 삶을 더 쉽게 만들기 위해 손을 빌려주고 싶습니다."라고 말합니다. 일반적인 실시간 신호에 가장 유용한 기술은 특징 추출을 사용하는 것입니다. 즉, 데이터를 훨씬 더 적은 수의 매개변수로 신경망을 구축할 수 있는 표현으로 변환하는 것입니다.

음성을 예로 들면, mel-cepstrum 공간으로의 변환은 소리의 변화를 효율적으로 인코딩할 수 있는 매개변수의 수를 크게 줄입니다.

회전 기계의 진동 감지에 사용되는 가속도계의 피드와 같은 다른 센서 데이터에서는 다른 형태의 결합 시간-주파수 표현이 종종 작동합니다.

이 접근 방식은 진동 분석 프로젝트에서 Sigma Numerix의 컨설턴트이자 DSP 엔지니어이자 옥스퍼드 대학의 방문 강사인 John Edwards가 사용합니다.

이 경우 짧은 푸리에 변환은 가변 속도 모터를 보상하는 변환과 결합하여 최상의 트레이드 오프를 가졌습니다. 기능 추출은 Arm Cortex-M55 코어와 DSP 가속기를 결합한 NXP LPC69C33에서 쉽게 처리할 수 있는 단 두 개의 레이어로 모델 크기를 줄였습니다.

Jongboom은 딥 러닝의 길을 가고 싶은 유혹이 들 수 있지만 다른 기계 학습 알고리즘이 결과를 제공할 수 있다고 말합니다. "우리의 최고의 이상 탐지 모델은 신경망이 아닙니다. 기본 k-평균 클러스터링입니다."

딥 러닝이 요구되는 경우 희소성은 모델 오버헤드를 더욱 줄여줍니다. 이는 모델 출력에 거의 영향을 미치지 않는 가중치를 파이프라인에서 간단히 제거하는 가지치기의 형태를 취할 수 있습니다. 또 다른 옵션은 시간 경과에 따른 변화를 보여주는 데이터 스트림 부분에 노력을 집중하는 것입니다. 예를 들어, 감시 비디오에서 이는 이미지 처리를 사용하여 움직이는 물체를 감지하고 처리된 픽셀을 모델에 공급하기 전에 배경에서 분리하는 것을 의미할 수 있습니다.

Jongboom과 다른 사람들에게 학습 경험이었습니다. 2017년 여름 그는 TinyML의 단계를 통해 자신의 진행 상황을 설명하면서 전체 개념이 불가능하다고 생각했습니다. 2020년 여름까지 애플리케이션과 모델 디자인을 함께 최적화하는 방법을 살펴본 후 그의 태도는 저전력 하드웨어에서 실시간 이미지 분류가 가능하다고 믿는 것으로 바뀌었습니다. 저정밀도와 희소성을 보다 효율적으로 지원하는 저전력 가속기가 등장하면서 마이크로파워로 구동할 수 있는 모델의 범위가 넓어질 전망이다.

Situnayake는 그 결과 “ML이 다른 어떤 유형의 워크로드보다 더 큰 부분을 차지하게 될 것입니다. 온디바이스 ML의 이점은 업계가 전 세계 모든 임베디드 컴퓨팅의 대부분을 대표하게 될 더 빠르고 더 많은 기능을 갖춘 저전력 칩을 만들고 배포하도록 이끌 것입니다.” 이러한 워크로드를 실행하지 않는 장치가 많겠지만, 모델 크기가 필연적으로 커짐에 따라 속도에 대한 필요성이 요구 사항에 집중되고 응용 프로그램이 계속되는 한 소프트웨어 및 하드웨어 아키텍처의 개발을 지배하기 시작할 것입니다.