AI：どれくらい低くなることができますか？

市場は流行の影響を受けやすく、組み込み制御セクターはそれらの影響を受けません。 1990年代には、ファジーロジックが前進しているように見え、マイクロコントローラー（MCU）ベンダーは、それが炎上するのを確認するためだけに、製品にサポートを提供するためにスクランブルをかけました。

組み込み機械学習（ML）は、確立されたMCUプレーヤーとAIアクセラレータの新興企業が、主にTinyMLの旗印の下にあるアイデアへのコミットメントを実証しようとするため、はるかに大きな熱狂を目の当たりにしています。

ダニエル・シトゥナヤケ、ソフトウェアツール会社Edge ImpulseでTinyMLエンジニアを設立し、テクノロジー、今日の状況は1990年代の状況とは大きく異なると言います。

「組み込みMLのエキサイティングな点は、機械学習とディープラーニングが新しい、実証されていないテクノロジーではないことです。実際、これらは比較的長い間サーバークラスのコンピューターに正常に導入されており、多くの成功の中心となっています。製品。 Embedded MLは、これまで不可能だった多くの新しいアプリケーションを可能にする、実績のある一連のテクノロジーを新しいコンテキストに適用することを目的としています。」

ABI Researchは、TinyML市場向けの低電力AI対応MCUおよびアクセラレーターの市場は、今年の年間売上高が30万ドル未満から、次の2年の初めまでにXNUMX億ドルを超えると予測しています。

急速な成長にもかかわらず、ABIアナリストのLian Jye Suは、ボッシュなどの大企業が市場に参入するにつれて、競争が激化すると予想しています。すでに、Eta Computeなどの一部の新興企業は、シリコンからソフトウェアツールに移行しています。

「ある程度の統合が見られます。同時に、IoT市場の巨大な断片化は、一般的なMCUまたはIoTチップセット市場のように、かなりの数のプロバイダーが生き残ることを意味します」と彼は言い、特定の垂直市場に焦点を当てている多数のサプライヤーを指摘します。

TinyML は厳しい制約に直面しています。検索エンジン大手の TensorFlow Micro フレームワークの技術リーダーであり、Situnayake の「TinyML: Machine Learning with TensorFlow Lite on Arduino and Ultra-Low-Power Microcontrollers」の共著者でもある Pete Warden 氏は、Linley Group の Fall Processor Conference で次のように述べました。目的は、深層学習モデルを取得し、「わずか 20KB の RAM を搭載したデバイス上で実行できるようにすること」です。この最先端の技術を使用して構築されたモデルを採用したいと考えていますテクノロジーそしてそれらを粉砕して、非常に低電力のプロセッサ上で実行します。

「これはオープンソースソフトウェアであるため、Google内の製品チームとやり取りするだけでなく、興味深い製品を構築しようとしている世界中の製品チームから多くのリクエストを受け取ります。そして、私たちはしばしば言わなければなりません：いいえ、それはまだ可能ではありません。全体として、満たされていない要件がたくさんあることがわかります」とWarden氏は言います。

中心的な問題は、サーバー環境から移植された深層学習モデルでは、比較的単純なモデルであっても、数百万または数十億もの乗算加算（MAC）機能を短時間で実行する必要があることです。 LinleyGroupの社長であるLinleyGwennapは、音声認識をアクティブにすることができる音声の単語を拾うなど、比較的単純なオーディオアプリケーションでは、2秒あたり約XNUMX万のMACが必要であると述べています。ビデオにはもっと多くのものが必要です。

シリコンベンダーは、推論を実行する際の個々の計算の精度に対する要件が比較的低いことを利用して、MACカウントを増やすことができました。サーバーでのトレーニングには通常、単精度または倍精度の浮動小数点演算が必要ですが、ほとんどのアプリケーションではバイト幅の整数（int8）計算で十分なようです。

モデル内の選択されたレイヤーでは、int8MACでさえ不要であることが示されています。数個のゲートを使用して実行できるXNUMX値またはXNUMX値の計算は、多くの場合、全体的な精度を損なうことはありません。パフォーマンスが大幅に向上する可能性はありますが、それらを完全に活用するために必要なハードウェアとソフトウェアのサポートの組み合わせが不足しているとSitunayake氏は言います。

TensorFlow Liteフレームワークのツールは通常int8ウェイトをサポートしますが、低解像度のサポートは広く普及しているわけではありません。「これは急速に変化しています」とSitunayake氏は指摘し、バイナリ、2ビット、4ビットの重みをサポートするSyntiantなどのアクセラレータを指摘し、PlumeraiがXNUMX値化されたニューラルネットワークを直接トレーニングします。

「これらのテクノロジーはまだ最先端であり、組み込みML開発者の主流にはまだなっていませんが、標準ツールキットの一部になるまでそう長くはかからないでしょう」と彼は付け加えます。

算術負担の軽減

TinyMLの作業には、算術の負担を軽減する他のオプションがあります。昨年末のTinyMLAsiaカンファレンスで、EdgeImpulseの共同創設者兼CTOであるJanJongboom氏は、MLの主な魅力は、従来のアルゴリズムでは選択できないデータの相関関係を見つける能力であると述べました。問題は、入力が生のサンプルである場合、ほとんどの従来のモデルがそれらの相関関係を見つけるために処理しなければならないパラメーターの膨大な数にあります。

「機械学習アルゴリズムを手伝って、生活を楽にしたいのです」とJongboom氏は言います。典型的なリアルタイム信号に最も役立つ手法は、特徴抽出の使用です。データを表現に変換することで、パラメーターが桁違いに少ないニューラルネットワークを構築できます。

スピーチを例にとると、メルケプストラム空間への変換により、音の変化を効率的にエンコードできるパラメーターの数が大幅に減少します。

回転機械の振動検出に使用される加速度計からのフィードなど、他のセンサーデータでは、他の形式のジョイント時間周波数表現が機能することがよくあります。

このアプローチは、振動分析のプロジェクトで、Sigma Numerixのコンサルタント兼DSPエンジニアであり、オックスフォード大学の客員講師であるJohnEdwardsによって使用されています。

この場合、短時間フーリエ変換は、可変速モーターを補償する変換と組み合わせた最良のトレードオフを持っていました。特徴抽出により、モデルのサイズが55層に縮小され、ArmCortex-M69コアとDSPアクセラレータを組み合わせたNXPLPC33CXNUMXで簡単に処理できるようになりました。

Jongboomは、ディープラーニングの道をたどりたくなるかもしれませんが、他の機械学習アルゴリズムが結果をもたらす可能性があると言います。「私たちの最良の異常検出モデルはニューラルネットワークではありません。その基本的なk-meansクラスタリングです。」

ディープラーニングが必要な場合、スパース性によりモデルのオーバーヘッドがさらに削減されます。これは剪定の形をとることができ、モデルの出力にほとんど影響を与えない重みがパイプラインから単純に削除されます。もうXNUMXつのオプションは、時間の経過に伴う変化を示すデータストリームの部分に注力することです。たとえば、監視ビデオでは、これは、画像処理を使用して移動するオブジェクトを検出し、処理されたピクセルをモデルに供給する前にそれらを背景から分離することを意味する場合があります。

Jongboomや他の人たちにとっては学習体験でした。 TinyMLの各段階での進捗状況を説明する際に、2017年の夏、彼はコンセプト全体が不可能であると考えました。 2020年の夏までに、アプリケーションとモデルの設計を一緒に最適化する方法を検討した彼の態度は、低電力ハードウェアでのリアルタイムの画像分類が実現可能であると信じるようになりました。低精度とスパース性をより効率的にサポートする低電力アクセラレータが登場するにつれて、マイクロパワーで実行できるモデルの範囲が拡大するはずです。

その結果、Situnayake氏は、「MLは、他のどのタイプのワークロードよりも大きな割合を占めることになります。オンデバイスMLの利点により、業界は、世界のすべての組み込みコンピューティングの大部分を占めるようになる、より高速でより高性能な低電力チップの作成と展開に向けて推進されます。」これらのワークロードを実行しないデバイスはたくさんありますが、モデルサイズが必然的に大きくなるにつれて、スピードの必要性がそのニーズに注目し、アプリケーションが続く限り、ソフトウェアおよびハードウェアアーキテクチャの開発を支配し始めます。