AI: Wie tief kannst du gehen?

Die Märkte sind Modeerscheinungen ausgesetzt, und der Sektor der eingebetteten Kontrolle ist weit davon entfernt, gegen sie immun zu sein. In den neunziger Jahren schien Fuzzy-Logik der richtige Weg zu sein, und Anbieter von Mikrocontrollern (MCUs) bemühten sich, ihre Angebote zu unterstützen, nur um zu sehen, dass sie in Flammen aufgehen.

Embedded Machine Learning (ML) erlebt einen weitaus größeren Fütterungsrausch, da etablierte MCU-Spieler und KI-Beschleunigungs-Start-ups versuchen, ihr Engagement für die Idee zu demonstrieren, die größtenteils unter dem Banner von TinyML steht.

Daniel Situnayake, Gründungs-TinyML-Ingenieur beim Software-Tool-Unternehmen Edge Impulse und Co-Autor eines renommierten Buches über die Technologiesagt, die heutige Situation sei ganz anders als in den neunziger Jahren.

„Das Spannende an Embedded ML ist, dass maschinelles Lernen und Deep Learning keine neuen, nicht bewährten Technologien sind. Sie wurden tatsächlich seit relativ langer Zeit erfolgreich auf Computern der Serverklasse eingesetzt und sind das Herzstück einer Menge erfolgreicher Technologien Produkte. Bei Embedded ML geht es darum, eine bewährte Reihe von Technologien auf einen neuen Kontext anzuwenden, der viele neue Anwendungen ermöglicht, die zuvor nicht möglich waren. “

ABI Research prognostiziert, dass der Markt für AI-fähige MCUs und Beschleuniger mit geringem Stromverbrauch für den TinyML-Markt von weniger als 30 Mio. USD Jahresumsatz in diesem Jahr auf mehr als 2 Mrd. USD zu Beginn des nächsten Jahrzehnts steigen wird.

Trotz des schnellen Wachstums erwartet der ABI-Analyst Lian Jye Su, dass der Wettbewerb mit dem Markteintritt großer Unternehmen wie Bosch verschärft wird. Einige Start-ups wie Eta Compute haben bereits von Silizium auf Softwaretools umgestellt.

„Wir sehen eine gewisse Konsolidierung. Gleichzeitig bedeutet die enorme Fragmentierung des IoT-Marktes, dass eine erhebliche Anzahl von Anbietern überleben wird, wie der MCU- oder IoT-Chipsatz-Markt im Allgemeinen “, sagt er und verweist auf die große Anzahl von Anbietern, die sich auf bestimmte vertikale Märkte konzentrieren.

TinyML steht vor starken Einschränkungen. Pete Warden, technischer Leiter des TensorFlow Micro-Frameworks beim Suchmaschinengiganten und Mitautor von Situnayake zum Thema „TinyML: Maschinelles Lernen mit TensorFlow Lite auf Arduino und Ultra-Low-Power-Mikrocontrollern“, sagte das auf der Fall Processor Conference der Linley Group Ziel ist es, Deep-Learning-Modelle zu nutzen und „sie auf Geräten zum Laufen zu bringen, die nur 20 KB RAM haben.“ Wir wollen Modelle nehmen, die mit diesem neuesten Stand der Technik gebaut wurden Technologie und zerkleinern Sie sie, um sie auf Prozessoren mit sehr geringem Stromverbrauch laufen zu lassen.

„Da es sich um Open-Source-Software handelt, können wir nicht nur mit Produktteams innerhalb von Google interagieren, sondern auch viele Anfragen von Produktteams auf der ganzen Welt erhalten, die versuchen, interessante Produkte zu entwickeln. Und wir müssen oft sagen: Nein, das ist noch nicht möglich. Insgesamt sehen wir viele unerfüllte Anforderungen “, sagt Warden.

Das Kernproblem besteht darin, dass Deep-Learning-Modelle, die aus der Serverumgebung portiert werden, erfordern, dass Millionen oder sogar Milliarden von MAC-Funktionen (Multiply-Add) in kurzer Zeit ausgeführt werden, selbst für relativ einfache Modelle. Laut Linley Gwennap, Präsident der Linley Group, sind für relativ einfache Audioanwendungen wie das Aufnehmen von Wörtern in der Sprache, die die Spracherkennung aktivieren können, rund 2 Millionen MACs pro Sekunde erforderlich. Video braucht viel mehr.

Siliziumanbieter konnten die MAC-Anzahl erhöhen, indem sie die relativ geringe Anforderung an die Genauigkeit bei einzelnen Berechnungen bei der Durchführung von Inferenzen ausnutzten. Während das Training auf Servern im Allgemeinen Gleitkomma-Arithmetik mit einfacher oder doppelter Genauigkeit erfordert, scheinen byteweite Ganzzahlberechnungen (int8) für die meisten Anwendungen ausreichend zu sein.

Es gibt Hinweise darauf, dass für ausgewählte Ebenen in einem Modell sogar int8-MACs nicht erforderlich sind. Binäre oder ternäre Berechnungen, die mit jeweils nur wenigen Gates durchgeführt werden können, beeinträchtigen in vielen Fällen nicht die Gesamtgenauigkeit. Potenziell sind die Leistungssteigerungen enorm, aber es fehlt die Kombination aus Hardware- und Softwareunterstützung, die erforderlich ist, um sie vollständig zu nutzen, sagt Situnayake.

Obwohl die Werkzeuge für das TensorFlow Lite-Framework normalerweise int8-Gewichte unterstützen, ist die Unterstützung für niedrigere Auflösungen bei weitem nicht weit verbreitet. "Das ändert sich schnell", bemerkt Situnayake und verweist auf Beschleuniger wie Syntiant, die Binär-, 2-Bit- und 4-Bit-Gewichte unterstützen, sowie Arbeiten von Plumerai, um binärisierte neuronale Netze direkt zu trainieren.

„Obwohl diese Technologien immer noch auf dem neuesten Stand sind und es für Embedded ML-Entwickler noch nicht in den Mainstream geschafft haben, wird es nicht lange dauern, bis sie Teil des Standard-Toolkits sind“, fügt er hinzu.

Reduzierung der Rechenlast

Es gibt andere Optionen für TinyML-Arbeiten, die die Rechenlast reduzieren. Jan Jongboom, Mitbegründer und CTO von Edge Impulse, sagte auf der TinyML Asia-Konferenz Ende letzten Jahres, die Hauptattraktion von ML sei die Fähigkeit, Korrelationen in Daten zu finden, die herkömmliche Algorithmen nicht auswählen. Das Problem liegt in der schieren Anzahl von Parametern, die die meisten herkömmlichen Modelle verarbeiten müssen, um diese Korrelationen zu finden, wenn die Eingaben Rohproben sind.

"Sie möchten Ihrem Algorithmus für maschinelles Lernen helfen, sein Leben zu erleichtern", sagt Jongboom. Die hilfreichste Technik für typische Echtzeitsignale ist die Verwendung der Merkmalsextraktion: Umwandlung der Daten in Darstellungen, die es ermöglichen, neuronale Netze mit um Größenordnungen weniger Parametern aufzubauen.

Am Beispiel der Sprache reduziert eine Transformation in den Mel-Cepstrum-Raum die Anzahl der Parameter, die die Klangänderungen effizient codieren können, massiv.

Bei anderen Sensordaten, wie beispielsweise der Einspeisung von einem Beschleunigungsmesser, der zur Schwingungserkennung in rotierenden Maschinen verwendet wird, funktionieren häufig andere Formen gemeinsamer Zeit-Frequenz-Darstellungen.

Dieser Ansatz wird von John Edwards, Berater und DSP-Ingenieur bei Sigma Numerix und Gastdozent an der Universität Oxford, in einem Projekt zur Schwingungsanalyse verwendet.

In diesem Fall hatte eine kurze Fourier-Transformation den besten Kompromiss in Verbindung mit Transformationen, die Motoren mit variabler Drehzahl kompensieren. Durch die Merkmalsextraktion wurde die Größe des Modells auf nur zwei Schichten reduziert, die problemlos auf einem NXP LPC55C69 verarbeitet werden konnten, der Arm Cortex-M33-Kerne mit einem DSP-Beschleuniger kombiniert.

Jongboom sagt, obwohl es verlockend sein mag, den Weg des tiefen Lernens zu beschreiten, können andere Algorithmen für maschinelles Lernen Ergebnisse liefern. "Unser bestes Anomalieerkennungsmodell ist kein neuronales Netzwerk, sondern sein grundlegendes k-Mittel-Clustering."

Wenn tiefes Lernen erforderlich ist, führt Sparsity zu einer weiteren Reduzierung des Modellaufwands. Dies kann in Form eines Bereinigens erfolgen, bei dem Gewichte, die wenig Einfluss auf die Modellausgabe haben, einfach aus der Pipeline entfernt werden. Eine andere Möglichkeit besteht darin, sich auf Teile des Datenstroms zu konzentrieren, die Änderungen im Laufe der Zeit zeigen. In Überwachungsvideos kann dies beispielsweise die Verwendung der Bildverarbeitung bedeuten, um sich bewegende Objekte zu erkennen und vom Hintergrund zu trennen, bevor die verarbeiteten Pixel einem Modell zugeführt werden.

Es war eine Lernerfahrung für Jongboom und andere. Als er im Sommer 2017 seine Fortschritte in den Phasen von TinyML beschrieb, hielt er das gesamte Konzept für unmöglich. Bis zum Sommer 2020 hatte sich seine Haltung dahingehend geändert, dass eine Echtzeit-Bildklassifizierung auf Hardware mit geringem Stromverbrauch möglich ist, nachdem er nach Möglichkeiten gesucht hatte, das Anwendungs- und Modelldesign gemeinsam zu optimieren. Da Beschleuniger mit geringer Leistung, die eine geringere Präzision und Sparsamkeit unterstützen, effizienter erscheinen, sollte die Palette der Modelle, die mit Mikrokraft betrieben werden können, erweitert werden.

Das Ergebnis, so Situnayake, ist wahrscheinlich, dass „ML am Ende einen größeren Anteil ausmacht als jede andere Art von Arbeitsbelastung. Die Vorteile von On-Device-ML werden die Branche dazu bringen, schnellere und leistungsfähigere Chips mit geringem Stromverbrauch zu entwickeln und bereitzustellen, die den größten Teil aller Embedded-Computer der Welt ausmachen werden. “ Obwohl es viele Geräte geben wird, auf denen diese Workloads nicht ausgeführt werden, wird das Bedürfnis nach Geschwindigkeit, da die Modellgrößen zwangsläufig zunehmen, die Aufmerksamkeit auf ihre Bedürfnisse lenken und die Entwicklung von Software- und Hardwarearchitekturen dominieren, solange die Anwendungen folgen.