KI lernt, menschliches Verhalten aus Videos vorherzusagen

Update: 9. Dezember 2023

Für Menschen ist es eine Selbstverständlichkeit, anhand der Körpersprache vorherzusagen, was jemand als Nächstes tun wird, für Computer jedoch nicht. Wenn wir eine andere Person treffen, begrüßt sie uns möglicherweise mit einem Hallo, einem Händedruck oder sogar einem Fauststoß. Wir wissen möglicherweise nicht, welche Geste verwendet wird, aber wir können die Situation erkennen und angemessen reagieren.

In einer neuen Studie stellen Forscher von Columbia Engineering eine vor AI Vision-Technik, um Maschinen ein intuitiveres Gefühl dafür zu geben, was als nächstes passieren wird, indem sie übergeordnete Assoziationen zwischen Menschen, Tieren und Objekten nutzt.

Der Algorithmus ist ein Schritt dahingehend, dass Maschinen in der Lage sind, bessere Vorhersagen über das menschliche Verhalten zu treffen und so ihre Aktionen besser mit unseren zu koordinieren und zahlreiche Möglichkeiten für die Mensch-Roboter-Kollaboration, autonome Fahrzeuge und unterstützende Maßnahmen zu bieten Technologie.

Laut den Forschern ist dies die bisher genaueste Methode zur Vorhersage von Video-Action-Ereignissen, die bis zu mehreren Minuten in der Zukunft liegen. Nach der Analyse tausender Stunden an Filmen, Sportspielen und Shows wie „The Office“ lernt das System, Hunderte von Aktivitäten vorherzusagen, vom Händeschütteln bis zum Faustschlag. Wenn es die spezifische Aktion nicht vorhersagen kann, findet es das übergeordnete Konzept, das sie verbindet, in diesem Fall das Wort „Begrüßung“.

Frühere Versuche des prädiktiven maschinellen Lernens, einschließlich der des Teams, konzentrierten sich auf die Vorhersage jeweils nur einer Aktion. Die Algorithmen entscheiden, ob die Aktion als Umarmung, High Five, Handschlag oder sogar als Nicht-Aktion wie „Ignorieren“ klassifiziert wird. Wenn die Unsicherheit jedoch hoch ist, sind die meisten Modelle des maschinellen Lernens nicht in der Lage, Gemeinsamkeiten zwischen den möglichen Optionen zu finden.

Die Forscher beschlossen, das Problem der Vorhersage über größere Entfernungen aus einem anderen Blickwinkel zu betrachten. Nicht alles in der Zukunft sei vorhersehbar, sagten Forscher. Wenn eine Person nicht genau vorhersagen kann, was passieren wird, geht sie auf Nummer sicher und prognostiziert auf einer höheren Abstraktionsebene. Unser Algorithmus ist der erste, der diese Fähigkeit erlernt, abstrakt über zukünftige Ereignisse nachzudenken.“

Forscher müssen Fragen der Mathematik erneut aufgreifen, die bis in die Zeit der alten Griechen zurückreichen. In der Oberstufe lernen die Schüler die vertrauten und intuitiven Regeln der Geometrie kennen – dass gerade Linien gerade verlaufen und dass sich parallele Linien niemals kreuzen. Auch die meisten maschinellen Lernsysteme befolgen diese Regeln. Aber auch andere Geometrien haben bizarre, kontraintuitive Eigenschaften; Gerade Linien biegen sich und Dreiecke wölben sich. Forscher nutzten diese ungewöhnlichen Geometrien, um KI-Modelle zu erstellen, die übergeordnete Konzepte organisieren und zukünftiges menschliches Verhalten vorhersagen.

Vorhersage ist die Grundlage menschlicher Intelligenz, Wissenschaftler am Massachusetts Institute of Technology und Co-Direktor des MIT-IBM Watson AI Lab, ein Experte für KI und menschliche Kognition, der nicht an der Studie beteiligt war. „Maschinen machen Fehler, die Menschen niemals machen würden, weil ihnen die Fähigkeit zum abstrakten Denken fehlt. Diese Arbeit ist ein entscheidender Schritt zur Überbrückung dieser technologischen Lücke.“

Das von den Forschern entwickelte mathematische Rahmenwerk ermöglicht es Maschinen, Ereignisse danach zu organisieren, wie vorhersehbar sie in der Zukunft sind. Wir wissen zum Beispiel, dass Schwimmen und Laufen beides Sportarten sind. Die neue Technik lernt, diese Aktivitäten selbstständig zu kategorisieren. Das System ist sich der Unsicherheit bewusst und bietet spezifischere Maßnahmen, wenn Gewissheit besteht, und allgemeinere Vorhersagen, wenn keine Gewissheit besteht.

Die Technik könnte Computer näher an die Lage bringen, eine Situation einzuschätzen und eine differenzierte Entscheidung statt einer vorprogrammierten Aktion zu treffen, sagen die Forscher. Dies ist ein entscheidender Schritt beim Aufbau von Vertrauen zwischen Menschen und Computern. „Vertrauen entsteht durch das Gefühl, dass der Roboter die Menschen wirklich versteht“, erklärte er. „Wenn Maschinen unser Verhalten verstehen und vorhersehen können, können Computer Menschen nahtlos bei ihren täglichen Aktivitäten unterstützen.“

Während der neue Algorithmus genauere Vorhersagen zu Benchmark-Aufgaben macht als frühere Methoden, bestehen die nächsten Schritte darin, zu überprüfen, ob er außerhalb des Labors funktioniert. Wenn das System in verschiedenen Umgebungen arbeiten kann, gibt es viele Möglichkeiten, Maschinen und Roboter einzusetzen, die unser System verbessern könnten Sicherheit, Gesundheit und Schutz, sagen die Forscher. Die Gruppe plant, die Leistung des Algorithmus mit größeren Datensätzen und Computern sowie anderen Formen der Geometrie weiter zu verbessern.

Menschliches Verhalten ist oft überraschend und die Algorithmen ermöglichen es Maschinen um besser vorhersehen zu können, was sie als nächstes tun werden.“

Die Studie trägt den Titel „Die Vorhersagbarkeit der Zukunft lernen“.