Auf der Spur von Deepfakes identifizieren Forscher „Fingerabdrücke“ von KI-generierten Videos

Im Februar veröffentlichte OpenAI Videos, die mit seinem generativen künstlichen Intelligenzprogramm Sora erstellt wurden. Der auffallend realistische Inhalt, der über einfache Texteingabeaufforderungen erstellt wird, ist der neueste Durchbruch für Unternehmen, die die Fähigkeiten von KI demonstrieren Technologie. Es wurden auch Bedenken hinsichtlich des Potenzials der generativen KI geäußert, die Erstellung irreführender und täuschender Inhalte in großem Umfang zu ermöglichen.

Laut einer neuen Studie der Drexel University werden aktuelle Methoden zur Erkennung manipulierter digitaler Medien gegen KI-generierte Videos nicht wirksam sein; Doch ein Ansatz des maschinellen Lernens könnte der Schlüssel zur Entlarvung dieser synthetischen Schöpfungen sein.

In einem Papier, das zur Präsentation auf der IEEE Computer Vision and Pattern Recognition Conference im Juni angenommen wurde, erklärten Forscher des Multimedia and Information Security Lab am Drexel College of Engineering, dass die bestehende Technologie zur synthetischen Bilderkennung bisher zwar nicht in der Lage war, von KI generierte Videos zu erkennen, sie aber Ich hatte Erfolg mit einem Algorithmus für maschinelles Lernen, der darauf trainiert werden kann, digitale „Fingerabdrücke“ vieler verschiedener Videogeneratoren wie Stable Video Diffusion, Video-Crafter und Cog-Video zu extrahieren und zu erkennen.

Darüber hinaus haben sie gezeigt, dass dieser Algorithmus lernen kann, neue KI-Generatoren zu erkennen, nachdem sie nur einige Beispiele ihrer Videos studiert haben.

„Es ist mehr als beunruhigend, dass diese Videotechnologie veröffentlicht werden könnte, bevor es ein gutes System zur Erkennung von Fälschungen durch schlechte Schauspieler gibt“, sagte Matthew Stamm, Ph.D., außerordentlicher Professor am Drexel College of Engineering und Direktor des MISL.

„Verantwortungsbewusste Unternehmen werden ihr Bestes tun, um Identifikatoren und Wasserzeichen einzubetten, aber sobald die Technologie öffentlich verfügbar ist, werden diejenigen, die sie zur Täuschung nutzen wollen, einen Weg finden.“ Deshalb arbeiten wir daran, ihnen einen Schritt voraus zu sein, indem wir die Technologie entwickeln, um synthetische Videos anhand von Mustern und Merkmalen zu identifizieren, die in den Medien endemisch sind.“

Deepfake-Detektive

Stamms Labor ist seit mehr als einem Jahrzehnt aktiv daran beteiligt, digital manipulierte Bilder und Videos zu kennzeichnen, doch im letzten Jahr war die Gruppe besonders beschäftigt, da Bearbeitungstechnologie zur Verbreitung politischer Fehlinformationen eingesetzt wird.

Bis vor kurzem waren diese Manipulationen das Ergebnis von Foto- und Videobearbeitungsprogrammen, die Pixel hinzufügen, entfernen oder verschieben; oder verlangsamen, beschleunigen oder Videobilder ausschneiden. Jede dieser Bearbeitungen hinterlässt eine einzigartige digitale Brotkrumenspur und Stamms Labor hat eine Reihe von Werkzeugen entwickelt, die darauf abgestimmt sind, sie zu finden und zu verfolgen.

Die Werkzeuge des Labors nutzen ein hochentwickeltes maschinelles Lernprogramm, das als eingeschränktes neuronales Netzwerk bezeichnet wird. Dieser Algorithmus kann auf ähnliche Weise wie das menschliche Gehirn lernen, was auf der Subpixelebene von Bildern und Videos „normal“ und was „ungewöhnlich“ ist, anstatt von Anfang an nach bestimmten, vorgegebenen Identifikatoren für Manipulationen zu suchen. Dadurch ist das Programm sowohl in der Lage, Deepfakes aus bekannten Quellen zu identifizieren, als auch solche zu erkennen, die von einem bisher unbekannten Programm erstellt wurden.

Das neuronale Netzwerk wird normalerweise anhand von Hunderten oder Tausenden von Beispielen trainiert, um ein sehr gutes Gefühl für den Unterschied zwischen unbearbeiteten Medien und etwas, das manipuliert wurde, zu bekommen – dies kann alles sein, von Variationen zwischen benachbarten Pixeln bis hin zur Reihenfolge der Abstände von Bildern in einem Video, auf die Größe und Komprimierung der Dateien selbst.

Eine neue Aufgabe

„Wenn Sie ein Bild erstellen, führt die physikalische und algorithmische Verarbeitung in Ihrer Kamera zu Beziehungen zwischen verschiedenen Pixelwerten, die sich stark von den Pixelwerten unterscheiden, wenn Sie ein Bild mit Photoshop oder KI erstellen“, sagte Stamm.

„Aber in letzter Zeit haben wir Text-zu-Video-Generatoren wie Sora gesehen, die einige ziemlich beeindruckende Videos erstellen können. Und diese stellen eine völlig neue Herausforderung dar, da sie nicht mit einer Kamera produziert oder mit Photoshop bearbeitet wurden.“

Letztes Jahr schien eine Wahlkampfanzeige zur Unterstützung des Gouverneurs von Florida, Ron DeSantis, zu zeigen, wie der ehemalige Präsident Donald Trump Antony Fauci umarmte und küsste und der erste war, der generative KI-Technologie einsetzte. Das bedeutet, dass das Video nicht bearbeitet oder von anderen zusammengefügt wurde, sondern von einem KI-Programm vollständig erstellt wurde.

Und wenn keine Bearbeitung erfolgt, so Stamm, dann existieren die Standardhinweise nicht – was ein einzigartiges Problem für die Erkennung darstellt.

„Bisher waren forensische Erkennungsprogramme bei bearbeiteten Videos wirksam, indem sie sie einfach als Bildserie behandelten und denselben Erkennungsprozess anwendeten“, sagte Stamm.

„Aber bei KI-generierten Videos gibt es keine Hinweise auf Bildmanipulation von Bild zu Bild. Damit ein Erkennungsprogramm effektiv ist, muss es in der Lage sein, neue Spuren zu identifizieren, die durch die Art und Weise, wie generative KI-Programme sie erstellen, hinterlassen werden.“ Videos.“

In der Studie testete das Team 11 öffentlich verfügbare Detektoren für synthetische Bilder. Jedes dieser Programme war äußerst effektiv – eine Genauigkeit von mindestens 90 % – bei der Identifizierung manipulierter Bilder. Bei anspruchsvollen Videos, die mit den öffentlich verfügbaren KI-Generatoren Luma, VideoCrafter-v20, CogVideo und Stable Diffusion Video erstellt wurden, sank ihre Leistung jedoch um 30–1 %.

„Diese Ergebnisse zeigen deutlich, dass synthetische Bilddetektoren erhebliche Schwierigkeiten haben, synthetische Videos zu erkennen“, schrieben sie. „Dieser Befund gilt für mehrere unterschiedliche Detektorarchitekturen und auch dann, wenn Detektoren von anderen vorab trainiert oder mithilfe unseres Datensatzes neu trainiert werden.“

Ein vertrauenswürdiger Ansatz

Das Team spekulierte, dass auf Faltungs-Neuronalen Netzwerken basierende Detektoren wie der MISLnet-Algorithmus gegen synthetisches Video erfolgreich sein könnten, da das Programm so konzipiert ist, dass es seinen Lernprozess ständig ändert, wenn es auf neue Beispiele stößt. Auf diese Weise ist es möglich, neue forensische Spuren zu erkennen, während sie entstehen. In den letzten Jahren hat das Team die Fähigkeit von MISLnet unter Beweis gestellt, Bilder zu erkennen, die mit neuen Bearbeitungsprogrammen, einschließlich KI-Tools, manipuliert wurden – daher war es ein natürlicher Schritt, sie mit synthetischen Videos zu vergleichen.

„Wir haben CNN-Algorithmen verwendet, um manipulierte Bilder sowie Video- und Audio-Deepfakes zuverlässig zu erkennen“, sagte Tai D. Nguyen, Doktorand am MISL und Mitautor des Artikels. „Aufgrund ihrer Fähigkeit, sich an kleine Mengen neuer Informationen anzupassen, dachten wir, dass sie auch eine effektive Lösung für die Identifizierung von KI-generierten synthetischen Videos sein könnten.“

Für den Test trainierte die Gruppe acht CNN-Detektoren, darunter MISLnet, mit demselben Testdatensatz, der zum Training der Bilddetektoren verwendet wurde, einschließlich echter Videos und KI-generierter Videos, die von den vier öffentlich zugänglichen Programmen produziert wurden. Dann testeten sie das Programm anhand einer Reihe von Videos, die eine Reihe von Videos enthielten, die von generativen KI-Programmen erstellt wurden und noch nicht öffentlich verfügbar sind: Sora, Pika und VideoCrafter-v2.

Durch die Analyse eines kleinen Teils – eines Patches – eines einzelnen Frames jedes Videos konnten die CNN-Detektoren lernen, wie ein synthetisches Video auf granularer Ebene aussieht, und dieses Wissen auf die neuen Videos anwenden. Jedes Programm war bei der Identifizierung der synthetischen Videos zu mehr als 93 % effektiv, wobei MISLnet mit 98.3 % die beste Leistung erbrachte.

Bei der Analyse des gesamten Videos waren die Programme etwas effektiver, indem sie eine zufällige Stichprobe einiger Dutzend Patches aus verschiedenen Frames des Videos herauszogen und diese als Mini-Trainingssatz verwendeten, um die Eigenschaften des neuen Videos zu erlernen. Bei einem Satz von 80 Patches waren die Programme zu 95–98 % genau.

Mit ein wenig zusätzlicher Schulung waren die Programme auch bei der Identifizierung des Programms, das zur Erstellung der Videos verwendet wurde, zu mehr als 90 % genau, was nach Ansicht des Teams auf den einzigartigen, proprietären Ansatz zurückzuführen ist, den jedes Programm zur Erstellung eines Videos verwendet.

„Videos werden mit einer Vielzahl von Strategien und Generatorarchitekturen generiert“, schreiben die Forscher. „Da jede Technik erhebliche Spuren hinterlässt, ist es für Netzwerke viel einfacher, genau zwischen den einzelnen Generatoren zu unterscheiden.“

Eine kurze Studie

Während die Programme mit der Herausforderung zu kämpfen hatten, einen völlig neuen Generator zu erkennen, ohne zuvor zumindest einer kleinen Menge Video davon ausgesetzt zu sein, konnte MISLnet mit ein wenig Feinabstimmung schnell lernen, die Identifizierung mit einer Genauigkeit von 98 % durchzuführen. Diese als „Few-Shot-Learning“ bezeichnete Strategie ist eine wichtige Fähigkeit, da jeden Tag neue KI-Technologie entwickelt wird und Erkennungsprogramme daher agil genug sein müssen, um sich mit minimalem Schulungsaufwand anzupassen.

„Wir haben bereits gesehen, dass KI-generierte Videos zur Erstellung von Fehlinformationen verwendet wurden“, sagte Stamm. „Da diese Programme allgegenwärtiger und benutzerfreundlicher werden, können wir mit einer Überschwemmung mit synthetischen Videos rechnen. Während Erkennungsprogramme nicht die einzige Verteidigungslinie gegen Fehlinformationen sein sollten – Bemühungen zur Informationskompetenz sind von entscheidender Bedeutung –, ist es sicherlich ein wichtiger Schritt, über die technologische Fähigkeit zu verfügen, die Authentizität digitaler Medien zu überprüfen.“