Op zoek naar deepfakes identificeren onderzoekers 'vingerafdrukken' van door AI gegenereerde video

Krediet: door AI gegenereerde afbeelding

In februari bracht OpenAI video's uit die waren gemaakt door het generatieve kunstmatige intelligentieprogramma Sora. De opvallend realistische inhoud, geproduceerd via eenvoudige tekstprompts, is de nieuwste doorbraak voor bedrijven die de mogelijkheden van AI demonstreren technologie. Het leidde ook tot bezorgdheid over het potentieel van generatieve AI om de creatie van misleidende en bedrieglijke inhoud op grote schaal mogelijk te maken.

Volgens nieuw onderzoek van de Drexel Universiteit zullen de huidige methoden voor het detecteren van gemanipuleerde digitale media niet effectief zijn tegen door AI gegenereerde video; maar een machinale leeraanpak zou de sleutel kunnen zijn tot het ontmaskeren van deze synthetische creaties.

In een paper dat werd geaccepteerd voor presentatie op de IEEE Computer Vision and Pattern Recognition Conference in juni, legden onderzoekers van het Multimedia and Information Security Lab van Drexel's College of Engineering uit dat hoewel de bestaande synthetische beelddetectietechnologie er tot nu toe niet in is geslaagd door AI gegenereerde video te detecteren, zij hebben succes gehad met een machine learning-algoritme dat kan worden getraind om digitale “vingerafdrukken” van veel verschillende videogeneratoren te extraheren en te herkennen, zoals Stable Video Diffusion, Video-Crafter en Cog-Video.

Bovendien hebben ze aangetoond dat dit algoritme nieuwe AI-generatoren kan leren detecteren na slechts enkele voorbeelden van hun video’s te hebben bestudeerd.

“Het is meer dan een beetje zenuwslopend dat deze videotechnologie kan worden vrijgegeven voordat er een goed systeem is voor het detecteren van vervalsingen die door slechte acteurs zijn gemaakt”, zegt Matthew Stamm, Ph.D., universitair hoofddocent aan Drexel’s College of Engineering en directeur van de MISL.

“Verantwoordelijke bedrijven zullen hun best doen om identificatiegegevens en watermerken in te bedden, maar zodra de technologie publiekelijk beschikbaar is, zullen mensen die deze voor bedrog willen gebruiken een manier vinden. Daarom werken we eraan om hen een stap voor te blijven door de technologie te ontwikkelen om synthetische video's te identificeren op basis van patronen en eigenschappen die endemisch zijn voor de media.'

Deepfake-detectives

Het laboratorium van Stamm is al meer dan tien jaar actief in pogingen om digitaal gemanipuleerde afbeeldingen en video's te markeren, maar de groep heeft het het afgelopen jaar bijzonder druk gehad, omdat bewerkingstechnologie wordt gebruikt om politieke desinformatie te verspreiden.

Tot voor kort waren deze manipulaties het product van foto- en videobewerkingsprogramma's die pixels toevoegen, verwijderen of verschuiven; of videoframes vertragen, versnellen of uitknippen. Elk van deze bewerkingen laat een uniek digitaal kruimelspoor achter en het laboratorium van Stamm heeft een reeks tools ontwikkeld die zijn gekalibreerd om ze te vinden en te volgen.

De tools van het laboratorium maken gebruik van een geavanceerd machinaal leerprogramma dat een beperkt neuraal netwerk wordt genoemd. Dit algoritme kan, op manieren die vergelijkbaar zijn met het menselijk brein, leren wat ‘normaal’ en wat ‘ongebruikelijk’ is op het subpixelniveau van afbeeldingen en video’s, in plaats van vanaf het begin te zoeken naar specifieke, vooraf bepaalde identificatiegegevens van manipulatie. Dit maakt het programma bedreven in het identificeren van deepfakes uit bekende bronnen, maar ook in het opsporen van deepfakes die door een voorheen onbekend programma zijn gemaakt.

Het neurale netwerk wordt doorgaans getraind op honderden of duizenden voorbeelden om een goed gevoel te krijgen voor het verschil tussen onbewerkte media en iets dat is gemanipuleerd. Dit kan van alles zijn, van variatie tussen aangrenzende pixels tot de volgorde van de afstand tussen frames in een frame. video, tot de grootte en compressie van de bestanden zelf.

Een nieuwe uitdaging

"Wanneer je een afbeelding maakt, introduceert de fysieke en algoritmische verwerking in je camera relaties tussen verschillende pixelwaarden die heel anders zijn dan de pixelwaarden als je een afbeelding photoshopt of AI genereert", aldus Stamm.

“Maar de laatste tijd hebben we tekst-naar-videogeneratoren gezien, zoals Sora, die behoorlijk indrukwekkende video's kunnen maken. En die vormen een compleet nieuwe uitdaging omdat ze niet met een camera zijn gemaakt of gephotoshopt.”

Vorig jaar leek een campagneadvertentie die circuleerde ter ondersteuning van de gouverneur van Florida, Ron DeSantis, te laten zien dat voormalig president Donald Trump Antony Fauci omhelsde en kuste en de eerste was die generatieve AI-technologie gebruikte. Dit betekent dat de video niet door anderen is gemonteerd of samengevoegd, maar in zijn geheel is gemaakt door een AI-programma.

En als er geen bewerking plaatsvindt, merkt Stamm op, bestaan de standaardaanwijzingen niet – wat een uniek probleem voor detectie oplevert.

“Tot nu toe waren forensische detectieprogramma’s effectief tegen bewerkte video’s door ze simpelweg als een reeks afbeeldingen te behandelen en hetzelfde detectieproces toe te passen”, aldus Stamm.

“Maar bij door AI gegenereerde video is er geen bewijs van beeldmanipulatie van frame tot frame, dus om een detectieprogramma effectief te laten zijn, zal het in staat moeten zijn nieuwe sporen te identificeren die zijn achtergelaten door de manier waarop generatieve AI-programma’s hun video’s construeren. videos."

In het onderzoek testte het team elf openbaar verkrijgbare synthetische beelddetectoren. Elk van deze programma's was zeer effectief (minstens 11% nauwkeurigheid) bij het identificeren van gemanipuleerde afbeeldingen. Maar hun prestaties daalden met 90-20% als ze werden geconfronteerd met veeleisende video's gemaakt door openbaar beschikbare AI-generatoren, Luma, VideoCrafter-v30, CogVideo en Stable Diffusion Video.

“Deze resultaten laten duidelijk zien dat detectoren voor synthetische beelden aanzienlijke problemen ondervinden bij het detecteren van synthetische video’s”, schreven ze. “Deze bevinding geldt consistent voor meerdere verschillende detectorarchitecturen, maar ook wanneer detectoren door anderen zijn voorgetraind of opnieuw zijn getraind met behulp van onze dataset.”

Een vertrouwde aanpak

Het team speculeerde dat op convolutionele neurale netwerken gebaseerde detectoren, zoals het MISLnet-algoritme, succesvol zouden kunnen zijn tegen synthetische video, omdat het programma is ontworpen om zijn leerproces voortdurend te veranderen wanneer het nieuwe voorbeelden tegenkomt. Door dit te doen is het mogelijk nieuwe forensische sporen te herkennen terwijl ze evolueren. De afgelopen jaren heeft het team de scherpte van MISLnet aangetoond in het opsporen van beelden die waren gemanipuleerd met behulp van nieuwe bewerkingsprogramma's, waaronder AI-tools. Het testen ervan met synthetische video was dus een logische stap.

“We hebben CNN-algoritmen gebruikt om met betrouwbaar succes gemanipuleerde afbeeldingen en video- en audio-deepfakes te detecteren”, zegt Tai D. Nguyen, een promovendus bij MISL, die co-auteur van het artikel was. “Vanwege hun vermogen om zich aan te passen aan kleine hoeveelheden nieuwe informatie, dachten we dat ze ook een effectieve oplossing zouden kunnen zijn voor het identificeren van door AI gegenereerde synthetische video’s.”

Voor de test trainde de groep acht CNN-detectoren, waaronder MISLnet, met dezelfde testdataset die werd gebruikt om de beelddetectoren te trainen, waaronder echte video's en door AI gegenereerde video's geproduceerd door de vier openbaar beschikbare programma's. Vervolgens testten ze het programma aan de hand van een reeks video's, waaronder een aantal video's die waren gemaakt door generatieve AI-programma's die nog niet openbaar beschikbaar zijn: Sora, Pika en VideoCrafter-v2.

Door een klein deel (een patch) van een enkel frame van elke video te analyseren, konden de CNN-detectoren leren hoe een synthetische video er op gedetailleerd niveau uitziet en die kennis toepassen op de nieuwe reeks video's. Elk programma was voor meer dan 93% effectief in het identificeren van de synthetische video's, waarbij MISLnet met 98.3% het beste presteerde.

De programma's waren iets effectiever bij het uitvoeren van een analyse van de hele video, door een willekeurige steekproef van enkele tientallen patches uit verschillende frames van de video te halen en deze te gebruiken als een mini-trainingsset om de kenmerken van de nieuwe video te leren. Met behulp van een set van 80 patches waren de programma's tussen de 95 en 98% nauwkeurig.

Met een beetje extra training waren de programma's ook meer dan 90% nauwkeurig in het identificeren van het programma dat werd gebruikt om de video's te maken, wat volgens het team te wijten is aan de unieke, eigen aanpak die elk programma gebruikt om een video te produceren.

“Video’s worden gegenereerd met behulp van een grote verscheidenheid aan strategieën en generatorarchitecturen”, schreven de onderzoekers. “Aangezien elke techniek significante sporen achterlaat, maakt dit het voor netwerken veel gemakkelijker om nauwkeurig onderscheid te maken tussen elke generator.”

Een snelle studie

Terwijl de programma's moeite hadden toen ze werden geconfronteerd met de uitdaging om een compleet nieuwe generator te detecteren zonder eerder te zijn blootgesteld aan ten minste een kleine hoeveelheid video ervan, kon MISLnet met een kleine hoeveelheid fijnafstemming snel leren de identificatie uit te voeren met een nauwkeurigheid van 98%. Deze strategie, ‘few-shot learning’ genoemd, is een belangrijke mogelijkheid omdat er elke dag nieuwe AI-technologie wordt gecreëerd, dus detectieprogramma’s moeten wendbaar genoeg zijn om zich met minimale training aan te passen.

“We hebben al gezien dat door AI gegenereerde video wordt gebruikt om desinformatie te creëren,” zei Stamm. “Naarmate deze programma’s alomtegenwoordiger en gemakkelijker te gebruiken worden, kunnen we redelijkerwijs verwachten dat we overspoeld zullen worden met synthetische video’s. Hoewel detectieprogramma's niet de enige verdedigingslinie tegen desinformatie zouden moeten zijn – inspanningen op het gebied van informatiegeletterdheid zijn van cruciaal belang – is het hebben van het technologische vermogen om de authenticiteit van digitale media te verifiëren zeker een belangrijke stap.