Tras la pista de los deepfakes, investigadores identifican 'huellas dactilares' de vídeos generados por IA

En febrero, OpenAI publicó vídeos creados por su programa de inteligencia artificial generativa Sora. El contenido sorprendentemente realista, producido mediante simples indicaciones de texto, es el último avance para las empresas que demuestran las capacidades de la IA. la tecnología. También planteó preocupaciones sobre el potencial de la IA generativa para permitir la creación de contenido engañoso y engañoso a escala masiva.

Según una nueva investigación de la Universidad de Drexel, los métodos actuales para detectar medios digitales manipulados no serán efectivos contra el vídeo generado por IA; pero un enfoque de aprendizaje automático podría ser la clave para desenmascarar estas creaciones sintéticas.

En un artículo aceptado para su presentación en la Conferencia de Reconocimiento de Patrones y Visión por Computadora del IEEE en junio, investigadores del Laboratorio de Seguridad de la Información y Multimedia de la Facultad de Ingeniería de Drexel explicaron que, si bien la tecnología de detección de imágenes sintéticas existente hasta ahora no ha logrado detectar videos generados por IA, He tenido éxito con un algoritmo de aprendizaje automático que se puede entrenar para extraer y reconocer “huellas digitales” de muchos generadores de video diferentes, como Stable Video Diffusion, Video-Crafter y Cog-Video.

Además, han demostrado que este algoritmo puede aprender a detectar nuevos generadores de IA después de estudiar solo algunos ejemplos de sus vídeos.

"Es más que desconcertante que esta tecnología de vídeo pueda lanzarse antes de que exista un buen sistema para detectar falsificaciones creadas por malos actores", dijo Matthew Stamm, Ph.D., profesor asociado en la Facultad de Ingeniería de Drexel y director del MISL.

“Las empresas responsables harán todo lo posible para incorporar identificadores y marcas de agua, pero una vez que la tecnología esté disponible públicamente, las personas que quieran utilizarla para engañar encontrarán la manera. Es por eso que estamos trabajando para adelantarnos a ellos mediante el desarrollo de tecnología para identificar videos sintéticos a partir de patrones y rasgos endémicos de los medios”.

Detectives falsos

El laboratorio de Stamm ha estado activo en esfuerzos para denunciar imágenes y videos manipulados digitalmente durante más de una década, pero el grupo ha estado particularmente ocupado el último año, ya que se utiliza tecnología de edición para difundir información política errónea.

Hasta hace poco, estas manipulaciones han sido producto de programas de edición de fotografías y vídeos que añaden, eliminan o desplazan píxeles; o ralentizar, acelerar o recortar fotogramas de vídeo. Cada una de estas ediciones deja un rastro de ruta de navegación digital único y el laboratorio de Stamm ha desarrollado un conjunto de herramientas calibradas para encontrarlas y seguirlas.

Las herramientas del laboratorio utilizan un sofisticado programa de aprendizaje automático llamado red neuronal restringida. Este algoritmo puede aprender, de manera similar al cerebro humano, qué es "normal" y qué es "inusual" a nivel de subpíxeles de imágenes y vídeos, en lugar de buscar identificadores de manipulación predeterminados específicos desde el principio. Esto hace que el programa sea experto tanto en identificar deepfakes de fuentes conocidas como en detectar aquellos creados por un programa previamente desconocido.

La red neuronal generalmente se entrena con cientos o miles de ejemplos para tener una muy buena idea de la diferencia entre medios no editados y algo que ha sido manipulado; esto puede ser cualquier cosa, desde variaciones entre píxeles adyacentes hasta el orden de espaciado de fotogramas en un vídeo, hasta el tamaño y la compresión de los propios archivos.

Un nuevo desafío

"Cuando creas una imagen, el procesamiento físico y algorítmico de tu cámara introduce relaciones entre varios valores de píxeles que son muy diferentes a los valores de píxeles si retocas una imagen con Photoshop o con IA", dijo Stamm.

“Pero recientemente hemos visto generadores de texto a video, como Sora, que pueden generar videos bastante impresionantes. Y estos plantean un desafío completamente nuevo porque no han sido producidos por una cámara ni retocados con Photoshop”.

El año pasado, un anuncio de campaña que circuló en apoyo del gobernador de Florida, Ron DeSantis, parecía mostrar al expresidente Donald Trump abrazando y besando a Antony Fauci, quien fue el primero en utilizar tecnología de inteligencia artificial generativa. Esto significa que el video no fue editado ni ensamblado a partir de otros, sino que fue creado en su totalidad por un programa de inteligencia artificial.

Y si no hay edición, señala Stamm, entonces las pistas estándar no existen, lo que plantea un problema único para la detección.

"Hasta ahora, los programas de detección forense han sido eficaces contra vídeos editados simplemente tratándolos como una serie de imágenes y aplicando el mismo proceso de detección", dijo Stamm.

"Pero con el vídeo generado por IA, no hay evidencia de manipulación de imágenes fotograma a fotograma, por lo que para que un programa de detección sea eficaz tendrá que ser capaz de identificar nuevos rastros dejados por la forma en que los programas de IA generativa construyen sus vídeos”.

En el estudio, el equipo probó 11 detectores de imágenes sintéticas disponibles públicamente. Cada uno de estos programas fue muy eficaz (al menos con un 90% de precisión) para identificar imágenes manipuladas. Pero su rendimiento cayó entre un 20% y un 30% cuando se enfrentaron a videos exigentes creados por generadores de inteligencia artificial disponibles públicamente, Luma, VideoCrafter-v1, CogVideo y Stable Diffusion Video.

"Estos resultados muestran claramente que los detectores de imágenes sintéticas experimentan dificultades sustanciales para detectar vídeos sintéticos", escribieron. "Este hallazgo es consistente en múltiples arquitecturas de detectores diferentes, así como cuando los detectores son preentrenados por otros o reentrenados utilizando nuestro conjunto de datos".

Un enfoque confiable

El equipo especuló que los detectores basados en redes neuronales convolucionales, como su algoritmo MISLnet, podrían tener éxito contra el vídeo sintético porque el programa está diseñado para cambiar constantemente su aprendizaje a medida que encuentra nuevos ejemplos. Al hacer esto, es posible reconocer nuevos rastros forenses a medida que evolucionan. En los últimos años, el equipo ha demostrado la agudeza de MISLnet para detectar imágenes que habían sido manipuladas utilizando nuevos programas de edición, incluidas herramientas de inteligencia artificial, por lo que probarlo con video sintético fue un paso natural.

"Hemos utilizado algoritmos de CNN para detectar imágenes manipuladas y videos y audio deepfakes con éxito confiable", dijo Tai D. Nguyen, estudiante de doctorado en MISL, coautor del artículo. "Debido a su capacidad para adaptarse a pequeñas cantidades de información nueva, pensamos que también podrían ser una solución eficaz para identificar vídeos sintéticos generados por IA".

Para la prueba, el grupo entrenó ocho detectores de CNN, incluido MISLnet, con el mismo conjunto de datos de prueba utilizado para entrenar los detectores de imágenes, que incluyen videos reales y videos generados por IA producidos por los cuatro programas disponibles públicamente. Luego probaron el programa con un conjunto de videos que incluían varios creados por programas de IA generativa que aún no están disponibles públicamente: Sora, Pika y VideoCrafter-v2.

Al analizar una pequeña porción (un parche) de un solo cuadro de cada video, los detectores de CNN pudieron aprender cómo se ve un video sintético a nivel granular y aplicar ese conocimiento al nuevo conjunto de videos. Cada programa tuvo una efectividad de más del 93 % para identificar los videos sintéticos, siendo MISLnet el que obtuvo el mejor desempeño, con un 98.3 %.

Los programas fueron ligeramente más efectivos al realizar un análisis de todo el video, extrayendo una muestra aleatoria de unas pocas docenas de parches de varios fotogramas del video y usándolos como un mini conjunto de entrenamiento para aprender las características del nuevo video. Utilizando un conjunto de 80 parches, los programas tuvieron una precisión de entre el 95% y el 98%.

Con un poco de capacitación adicional, los programas también tuvieron una precisión de más del 90 % en la identificación del programa que se utilizó para crear los videos, lo que el equipo sugiere que se debe al enfoque único y patentado que utiliza cada programa para producir un video.

"Los vídeos se generan utilizando una amplia variedad de estrategias y arquitecturas generadoras", escribieron los investigadores. "Dado que cada técnica imparte rastros significativos, esto hace que sea mucho más fácil para las redes discriminar con precisión entre cada generador".

un estudio rapido

Si bien los programas tuvieron dificultades cuando se enfrentaron al desafío de detectar un generador completamente nuevo sin haber sido expuestos previamente a al menos una pequeña cantidad de video del mismo, con una pequeña cantidad de ajustes finos, MISLnet pudo aprender rápidamente a realizar la identificación con una precisión del 98%. Esta estrategia, llamada “aprendizaje de pocas oportunidades” es una capacidad importante porque cada día se crea nueva tecnología de inteligencia artificial, por lo que los programas de detección deben ser lo suficientemente ágiles para adaptarse con una capacitación mínima.

"Ya hemos visto el uso de videos generados por IA para crear información errónea", dijo Stamm. “A medida que estos programas se vuelvan más omnipresentes y más fáciles de usar, podemos esperar razonablemente que nos inunden los videos sintéticos. Si bien los programas de detección no deberían ser la única línea de defensa contra la desinformación (los esfuerzos de alfabetización informacional son clave), tener la capacidad tecnológica para verificar la autenticidad de los medios digitales es sin duda un paso importante”.

Tras la pista de los deepfakes, los investigadores identifican "huellas dactilares" de vídeos generados por IA

Detectives falsos

Un nuevo desafío

Un enfoque confiable

un estudio rapido