В поисках дипфейков исследователи идентифицируют «отпечатки пальцев» видео, созданного ИИ

Обновление: 26 апреля 2024 г.


deepfake
Кредит: изображение, созданное искусственным интеллектом.

В феврале OpenAI опубликовала видеоролики, созданные с помощью программы генеративного искусственного интеллекта Sora. Поразительно реалистичный контент, создаваемый с помощью простых текстовых подсказок, является последним прорывом для компаний, демонстрирующих возможности искусственного интеллекта. technology. Это также вызвало обеспокоенность по поводу потенциала генеративного искусственного интеллекта, позволяющего создавать вводящий в заблуждение и вводящий в заблуждение контент в огромных масштабах.


Согласно новому исследованию Университета Дрекселя, нынешние методы обнаружения манипулируемых цифровых медиа не будут эффективны против видео, созданного искусственным интеллектом; но подход машинного обучения может стать ключом к разоблачению этих синтетических творений.

В документе, принятом для презентации на конференции IEEE по компьютерному зрению и распознаванию образов в июне, исследователи из Лаборатории мультимедиа и информационной безопасности Инженерного колледжа Дрекселя объяснили, что, хотя существующая технология обнаружения синтетических изображений до сих пор не смогла обнаружить видео, сгенерированное ИИ, они добились успеха с алгоритмом машинного обучения, который можно обучить извлекать и распознавать цифровые «отпечатки пальцев» множества различных видеогенераторов, таких как Stable Video Diffusion, Video-Crafter и Cog-Video.

Кроме того, они показали, что этот алгоритм может научиться обнаруживать новые генераторы ИИ после изучения всего лишь нескольких примеров их видео.

«То, что эта видеотехнология может быть выпущена до того, как появится хорошая система для обнаружения фейков, созданных злоумышленниками, вызывает большее беспокойство», — сказал Мэтью Стамм, доктор философии, доцент Инженерного колледжа Дрекселя и директор МИСЛ.

«Ответственные компании сделают все возможное для внедрения идентификаторов и водяных знаков, но как только технология станет общедоступной, люди, желающие использовать ее для обмана, найдут способ. Вот почему мы работаем над тем, чтобы опережать их, разрабатывая технологию, позволяющую идентифицировать синтетические видео по шаблонам и характеристикам, характерным для средств массовой информации».

Дипфейковые детективы

Лаборатория Штамма уже более десяти лет активно занимается выявлением изображений и видео, подвергшихся цифровой обработке, но в последний год группа была особенно занята, поскольку технологии редактирования используются для распространения политической дезинформации.

До недавнего времени эти манипуляции осуществлялись программами редактирования фотографий и видео, которые добавляли, удаляли или сдвигали пиксели; или замедляйте, ускоряйте или вырезайте видеокадры. Каждое из этих изменений оставляет уникальный цифровой след, и лаборатория Штамма разработала набор инструментов, предназначенных для их поиска и отслеживания.

Инструменты лаборатории используют сложную программу машинного обучения, называемую ограниченной нейронной сетью. Этот алгоритм может изучать, аналогично человеческому мозгу, что «нормально» и что «необычно» на субпиксельном уровне изображений и видео, вместо того, чтобы с самого начала искать конкретные заранее определенные идентификаторы манипуляций. Это делает программу способной как идентифицировать дипфейки из известных источников, так и распознавать фейки, созданные ранее неизвестной программой.

Нейронная сеть обычно обучается на сотнях или тысячах примеров, чтобы хорошо почувствовать разницу между неотредактированными медиафайлами и чем-то, чем манипулировали — это может быть что угодно, от различий между соседними пикселями до порядка расположения кадров в видео, к размеру и сжатию самих файлов.

Новый вызов

«Когда вы создаете изображение, физическая и алгоритмическая обработка в вашей камере вводит отношения между различными значениями пикселей, которые сильно отличаются от значений пикселей, если вы используете фотошоп или генерируете изображение с помощью искусственного интеллекта», — сказал Стамм.

«Но недавно мы увидели генераторы текстового видео, такие как Sora, которые могут создавать довольно впечатляющие видеоролики. И это представляет собой совершенно новую проблему, потому что они не были созданы с помощью камеры или фотошопа».

В прошлом году в предвыборной рекламе, распространявшейся в поддержку губернатора Флориды Рона ДеСантиса, было показано, как бывший президент Дональд Трамп обнимает и целует Энтони Фаучи, который был первым, кто использовал технологию генеративного искусственного интеллекта. Это означает, что видео не монтировалось и не объединялось из других, а было полностью создано программой искусственного интеллекта.

А если нет редактирования, отмечает Штамм, то и стандартных подсказок не существует, что создает уникальную проблему для обнаружения.

«До сих пор программы судебно-медицинской экспертизы были эффективны против отредактированных видео, просто обрабатывая их как серию изображений и применяя один и тот же процесс обнаружения», — сказал Стамм.

«Но в видео, сгенерированном ИИ, нет никаких свидетельств манипулирования изображениями от кадра к кадру, поэтому для того, чтобы программа обнаружения была эффективной, она должна быть в состоянии идентифицировать новые следы, оставленные тем, как программы генеративного ИИ создают свои видео."

В ходе исследования команда протестировала 11 общедоступных детекторов синтетических изображений. Каждая из этих программ имела высокую эффективность — точность не менее 90 % — при выявлении манипулированных изображений. Но их производительность падала на 20–30% при просмотре видео, созданных общедоступными AI-генераторами Luma, VideoCrafter-v1, CogVideo и Stable Diffusion Video.

«Эти результаты ясно показывают, что детекторы синтетических изображений испытывают значительные трудности с обнаружением синтетических видео», — пишут они. «Этот вывод сохраняется для множества различных архитектур детекторов, а также когда детекторы предварительно обучаются другими или переобучаются с использованием нашего набора данных».

Надежный подход

Команда предположила, что детекторы на основе сверточных нейронных сетей, такие как алгоритм MISLnet, могут быть успешными в борьбе с синтетическим видео, поскольку программа предназначена для постоянного изменения своего обучения по мере обнаружения новых примеров. Благодаря этому можно распознавать новые криминалистические следы по мере их развития. За последние несколько лет команда продемонстрировала способность MISLnet обнаруживать изображения, которые были обработаны с помощью новых программ редактирования, включая инструменты искусственного интеллекта, поэтому тестирование ее на синтетическом видео было естественным шагом.

«Мы успешно использовали алгоритмы CNN для обнаружения манипулируемых изображений, а также дипфейков видео и аудио», — сказал Тай Д. Нгуен, аспирант MISL, который был соавтором статьи. «Благодаря их способности адаптироваться к небольшому объему новой информации мы подумали, что они могут стать эффективным решением и для идентификации синтетических видеороликов, созданных искусственным интеллектом».

Для теста группа обучила восемь детекторов CNN, включая MISLnet, с тем же набором тестовых данных, который использовался для обучения детекторов изображений, включая реальные видео и видео, созданные искусственным интеллектом, созданные четырьмя общедоступными программами. Затем они протестировали программу на наборе видеороликов, в том числе созданных программами генеративного искусственного интеллекта, которые еще не являются общедоступными: Sora, Pika и VideoCrafter-v2.

Анализируя небольшую часть (патч) одного кадра каждого видео, детекторы CNN смогли узнать, как выглядит синтетическое видео на детальном уровне, и применить эти знания к новому набору видео. Эффективность каждой программы при выявлении синтетических видео составила более 93 %, при этом MISLnet показал лучший результат — 98.3 %.

Программы были немного более эффективны при проведении анализа всего видео, извлекая случайную выборку из нескольких десятков патчей из различных кадров видео и используя их в качестве мини-тренингового набора для изучения характеристик нового видео. При использовании набора из 80 патчей точность программ составляла 95–98%.

После небольшого дополнительного обучения программы также более чем на 90% точно определили программу, которая использовалась для создания видео, что, по мнению команды, связано с уникальным, запатентованным подходом, который каждая программа использует для создания видео.

«Видео генерируются с использованием самых разных стратегий и архитектур генераторов», — пишут исследователи. «Поскольку каждый метод передает значительные следы, сетям намного проще точно различать каждый генератор».

Быстрое исследование

В то время как программы сталкивались с проблемой обнаружения совершенно нового генератора без предварительного просмотра хотя бы небольшого количества видео с него, с помощью небольшой тонкой настройки MISLnet смог быстро научиться проводить идентификацию с точностью 98%. Эта стратегия, называемая «обучение за несколько шагов», является важной возможностью, поскольку новые технологии искусственного интеллекта создаются каждый день, поэтому программы обнаружения должны быть достаточно гибкими, чтобы адаптироваться с минимальным обучением.

«Мы уже видели, как видео, созданное ИИ, используется для создания дезинформации», — сказал Стамм. «Поскольку эти программы становятся более повсеместными и простыми в использовании, мы можем вполне обоснованно ожидать, что нас наводнят синтетическими видео. Хотя программы обнаружения не должны быть единственной линией защиты от дезинформации (усилия по повышению информационной грамотности имеют ключевое значение), наличие технологических возможностей для проверки подлинности цифровых носителей, безусловно, является важным шагом».