ディープフェイクの痕跡で、研究者らがAI生成ビデオの「指紋」を特定

更新日: 26 年 2024 月 XNUMX 日


ディープフェイク
クレジット: AI 生成画像

OpenAIは2月に、同社の生成人工知能プログラムSoraによって作成されたビデオを公開した。シンプルなテキストプロンプトによって生成される驚くほどリアルなコンテンツは、AI の機能を実証する企業にとって最新の画期的な成果です。 テクノロジー。また、誤解を招くコンテンツや欺瞞的なコンテンツを大規模に作成できるようになる生成 AI の可能性についての懸念も生じました。


ドレクセル大学の新しい研究によると、改ざんされたデジタル メディアを検出する現在の方法は、AI によって生成されたビデオに対しては効果がありません。しかし、機械学習アプローチは、これらの合成創作物を暴く鍵となる可能性があります。

6 月の IEEE Computer Vision and Pattern Recognition Conference での発表に受理された論文の中で、ドレクセル大学工学部マルチメディアおよび情報セキュリティ研究室の研究者は、既存の合成画像検出技術はこれまで AI が生成したビデオを検出することに失敗していたと説明しました。は、Stable Video Diffusion、Video-Craafter、Cog-Video など、さまざまなビデオ ジェネレーターのデジタル「フィンガープリント」を抽出して認識するようにトレーニングできる機械学習アルゴリズムで成功しました。

さらに、このアルゴリズムはビデオのほんの数例を学習した後、新しい AI ジェネレーターを検出する方法を学習できることも示しました。

「悪意のある者が作成した偽物を検出するための優れたシステムが確立される前に、このビデオ技術が公開される可能性があることは、少なからず不安です」とドレクセル大学工学部の准教授でディレクターのマシュー・スタム博士は語った。 MISL。

「責任ある企業は識別子や透かしを埋め込むために最善を尽くしますが、この技術が一般に公開されると、それを欺瞞に利用したい人々がその方法を見つけるでしょう。だからこそ私たちは、メディア特有のパターンや特徴から合成ビデオを識別する技術を開発することで、メディアの先を行くべく取り組んでいるのです。」

ディープフェイク探偵

スタム氏の研究室は10年以上、デジタル加工された画像や動画に警告を発する取り組みに積極的に取り組んできたが、編集技術が政治的な誤った情報を広めるために利用されていることから、昨年は特に多忙を極めた。

最近まで、これらの操作は、ピクセルを追加、削除、またはシフトする写真およびビデオ編集プログラムの産物でした。またはビデオフレームを遅くしたり、スピードアップしたり、クリップアウトしたりできます。これらの編集はそれぞれ、独自のデジタル ブレッドクラムの痕跡を残すため、Stamm の研究室は、それらを見つけて追跡するために調整された一連のツールを開発しました。

この研究所のツールは、制約付きニューラル ネットワークと呼ばれる高度な機械学習プログラムを使用しています。このアルゴリズムは、人間の脳と同様の方法で、最初から操作の特定の所定の識別子を検索するのではなく、画像やビデオのサブピクセル レベルで何が「正常」で何が「異常」であるかを学習できます。これにより、このプログラムは、既知のソースからのディープフェイクを識別することと、これまで知られていなかったプログラムによって作成されたディープフェイクを特定することの両方に熟達します。

ニューラル ネットワークは、通常、未編集のメディアと操作されたメディアとの違いを非常によく理解するために、数百または数千の例でトレーニングされます。これには、隣接するピクセル間の変化から、フレーム内のフレームの間隔の順序まで、さまざまなものが含まれます。ビデオ、ファイル自体のサイズと圧縮に影響します。

新しい挑戦

「画像を作成すると、カメラの物理的およびアルゴリズム的な処理により、フォトショップや AI で画像を生成した場合のピクセル値とは大きく異なる、さまざまなピクセル値間の関係が導入されます」と Stamm 氏は述べています。

「しかし、最近では、Sora のような、非常に印象的なビデオを作成できるテキストからビデオへのジェネレーターが登場しています。これらはカメラやフォトショップで制作されていないため、まったく新しい課題をもたらしています。」

昨年、フロリダ州知事のロン・デサンティスを支持して出回った選挙広告では、ドナルド・トランプ元大統領が生成AI技術を初めて使用したアントニー・ファウチ氏を抱きしめてキスしている様子が描かれていた。これは、ビデオが編集されたり、他のビデオからつなぎ合わされたものではなく、AI プログラムによって完全に作成されたことを意味します。

また、編集が行われていない場合、標準的な手がかりは存在しないため、検出に特有の問題が生じるとスタム氏は指摘します。

「これまで、フォレンジック検出プログラムは編集されたビデオを一連の画像として扱い、同じ検出プロセスを適用するだけで有効でした」と Stamm 氏は述べています。

「しかし、AI が生成したビデオの場合、フレームごとに画像が操作された証拠はありません。そのため、検出プログラムが効果的であるためには、生成 AI プログラムが画像を構築する方法によって残された新しい痕跡を識別できる必要があります。ビデオ。」

研究では、チームは公的に入手可能な 11 個の合成画像検出器をテストしました。これらのプログラムはいずれも、操作された画像の識別において非常に効果的であり、少なくとも 90% の精度でした。しかし、公開されている AI ジェネレーター、Luma、VideoCrafter-v20、CogVideo、Stable Diffusion Video によって作成されたこだわりのビデオに直面すると、パフォーマンスが 30 ~ 1% 低下しました。

「これらの結果は、合成画像検出器が合成ビデオを検出するのがかなり困難であることを明らかに示しています」と研究者らは書いている。 「この発見は、複数の異なる検出器アーキテクチャにわたって、また検出器が他者によって事前トレーニングされた場合や、当社のデータセットを使用して再トレーニングされた場合にも一貫しています。」

信頼できるアプローチ

研究チームは、MISLnet アルゴリズムと同様、畳み込みニューラル ネットワーク ベースの検出器は合成ビデオに対して成功する可能性があると推測しました。これは、このプログラムが新しい例に遭遇すると学習を常に変更するように設計されているためです。これにより、進化する新しい法医学的痕跡を認識することが可能になります。過去数年にわたり、チームは AI ツールを含む新しい編集プログラムを使用して操作された画像を見つける MISLnet の鋭敏さを実証してきました。そのため、合成ビデオに対してテストするのは自然なステップでした。

「私たちはCNNアルゴリズムを使用して、操作された画像、ビデオ、音声のディープフェイクを検出し、信頼できる成功を収めました」と、論文の共著者であるMISLの博士課程学生、Tai D. Nguyen氏は述べています。 「少量の新しい情報に適応する能力があるため、AI が生成した合成ビデオを識別するための効果的なソリューションにもなり得ると考えました。」

このテストのために、グループは、画像検出器のトレーニングに使用したものと同じテスト データセットを使用して、MISLnet を含む 2 つの CNN 検出器をトレーニングしました。これには、実際のビデオと、XNUMX つの公的に利用可能なプログラムによって生成された AI 生成ビデオが含まれます。次に、まだ一般公開されていない生成 AI プログラム (Sora、Pika、VideoCrafter-vXNUMX) によって作成されたビデオを含む一連のビデオに対してプログラムをテストしました。

CNN 検出器は、各ビデオの単一フレームの小さな部分 (パッチ) を分析することで、合成ビデオがどのようなものかを詳細なレベルで学習し、その知識を新しいビデオ セットに適用することができました。各プログラムは合成ビデオの識別に 93% 以上の効果を発揮し、MISLnet が 98.3% で最も優れたパフォーマンスを示しました。

このプログラムは、ビデオのさまざまなフレームから数十のパッチをランダムに抽出し、新しいビデオの特徴を学習するためのミニトレーニングセットとして使用することで、ビデオ全体の分析を実行する場合に若干効果的でした。 80 個のパッチのセットを使用した場合、プログラムの精度は 95 ~ 98% でした。

追加のトレーニングを少し加えたところ、プログラムはビデオの作成に使用されたプログラムを 90% 以上正確に識別できました。これは、各プログラムがビデオの作成に使用する独自の独自のアプローチによるものであるとチームは示唆しています。

「ビデオはさまざまな戦略とジェネレーター アーキテクチャを使用して生成されます」と研究者らは書いています。 「それぞれの手法で重要なトレースが得られるため、ネットワークが各ジェネレーターを正確に区別することがはるかに簡単になります。」

簡単な勉強

まったく新しい発電機からの少なくとも少量のビデオを事前に公開せずにその発電機を検出するという課題にプログラムが直面したとき、プログラムは苦戦しましたが、少量の微調整を行うことで、MISLnet はすぐに学習して 98% の精度で識別することができました。 「フューショット学習」と呼ばれるこの戦略は重要な機能です。新しい AI テクノロジが毎日作成されているため、検出プログラムは最小限のトレーニングで適応できる十分な機敏性が必要です。

「AIが生成したビデオが誤った情報を生み出すために使用されているのを私たちはすでに見てきました」とスタム氏は言う。 「これらのプログラムがより普及し、使いやすくなるにつれ、合成ビデオが氾濫することが予想されます。検出プログラムが誤情報に対する唯一の防御線であるべきではありませんが、情報リテラシーへの取り組みが鍵となりますが、デジタル メディアの信頼性を検証する技術的能力を持つことは確かに重要なステップです。」