Dalam jejak deepfake, peneliti mengidentifikasi 'sidik jari' dari video yang dihasilkan AI

Pada bulan Februari, OpenAI merilis video yang dibuat oleh program kecerdasan buatan generatifnya, Sora. Konten yang sangat realistis, dihasilkan melalui perintah teks sederhana, merupakan terobosan terbaru bagi perusahaan yang menunjukkan kemampuan AI teknologi. Hal ini juga menimbulkan kekhawatiran mengenai potensi AI generatif yang memungkinkan terciptanya konten yang menyesatkan dan menipu dalam skala besar.

Menurut penelitian baru dari Drexel University, metode yang ada saat ini untuk mendeteksi media digital yang dimanipulasi tidak akan efektif terhadap video yang dihasilkan AI; namun pendekatan pembelajaran mesin bisa menjadi kunci untuk mengungkap kreasi sintetis ini.

Dalam makalah yang diterima untuk dipresentasikan di IEEE Computer Vision and Pattern Recognition Conference pada bulan Juni, para peneliti dari Lab Keamanan Multimedia dan Informasi di Fakultas Teknik Drexel menjelaskan bahwa meskipun teknologi pendeteksi gambar sintetis yang ada sejauh ini gagal mengenali video yang dihasilkan AI, mereka telah sukses dengan algoritme pembelajaran mesin yang dapat dilatih untuk mengekstrak dan mengenali “sidik jari” digital dari berbagai generator video, seperti Difusi Video Stabil, Video-Crafter, dan Cog-Video.

Selain itu, mereka telah menunjukkan bahwa algoritme ini dapat belajar mendeteksi generator AI baru setelah mempelajari beberapa contoh video mereka.

“Sangat menakutkan bahwa teknologi video ini dirilis sebelum ada sistem yang baik untuk mendeteksi pemalsuan yang dibuat oleh aktor jahat,” kata Matthew Stamm, Ph.D., seorang profesor di Drexel's College of Engineering dan direktur dari Drexel's College of Engineering. LAIN-LAIN.

“Perusahaan yang bertanggung jawab akan melakukan yang terbaik untuk menyematkan pengenal dan tanda air, tetapi begitu teknologi tersebut tersedia untuk umum, orang yang ingin menggunakannya untuk penipuan akan menemukan caranya. Itu sebabnya kami berupaya untuk menjadi yang terdepan dengan mengembangkan teknologi untuk mengidentifikasi video sintetis dari pola dan sifat yang mewabah di media.”

Detektif palsu

Laboratorium Stamm telah aktif dalam upaya menandai gambar dan video yang dimanipulasi secara digital selama lebih dari satu dekade, namun kelompok tersebut menjadi sangat sibuk dalam setahun terakhir, karena teknologi pengeditan digunakan untuk menyebarkan informasi politik yang salah.

Hingga saat ini, manipulasi ini merupakan hasil dari program pengeditan foto dan video yang menambah, menghapus, atau menggeser piksel; atau memperlambat, mempercepat, atau memotong bingkai video. Masing-masing pengeditan ini meninggalkan jejak digital yang unik dan laboratorium Stamm telah mengembangkan serangkaian alat yang dikalibrasi untuk menemukan dan mengikutinya.

Peralatan laboratorium menggunakan program pembelajaran mesin canggih yang disebut jaringan saraf terbatas. Algoritme ini dapat mempelajari, dengan cara yang mirip dengan otak manusia, apa yang “normal” dan apa yang “tidak biasa” pada tingkat sub-piksel gambar dan video, daripada mencari pengidentifikasi manipulasi spesifik yang telah ditentukan sejak awal. Hal ini membuat program ini mahir dalam mengidentifikasi deepfake dari sumber yang diketahui, serta mengenali deepfake yang dibuat oleh program yang sebelumnya tidak diketahui.

Jaringan saraf biasanya dilatih berdasarkan ratusan atau ribuan contoh untuk mendapatkan pemahaman yang baik tentang perbedaan antara media yang belum diedit dan sesuatu yang telah dimanipulasi—ini bisa berupa apa saja, mulai dari variasi antara piksel yang berdekatan, hingga urutan jarak bingkai dalam sebuah gambar. video, dengan ukuran dan kompresi file itu sendiri.

Tantangan baru

“Saat Anda membuat gambar, pemrosesan fisik dan algoritmik di kamera Anda memperkenalkan hubungan antara berbagai nilai piksel yang sangat berbeda dibandingkan nilai piksel jika Anda menggunakan photoshop atau AI untuk menghasilkan gambar,” kata Stamm.

“Namun baru-baru ini kami melihat generator teks-ke-video, seperti Sora, yang dapat menghasilkan beberapa video yang cukup mengesankan. Dan hal tersebut memberikan tantangan yang benar-benar baru karena hal tersebut tidak dihasilkan oleh kamera atau hasil photoshop.”

Tahun lalu, iklan kampanye yang beredar untuk mendukung Gubernur Florida Ron DeSantis memperlihatkan mantan Presiden Donald Trump yang merangkul dan mencium Antony Fauci adalah orang pertama yang menggunakan teknologi AI generatif. Artinya, video tersebut tidak diedit atau digabungkan dari video lain, melainkan dibuat secara menyeluruh oleh program AI.

Dan jika tidak ada pengeditan, catat Stamm, maka petunjuk standar tidak akan ada—yang menimbulkan masalah unik dalam pendeteksian.

“Sampai saat ini, program deteksi forensik efektif terhadap video yang diedit hanya dengan memperlakukannya sebagai rangkaian gambar dan menerapkan proses deteksi yang sama,” kata Stamm.

“Tetapi dengan video yang dihasilkan AI, tidak ada bukti manipulasi gambar frame-to-frame, sehingga agar program deteksi menjadi efektif, program tersebut harus mampu mengidentifikasi jejak-jejak baru yang ditinggalkan oleh cara program AI generatif membangun jejak mereka. video.”

Dalam studi tersebut, tim menguji 11 detektor gambar sintetis yang tersedia untuk umum. Masing-masing program ini sangat efektif—dengan akurasi setidaknya 90%—dalam mengidentifikasi gambar yang dimanipulasi. Namun performanya turun sebesar 20–30% saat dihadapkan pada video cerdas yang dibuat oleh generator AI yang tersedia untuk umum, Luma, VideoCrafter-v1, CogVideo, dan Stable Diffusion Video.

“Hasil ini jelas menunjukkan bahwa detektor gambar sintetis mengalami kesulitan besar dalam mendeteksi video sintetis,” tulis mereka. “Temuan ini konsisten di berbagai arsitektur detektor yang berbeda, serta ketika detektor dilatih sebelumnya oleh orang lain atau dilatih ulang menggunakan kumpulan data kami.”

Pendekatan yang tepercaya

Tim berspekulasi bahwa detektor berbasis jaringan saraf konvolusional, seperti algoritme MISLnet, dapat berhasil melawan video sintetis karena program ini dirancang untuk terus mengubah pembelajarannya saat menemukan contoh baru. Dengan melakukan ini, jejak forensik baru dapat dikenali seiring dengan perkembangannya. Selama beberapa tahun terakhir, tim telah menunjukkan ketajaman MISLnet dalam mengenali gambar yang telah dimanipulasi menggunakan program pengeditan baru, termasuk alat AI—jadi mengujinya dengan video sintetis adalah langkah yang wajar.

“Kami telah menggunakan algoritma CNN untuk mendeteksi gambar dan video yang dimanipulasi serta deepfake audio dengan tingkat keberhasilan yang dapat diandalkan,” kata Tai D. Nguyen, seorang mahasiswa doktoral di MISL, yang merupakan salah satu penulis makalah ini. “Karena kemampuan mereka beradaptasi dengan sejumlah kecil informasi baru, kami pikir mereka juga bisa menjadi solusi efektif untuk mengidentifikasi video sintetis yang dihasilkan AI.”

Untuk pengujian tersebut, kelompok tersebut melatih delapan detektor CNN, termasuk MISLnet, dengan kumpulan data pengujian yang sama yang digunakan untuk melatih detektor gambar, termasuk video nyata dan video yang dihasilkan AI yang diproduksi oleh empat program yang tersedia untuk umum. Kemudian mereka menguji program tersebut terhadap serangkaian video yang menyertakan sejumlah video yang dibuat oleh program AI generatif yang belum tersedia untuk umum: Sora, Pika, dan VideoCrafter-v2.

Dengan menganalisis sebagian kecil—sebuah patch—dari satu frame dari setiap video, detektor CNN dapat mempelajari tampilan video sintetis pada tingkat yang terperinci dan menerapkan pengetahuan tersebut ke kumpulan video baru. Setiap program lebih dari 93% efektif dalam mengidentifikasi video sintetis, dengan MISLnet memiliki kinerja terbaik, yaitu 98.3%.

Program ini sedikit lebih efektif ketika melakukan analisis keseluruhan video, dengan mengambil sampel acak dari beberapa lusin patch dari berbagai frame video dan menggunakannya sebagai set pelatihan mini untuk mempelajari karakteristik video baru. Dengan menggunakan 80 patch, keakuratan program mencapai 95–98%.

Dengan sedikit pelatihan tambahan, program ini juga lebih dari 90% akurat dalam mengidentifikasi program yang digunakan untuk membuat video, yang menurut tim adalah karena pendekatan unik dan eksklusif yang digunakan setiap program untuk memproduksi video.

“Video dihasilkan menggunakan berbagai strategi dan arsitektur generator,” tulis para peneliti. “Karena setiap teknik memberikan jejak yang signifikan, hal ini mempermudah jaringan untuk membedakan setiap generator secara akurat.”

Sebuah studi cepat

Meskipun program ini mengalami kesulitan ketika dihadapkan pada tantangan untuk mendeteksi generator yang benar-benar baru tanpa terlebih dahulu terpapar setidaknya sejumlah kecil video dari generator tersebut, dengan sedikit penyesuaian, MISLnet dapat dengan cepat belajar membuat identifikasi dengan akurasi 98%. Strategi ini, yang disebut “pembelajaran beberapa langkah” (few-shot learning) merupakan kemampuan yang penting karena teknologi AI baru diciptakan setiap hari, sehingga program pendeteksian harus cukup gesit untuk beradaptasi dengan pelatihan minimal.

“Kami telah melihat video yang dihasilkan AI digunakan untuk membuat informasi yang salah,” kata Stamm. “Seiring dengan semakin banyaknya program ini yang ada dan lebih mudah digunakan, kita bisa berharap akan dibanjiri dengan video sintetis. Meskipun program deteksi seharusnya tidak menjadi satu-satunya garis pertahanan terhadap misinformasi—upaya literasi informasi adalah kuncinya—memiliki kemampuan teknologi untuk memverifikasi keaslian media digital tentu saja merupakan sebuah langkah penting.”

Dalam penelusuran deepfake, peneliti mengidentifikasi 'sidik jari' dari video yang dihasilkan AI

Detektif palsu

Tantangan baru

Pendekatan yang tepercaya

Sebuah studi cepat