في أعقاب التزييف العميق، حدد الباحثون "بصمات الأصابع" للفيديو الذي تم إنشاؤه بواسطة الذكاء الاصطناعي

الائتمان: صورة تم إنشاؤها بواسطة الذكاء الاصطناعي

deepfake — الائتمان: صورة تم إنشاؤها بواسطة الذكاء الاصطناعي

في فبراير، أصدرت شركة OpenAI مقاطع فيديو تم إنشاؤها بواسطة برنامج الذكاء الاصطناعي التوليدي Sora. يعد المحتوى الواقعي المذهل، والذي يتم إنتاجه عبر مطالبات نصية بسيطة، أحدث إنجاز للشركات التي تُظهر قدرات الذكاء الاصطناعي التكنلوجيا. كما أثار مخاوف بشأن قدرة الذكاء الاصطناعي التوليدي على تمكين إنشاء محتوى مضلل وخادع على نطاق واسع.

وفقاً لبحث جديد أجرته جامعة دريكسيل، فإن الأساليب الحالية للكشف عن الوسائط الرقمية التي تم التلاعب بها لن تكون فعالة ضد الفيديو الناتج عن الذكاء الاصطناعي؛ ولكن نهج التعلم الآلي يمكن أن يكون المفتاح لكشف هذه الإبداعات الاصطناعية.

في ورقة تم قبولها للعرض في مؤتمر IEEE لرؤية الكمبيوتر والتعرف على الأنماط في يونيو، أوضح باحثون من مختبر الوسائط المتعددة وأمن المعلومات في كلية الهندسة في دريكسيل أنه على الرغم من فشل تقنية الكشف عن الصور الاصطناعية الحالية حتى الآن في اكتشاف الفيديو الناتج عن الذكاء الاصطناعي، إلا أنهم لقد حققنا نجاحًا باستخدام خوارزمية التعلم الآلي التي يمكن تدريبها لاستخراج "بصمات الأصابع" الرقمية والتعرف عليها للعديد من مولدات الفيديو المختلفة، مثل Stable Video Diffusion وVideo-Crafter وCog-Video.

بالإضافة إلى ذلك، فقد أظهروا أن هذه الخوارزمية يمكنها تعلم اكتشاف مولدات الذكاء الاصطناعي الجديدة بعد دراسة بعض الأمثلة فقط من مقاطع الفيديو الخاصة بهم.

قال ماثيو ستام، دكتوراه، أستاذ مشارك في كلية دريكسيل للهندسة ومدير مركز دريكسيل للهندسة: "من المثير للقلق أن يتم إطلاق تقنية الفيديو هذه قبل أن يكون هناك نظام جيد للكشف عن المنتجات المزيفة التي أنشأها ممثلون سيئون". MISL.

"ستبذل الشركات المسؤولة قصارى جهدها لتضمين المعرفات والعلامات المائية، ولكن بمجرد إتاحة التكنولوجيا للجمهور، سيجد الأشخاص الذين يريدون استخدامها للخداع طريقة. ولهذا السبب نعمل على البقاء في الطليعة من خلال تطوير التكنولوجيا لتحديد مقاطع الفيديو الاصطناعية من الأنماط والسمات المستوطنة في وسائل الإعلام.

المحققين Deepfake

كان مختبر ستام نشطًا في الجهود الرامية إلى وضع علامة على الصور ومقاطع الفيديو التي تم التلاعب بها رقميًا لأكثر من عقد من الزمن، لكن المجموعة كانت مشغولة بشكل خاص في العام الماضي، حيث يتم استخدام تكنولوجيا التحرير لنشر المعلومات السياسية المضللة.

حتى وقت قريب، كانت هذه التلاعبات نتاج برامج تحرير الصور والفيديو التي تضيف وحدات البكسل أو تزيلها أو تغيرها؛ أو إبطاء أو تسريع أو قص إطارات الفيديو. يترك كل من هذه التعديلات مسارًا رقميًا فريدًا للتنقل، وقد قام مختبر Stamm بتطوير مجموعة من الأدوات التي تمت معايرتها للعثور عليها ومتابعتها.

تستخدم أدوات المختبر برنامجًا متطورًا للتعلم الآلي يسمى الشبكة العصبية المقيدة. ويمكن لهذه الخوارزمية أن تتعلم، بطرق مشابهة للعقل البشري، ما هو "طبيعي" وما هو "غير عادي" على مستوى البكسل الفرعي من الصور ومقاطع الفيديو، بدلا من البحث عن معرفات محددة سلفا للتلاعب منذ البداية. وهذا يجعل البرنامج ماهرًا في تحديد التزييف العميق من مصادر معروفة، بالإضافة إلى اكتشاف تلك التي تم إنشاؤها بواسطة برنامج غير معروف سابقًا.

يتم تدريب الشبكة العصبية عادةً على مئات أو آلاف الأمثلة للحصول على فكرة جيدة جدًا عن الفرق بين الوسائط غير المحررة والشيء الذي تم التلاعب به - يمكن أن يكون هذا أي شيء بدءًا من الاختلاف بين وحدات البكسل المتجاورة، إلى ترتيب تباعد الإطارات في الفيديو، لحجم وضغط الملفات نفسها.

تحد جديد

قال ستام: "عندما تلتقط صورة، فإن المعالجة المادية والخوارزمية في الكاميرا تقدم علاقات بين قيم البكسل المختلفة التي تختلف تمامًا عن قيم البكسل إذا قمت بإنشاء صورة باستخدام الفوتوشوب أو الذكاء الاصطناعي".

"لكننا رأينا مؤخرًا مولدات تحويل النص إلى فيديو، مثل Sora، يمكنها إنشاء بعض مقاطع الفيديو الرائعة. وهذه تشكل تحديًا جديدًا تمامًا لأنها لم يتم إنتاجها بواسطة كاميرا أو برنامج فوتوشوب.

في العام الماضي، ظهر إعلان حملة تم تداوله لدعم حاكم ولاية فلوريدا، رون ديسانتيس، يظهر أن الرئيس السابق دونالد ترامب يحتضن ويقبل أنطوني فوسي، وكان أول من استخدم تكنولوجيا الذكاء الاصطناعي التوليدي. وهذا يعني أن الفيديو لم يتم تحريره أو تجميعه من الآخرين، بل تم إنشاؤه بالكامل بواسطة برنامج الذكاء الاصطناعي.

ويشير ستام إلى أنه إذا لم يكن هناك تحرير، فلن تكون القرائن القياسية موجودة، وهو ما يشكل مشكلة فريدة في الكشف.

وقال ستام: "حتى الآن، كانت برامج الكشف الجنائي فعالة ضد مقاطع الفيديو المحررة من خلال التعامل معها ببساطة على أنها سلسلة من الصور وتطبيق عملية الكشف نفسها".

"ولكن مع الفيديو الناتج عن الذكاء الاصطناعي، لا يوجد دليل على معالجة الصور من إطار إلى إطار، لذلك لكي يكون برنامج الكشف فعالاً، يجب أن يكون قادرًا على تحديد الآثار الجديدة التي خلفتها الطريقة التي تبني بها برامج الذكاء الاصطناعي التوليدي صورها". أشرطة فيديو."

في هذه الدراسة، اختبر الفريق 11 كاشفًا للصور الاصطناعية متاحة للجمهور. وكان كل من هذه البرامج فعالاً للغاية، حيث بلغت دقته 90% على الأقل، في تحديد الصور التي تم التلاعب بها. لكن أداءهم انخفض بنسبة 20-30% عندما واجهوا مقاطع فيديو مميزة تم إنشاؤها بواسطة مولدات الذكاء الاصطناعي المتاحة للعامة، مثل Luma وVideoCrafter-v1 وCogVideo وStable Diffusion Video.

وكتبوا: "تظهر هذه النتائج بوضوح أن أجهزة كشف الصور الاصطناعية تواجه صعوبة كبيرة في اكتشاف مقاطع الفيديو الاصطناعية". "تظل هذه النتيجة متسقة عبر العديد من بنيات الكاشف المختلفة، وكذلك عندما يتم تدريب الكاشفات مسبقًا من قبل الآخرين أو إعادة تدريبها باستخدام مجموعة البيانات الخاصة بنا."

نهج موثوق

وتكهن الفريق بأن أجهزة الكشف المستندة إلى الشبكة العصبية التلافيفية، مثل خوارزمية MISLnet، يمكن أن تكون ناجحة ضد الفيديو الاصطناعي لأن البرنامج مصمم لتغيير تعلمه باستمرار عندما يواجه أمثلة جديدة. ومن خلال القيام بذلك، من الممكن التعرف على آثار الطب الشرعي الجديدة أثناء تطورها. على مدى السنوات العديدة الماضية، أظهر الفريق دقة MISLnet في اكتشاف الصور التي تم التلاعب بها باستخدام برامج التحرير الجديدة، بما في ذلك أدوات الذكاء الاصطناعي، لذلك كان اختبارها مقابل الفيديو الاصطناعي خطوة طبيعية.

قال تاي دي نجوين، طالب الدكتوراه في MISL، والذي شارك في تأليف الورقة البحثية: "لقد استخدمنا خوارزميات CNN للكشف عن الصور ومقاطع الفيديو والصوت التي تم التلاعب بها بنجاح موثوق". "نظرًا لقدرتها على التكيف مع كميات صغيرة من المعلومات الجديدة، اعتقدنا أنها يمكن أن تكون حلاً فعالاً لتحديد مقاطع الفيديو الاصطناعية التي يتم إنشاؤها بواسطة الذكاء الاصطناعي أيضًا."

بالنسبة للاختبار، قامت المجموعة بتدريب ثمانية أجهزة كشف لـ CNN، بما في ذلك MISLnet، باستخدام نفس مجموعة بيانات الاختبار المستخدمة لتدريب أجهزة كشف الصور، والتي تشمل مقاطع فيديو حقيقية ومقاطع فيديو تم إنشاؤها بواسطة الذكاء الاصطناعي والتي تنتجها البرامج الأربعة المتاحة للجمهور. ثم قاموا باختبار البرنامج مقابل مجموعة من مقاطع الفيديو التي تضمنت عددًا تم إنشاؤه بواسطة برامج الذكاء الاصطناعي التوليدية التي لم تكن متاحة للجمهور بعد: Sora وPika وVideoCrafter-v2.

من خلال تحليل جزء صغير - رقعة - من إطار واحد من كل مقطع فيديو، تمكنت أجهزة كشف CNN من معرفة شكل الفيديو الاصطناعي على المستوى الحبيبي وتطبيق هذه المعرفة على مجموعة مقاطع الفيديو الجديدة. كان كل برنامج فعالاً بنسبة تزيد عن 93% في تحديد مقاطع الفيديو الاصطناعية، وكان أداء MISLnet هو الأفضل بنسبة 98.3%.

وكانت البرامج أكثر فعالية قليلاً عند إجراء تحليل للفيديو بأكمله، عن طريق سحب عينة عشوائية من بضع عشرات من التصحيحات من إطارات مختلفة للفيديو واستخدامها كمجموعة تدريب صغيرة لمعرفة خصائص الفيديو الجديد. وباستخدام مجموعة مكونة من 80 تصحيحًا، كانت دقة البرامج تتراوح بين 95% إلى 98%.

ومع القليل من التدريب الإضافي، كانت البرامج أيضًا دقيقة بنسبة تزيد عن 90% في تحديد البرنامج الذي تم استخدامه لإنشاء مقاطع الفيديو، وهو ما يقترح الفريق أن السبب فيه هو النهج الفريد والمملوك الذي يستخدمه كل برنامج لإنتاج مقطع فيديو.

وكتب الباحثون: "يتم إنشاء مقاطع الفيديو باستخدام مجموعة واسعة من الاستراتيجيات وبنيات المولدات". "نظرًا لأن كل تقنية تضفي آثارًا مهمة، فإن هذا يجعل من الأسهل بكثير على الشبكات التمييز بدقة بين كل مولد."

دراسة سريعة

بينما كافحت البرامج عندما واجهت التحدي المتمثل في اكتشاف مولد جديد تمامًا دون التعرض مسبقًا لكمية صغيرة من الفيديو منه على الأقل، مع قدر صغير من الضبط الدقيق، يمكن لـ MISLnet أن تتعلم بسرعة كيفية تحديد الهوية بدقة تصل إلى 98٪. تعتبر هذه الإستراتيجية، التي تسمى "التعلم بالجرعات القليلة"، قدرة مهمة لأنه يتم إنشاء تكنولوجيا الذكاء الاصطناعي الجديدة كل يوم، لذلك يجب أن تكون برامج الكشف مرنة بما يكفي للتكيف مع الحد الأدنى من التدريب.

وقال ستام: "لقد رأينا بالفعل استخدام الفيديو الذي تم إنشاؤه بواسطة الذكاء الاصطناعي لإنشاء معلومات مضللة". "نظرًا لأن هذه البرامج أصبحت أكثر انتشارًا وأسهل في الاستخدام، فيمكننا أن نتوقع بشكل معقول أن يتم غمرها بمقاطع الفيديو الاصطناعية. في حين أن برامج الكشف لا ينبغي أن تكون خط الدفاع الوحيد ضد المعلومات الخاطئة - فجهود التثقيف المعلوماتي هي المفتاح - فإن امتلاك القدرة التكنولوجية للتحقق من صحة الوسائط الرقمية يعد بالتأكيد خطوة مهمة.