ตามรอย Deepfakes นักวิจัยระบุ 'ลายนิ้วมือ' ของวิดีโอที่สร้างโดย AI

ในเดือนกุมภาพันธ์ OpenAI ได้เปิดตัววิดีโอที่สร้างโดยโปรแกรมปัญญาประดิษฐ์อัจฉริยะ Sora เนื้อหาที่สมจริงอย่างน่าทึ่งซึ่งสร้างขึ้นผ่านการแจ้งข้อความธรรมดา ถือเป็นความก้าวหน้าครั้งล่าสุดสำหรับบริษัทต่างๆ ที่แสดงความสามารถของ AI เทคโนโลยี- นอกจากนี้ยังทำให้เกิดความกังวลเกี่ยวกับศักยภาพของ Generative AI ในการสร้างเนื้อหาที่ทำให้เข้าใจผิดและหลอกลวงในวงกว้าง

จากการวิจัยใหม่จากมหาวิทยาลัย Drexel วิธีการปัจจุบันในการตรวจจับสื่อดิจิทัลที่ถูกดัดแปลงจะไม่ได้ผลกับวิดีโอที่สร้างโดย AI แต่แนวทางการเรียนรู้ของเครื่องอาจเป็นกุญแจสำคัญในการเปิดโปงการสร้างสรรค์สังเคราะห์เหล่านี้

ในบทความที่ได้รับการยอมรับให้นำเสนอในการประชุม IEEE Computer Vision and Pattern Recognition Conference ในเดือนมิถุนายน นักวิจัยจาก Multimedia and Information Security Lab ในวิทยาลัยวิศวกรรมศาสตร์ Drexel อธิบายว่าในขณะที่เทคโนโลยีการตรวจจับภาพสังเคราะห์ที่มีอยู่ในปัจจุบันล้มเหลวในการตรวจจับวิดีโอที่สร้างโดย AI แต่พวกเขาก็ ประสบความสำเร็จกับอัลกอริธึมการเรียนรู้ของเครื่องที่สามารถฝึกให้แยกและจดจำ “ลายนิ้วมือ” ดิจิทัลของเครื่องกำเนิดวิดีโอต่างๆ มากมาย เช่น Stable Video Diffusion, Video-Crafter และ Cog-Video

นอกจากนี้ พวกเขายังแสดงให้เห็นว่าอัลกอริทึมนี้สามารถเรียนรู้ที่จะตรวจจับเครื่องกำเนิด AI ใหม่ หลังจากศึกษาตัวอย่างวิดีโอของพวกเขาเพียงบางส่วนเท่านั้น

“เป็นเรื่องที่น่าตกใจเล็กน้อยที่เทคโนโลยีวิดีโอนี้สามารถเผยแพร่ได้ก่อนที่จะมีระบบที่ดีในการตรวจจับของปลอมที่สร้างขึ้นโดยนักแสดงที่ไม่ดี” Matthew Stamm, Ph.D. รองศาสตราจารย์ในวิทยาลัยวิศวกรรมศาสตร์ Drexel และผู้อำนวยการของ Drexel กล่าว มิสแอล

“บริษัทที่รับผิดชอบจะพยายามอย่างเต็มที่ในการฝังตัวระบุและลายน้ำ แต่เมื่อเทคโนโลยีนี้เผยแพร่สู่สาธารณะ ผู้คนที่ต้องการใช้มันเพื่อการหลอกลวงก็จะพบหนทาง นั่นเป็นเหตุผลที่เราทำงานเพื่อก้าวนำหน้าพวกเขาโดยการพัฒนาเทคโนโลยีเพื่อระบุวิดีโอสังเคราะห์จากรูปแบบและลักษณะเฉพาะที่เป็นถิ่นของสื่อ”

นักสืบดีพเฟค

ห้องทดลองของ Stamm พยายามรายงานรูปภาพและวิดีโอที่ได้รับการปรับแต่งแบบดิจิทัลมานานกว่าทศวรรษ แต่กลุ่มนี้มีงานยุ่งเป็นพิเศษในปีที่แล้ว เนื่องจากมีการใช้เทคโนโลยีการแก้ไขเพื่อเผยแพร่ข้อมูลที่ไม่ถูกต้องทางการเมือง

จนกระทั่งเมื่อไม่นานมานี้ การปรับแต่งเหล่านี้เป็นผลงานของโปรแกรมแก้ไขรูปภาพและวิดีโอที่เพิ่ม ลบ หรือเลื่อนพิกเซล หรือช้า เร่งความเร็ว หรือตัดเฟรมวิดีโอออก การแก้ไขแต่ละครั้งจะทิ้งเส้นทางดิจิทัลที่เป็นเอกลักษณ์ และห้องปฏิบัติการของ Stamm ได้พัฒนาชุดเครื่องมือที่ปรับเทียบเพื่อค้นหาและติดตามการแก้ไขเหล่านั้น

เครื่องมือของห้องปฏิบัติการใช้โปรแกรมแมชชีนเลิร์นนิงที่ซับซ้อนที่เรียกว่าโครงข่ายประสาทเทียมแบบจำกัด อัลกอริธึมนี้สามารถเรียนรู้ในลักษณะที่คล้ายกับสมองของมนุษย์ว่าอะไรคือ "ปกติ" และอะไรคือ "ผิดปกติ" ในระดับพิกเซลย่อยของรูปภาพและวิดีโอ แทนที่จะค้นหาตัวระบุเฉพาะที่กำหนดไว้ล่วงหน้าของการบิดเบือนตั้งแต่เริ่มแรก สิ่งนี้ทำให้โปรแกรมเชี่ยวชาญทั้งในการระบุ deepfakes จากแหล่งที่รู้จัก เช่นเดียวกับการตรวจจับสิ่งที่สร้างขึ้นโดยโปรแกรมที่ไม่รู้จักก่อนหน้านี้

โดยทั่วไปแล้วโครงข่ายประสาทเทียมจะได้รับการฝึกตัวอย่างหลายร้อยหรือหลายพันตัวอย่างเพื่อให้เข้าใจถึงความแตกต่างระหว่างสื่อที่ไม่มีการตัดต่อกับสิ่งที่ถูกปรับแต่ง ซึ่งอาจเป็นอะไรก็ได้ตั้งแต่การเปลี่ยนแปลงระหว่างพิกเซลที่อยู่ติดกัน ไปจนถึงลำดับระยะห่างของเฟรมใน ไปจนถึงขนาดและการบีบอัดไฟล์เอง

เป็นความท้าทายใหม่ ๆ

“เมื่อคุณสร้างภาพ การประมวลผลทางกายภาพและอัลกอริธึมในกล้องของคุณจะแนะนำความสัมพันธ์ระหว่างค่าพิกเซลต่างๆ ซึ่งแตกต่างจากค่าพิกเซลอย่างมาก หากคุณสร้างภาพด้วย Photoshop หรือ AI” Stamm กล่าว

“แต่เมื่อเร็วๆ นี้ เราได้เห็นโปรแกรมสร้างข้อความเป็นวิดีโอ เช่น Sora ที่สามารถสร้างวิดีโอที่น่าประทับใจได้ และสิ่งเหล่านี้ถือเป็นความท้าทายครั้งใหม่เพราะไม่ได้ผลิตโดยกล้องหรือโฟโต้ช็อป”

เมื่อปีที่แล้ว โฆษณารณรงค์ที่เผยแพร่เพื่อสนับสนุนรัฐบาลฟลอริดา Ron DeSantis ดูเหมือนจะแสดงให้เห็นว่าอดีตประธานาธิบดีโดนัลด์ ทรัมป์กอดและจูบ Antony Fauci เป็นคนแรกที่ใช้เทคโนโลยี generative-AI ซึ่งหมายความว่าวิดีโอไม่ได้ถูกตัดต่อหรือต่อเข้าด้วยกันจากวิดีโออื่น แต่เป็นวิดีโอที่ถูกสร้างขึ้นทั้งผืนโดยโปรแกรม AI

และหากไม่มีการแก้ไข Stamm ก็จะบันทึกว่าไม่มีเบาะแสมาตรฐาน ซึ่งก่อให้เกิดปัญหาเฉพาะในการตรวจจับ

“จนถึงขณะนี้ โปรแกรมตรวจจับทางนิติวิทยาศาสตร์มีประสิทธิภาพกับวิดีโอที่มีการตัดต่อ โดยเพียงแค่ปฏิบัติต่อวิดีโอเหล่านั้นเป็นชุดรูปภาพและใช้กระบวนการตรวจจับเดียวกัน” Stamm กล่าว

“แต่ด้วยวิดีโอที่สร้างโดย AI นั้น ไม่มีหลักฐานของการจัดการภาพแบบเฟรมต่อเฟรม ดังนั้นเพื่อให้โปรแกรมตรวจจับมีประสิทธิภาพ จะต้องสามารถระบุร่องรอยใหม่ ๆ ที่ทิ้งไว้เบื้องหลังโดยวิธีที่โปรแกรม generative-AI สร้าง วิดีโอ”

ในการศึกษานี้ ทีมงานได้ทดสอบเครื่องตรวจจับภาพสังเคราะห์ที่เปิดเผยต่อสาธารณะจำนวน 11 เครื่อง แต่ละโปรแกรมเหล่านี้มีประสิทธิภาพสูง—มีความแม่นยำอย่างน้อย 90%—ในการระบุรูปภาพที่ถูกดัดแปลง แต่ประสิทธิภาพลดลง 20–30% เมื่อต้องเผชิญกับวิดีโออันชาญฉลาดที่สร้างโดยเครื่องกำเนิด AI ที่เปิดเผยต่อสาธารณะ, Luma, VideoCrafter-v1, CogVideo และ Stable Diffusion Video

“ผลลัพธ์เหล่านี้แสดงให้เห็นอย่างชัดเจนว่าเครื่องตรวจจับภาพสังเคราะห์ประสบปัญหาอย่างมากในการตรวจจับวิดีโอสังเคราะห์” พวกเขาเขียน “การค้นพบนี้มีความสอดคล้องกันในสถาปัตยกรรมเครื่องตรวจจับที่แตกต่างกันหลายแบบ รวมถึงเมื่อเครื่องตรวจจับได้รับการฝึกอบรมล่วงหน้าโดยผู้อื่นหรือฝึกอบรมใหม่โดยใช้ชุดข้อมูลของเรา”

แนวทางที่เชื่อถือได้

ทีมงานคาดการณ์ว่าเครื่องตรวจจับที่ใช้โครงข่ายประสาทเทียมแบบหมุนวน เช่น อัลกอริธึม MISLnet อาจประสบความสำเร็จกับวิดีโอสังเคราะห์ได้ เนื่องจากโปรแกรมได้รับการออกแบบให้เปลี่ยนการเรียนรู้อย่างต่อเนื่องเมื่อพบตัวอย่างใหม่ๆ การทำเช่นนี้ทำให้สามารถจดจำร่องรอยทางนิติวิทยาศาสตร์ใหม่ๆ ได้ในขณะที่พวกมันวิวัฒนาการ ในช่วงหลายปีที่ผ่านมา ทีมงานได้แสดงให้เห็นถึงไหวพริบของ MISLnet ในการตรวจจับภาพที่ได้รับการแก้ไขโดยใช้โปรแกรมแก้ไขใหม่ รวมถึงเครื่องมือ AI ดังนั้นการทดสอบกับวิดีโอสังเคราะห์จึงถือเป็นขั้นตอนปกติ

“เราใช้อัลกอริธึมของ CNN เพื่อตรวจจับภาพและวิดีโอและเสียงที่ถูกดัดแปลงด้วยความสำเร็จที่เชื่อถือได้” Tai D. Nguyen นักศึกษาปริญญาเอกจาก MISL ซึ่งเป็นผู้ร่วมเขียนรายงานกล่าว “เนื่องจากความสามารถในการปรับตัวเข้ากับข้อมูลใหม่จำนวนเล็กน้อย เราจึงคิดว่าสิ่งเหล่านี้อาจเป็นโซลูชันที่มีประสิทธิภาพในการระบุวิดีโอสังเคราะห์ที่สร้างโดย AI เช่นกัน”

สำหรับการทดสอบ กลุ่มนี้ได้ฝึกเครื่องตรวจจับ CNN จำนวน 2 เครื่อง ซึ่งรวมถึง MISLnet ด้วยชุดข้อมูลการทดสอบชุดเดียวกับที่ใช้ในการฝึกเครื่องตรวจจับภาพ ซึ่งรวมถึงวิดีโอจริงและวิดีโอที่สร้างโดย AI ที่ผลิตโดยโปรแกรมสี่โปรแกรมที่เปิดเผยต่อสาธารณะ จากนั้น พวกเขาทดสอบโปรแกรมกับชุดวิดีโอที่มีตัวเลขที่สร้างขึ้นโดยโปรแกรม AI ทั่วไปที่ยังไม่เผยแพร่สู่สาธารณะ: Sora, Pika และ VideoCrafter-vXNUMX

ด้วยการวิเคราะห์ส่วนเล็กๆ ซึ่งเป็นแพตช์จากเฟรมเดียวจากวิดีโอแต่ละรายการ อุปกรณ์ตรวจจับของ CNN สามารถเรียนรู้ว่าวิดีโอสังเคราะห์มีลักษณะอย่างไรในระดับที่ละเอียด และนำความรู้นั้นไปใช้กับวิดีโอชุดใหม่ แต่ละโปรแกรมมีประสิทธิภาพมากกว่า 93% ในการระบุวิดีโอสังเคราะห์ โดยที่ MISLnet ทำงานได้ดีที่สุดที่ 98.3%

โปรแกรมมีประสิทธิภาพมากกว่าเล็กน้อยเมื่อทำการวิเคราะห์วิดีโอทั้งหมด โดยการสุ่มตัวอย่างแพตช์สองสามโหลจากเฟรมต่างๆ ของวิดีโอ และใช้แพตช์เหล่านั้นเป็นชุดฝึกอบรมขนาดเล็กเพื่อเรียนรู้ลักษณะของวิดีโอใหม่ ด้วยชุดแพตช์ 80 ชุด โปรแกรมมีความแม่นยำระหว่าง 95–98%

ด้วยการฝึกอบรมเพิ่มเติมเล็กน้อย โปรแกรมต่างๆ ก็สามารถระบุโปรแกรมที่ใช้สร้างวิดีโอได้แม่นยำมากกว่า 90% ซึ่งทีมงานแนะนำว่าเป็นเพราะแนวทางที่เป็นเอกลักษณ์และเป็นกรรมสิทธิ์ที่แต่ละโปรแกรมใช้ในการผลิตวิดีโอ

“วิดีโอถูกสร้างขึ้นโดยใช้กลยุทธ์และสถาปัตยกรรมเครื่องกำเนิดที่หลากหลาย” นักวิจัยเขียน “เนื่องจากแต่ละเทคนิคมีร่องรอยที่สำคัญ สิ่งนี้ทำให้เครือข่ายสามารถแยกแยะระหว่างเครื่องกำเนิดไฟฟ้าแต่ละเครื่องได้ง่ายขึ้นมาก”

การศึกษาอย่างรวดเร็ว

ในขณะที่โปรแกรมต่างๆ ประสบปัญหาเมื่อต้องเผชิญกับความท้าทายในการตรวจจับเครื่องกำเนิดไฟฟ้าใหม่โดยไม่ได้รับวิดีโอจากเครื่องดังกล่าวเพียงเล็กน้อยมาก่อน ด้วยการปรับแต่งเล็กน้อย MISLnet ก็สามารถเรียนรู้ได้อย่างรวดเร็วเพื่อสร้างการระบุตัวตนที่ความแม่นยำ 98% กลยุทธ์นี้เรียกว่า “การเรียนรู้แบบไม่กี่ช็อต” เป็นความสามารถที่สำคัญเนื่องจากมีการสร้างเทคโนโลยี AI ใหม่ทุกวัน ดังนั้นโปรแกรมการตรวจจับจะต้องมีความคล่องตัวพอที่จะปรับตัวโดยใช้การฝึกอบรมเพียงเล็กน้อย

“เราได้เห็นแล้วว่าวิดีโอที่สร้างโดย AI ถูกใช้เพื่อสร้างข้อมูลที่ผิด” Stamm กล่าว “เนื่องจากโปรแกรมเหล่านี้แพร่หลายมากขึ้นและใช้งานง่ายขึ้น เราจึงสามารถคาดหวังได้ว่าวิดีโอสังเคราะห์จะท่วมท้น แม้ว่าโปรแกรมตรวจจับไม่ควรเป็นเพียงแนวเดียวในการป้องกันข้อมูลที่ไม่ถูกต้อง แต่ความพยายามในการอ่านข้อมูลเป็นกุญแจสำคัญ การมีความสามารถทางเทคโนโลยีในการตรวจสอบความถูกต้องของสื่อดิจิทัลถือเป็นขั้นตอนสำคัญอย่างแน่นอน”