Lần theo dấu vết của deepfake, các nhà nghiên cứu xác định được 'dấu vân tay' của video do AI tạo ra

sâu sắc — Tín dụng: Hình ảnh do AI tạo ra

Vào tháng 2, OpenAI đã phát hành các video được tạo bởi chương trình trí tuệ nhân tạo tổng hợp Sora. Nội dung thực tế đến kinh ngạc, được tạo ra thông qua những lời nhắc bằng văn bản đơn giản, là bước đột phá mới nhất dành cho các công ty thể hiện khả năng của AI công nghệ. Nó cũng làm dấy lên mối lo ngại về tiềm năng của AI trong việc tạo ra nội dung gây hiểu lầm và lừa dối trên quy mô lớn.

Theo nghiên cứu mới của Đại học Drexel, các phương pháp hiện tại để phát hiện phương tiện kỹ thuật số bị thao túng sẽ không hiệu quả đối với video do AI tạo ra; nhưng phương pháp học máy có thể là chìa khóa để vạch trần những sáng tạo tổng hợp này.

Trong một bài báo được chấp nhận trình bày tại Hội nghị nhận dạng mẫu và thị giác máy tính của IEEE vào tháng 6, các nhà nghiên cứu từ Phòng thí nghiệm bảo mật thông tin và đa phương tiện tại Đại học Kỹ thuật Drexel đã giải thích rằng mặc dù công nghệ phát hiện hình ảnh tổng hợp hiện tại đã thất bại trong việc phát hiện video do AI tạo ra, nhưng họ đã thành công với thuật toán học máy có thể được đào tạo để trích xuất và nhận dạng “dấu vân tay” kỹ thuật số của nhiều trình tạo video khác nhau, chẳng hạn như Khuếch tán video ổn định, Video-Crafter và Cog-Video.

Ngoài ra, họ đã chỉ ra rằng thuật toán này có thể học cách phát hiện các trình tạo AI mới sau khi nghiên cứu chỉ một số ví dụ trong video của họ.

Tiến sĩ Matthew Stamm, phó giáo sư tại Đại học Kỹ thuật Drexel và giám đốc của Chương trình cho biết: “Thật đáng lo ngại khi công nghệ video này có thể được phát hành trước khi có một hệ thống tốt để phát hiện hàng giả do những kẻ xấu tạo ra”. MISL.

“Các công ty có trách nhiệm sẽ cố gắng hết sức để nhúng các thông tin nhận dạng và hình mờ, nhưng một khi công nghệ này được cung cấp rộng rãi, những người muốn sử dụng nó để lừa dối sẽ tìm ra cách. Đó là lý do tại sao chúng tôi đang nỗ lực đi trước họ bằng cách phát triển công nghệ để xác định các video tổng hợp từ các mẫu và đặc điểm vốn có của phương tiện truyền thông.”

Thám tử deepfake

Phòng thí nghiệm của Stamm đã tích cực nỗ lực gắn cờ các hình ảnh và video bị chỉnh sửa kỹ thuật số trong hơn một thập kỷ, nhưng nhóm này đặc biệt bận rộn trong năm ngoái vì công nghệ chỉnh sửa đang được sử dụng để truyền bá thông tin sai lệch về chính trị.

Cho đến gần đây, những thao tác này là sản phẩm của các chương trình chỉnh sửa ảnh và video nhằm thêm, xóa hoặc dịch chuyển pixel; hoặc làm chậm, tăng tốc hoặc cắt bớt các khung hình video. Mỗi chỉnh sửa này đều để lại một đường dẫn kỹ thuật số duy nhất và phòng thí nghiệm của Stamm đã phát triển một bộ công cụ được hiệu chỉnh để tìm và theo dõi chúng.

Các công cụ của phòng thí nghiệm sử dụng một chương trình máy học tinh vi được gọi là mạng lưới thần kinh bị hạn chế. Thuật toán này có thể tìm hiểu, theo những cách tương tự như bộ não con người, điều gì là “bình thường” và điều gì là “bất thường” ở cấp độ pixel phụ của hình ảnh và video, thay vì tìm kiếm các mã nhận dạng thao tác được xác định trước cụ thể ngay từ đầu. Điều này làm cho chương trình thành thạo trong việc xác định các tác phẩm sâu từ các nguồn đã biết, cũng như phát hiện những nguồn được tạo bởi một chương trình chưa biết trước đó.

Mạng lưới thần kinh thường được huấn luyện trên hàng trăm hoặc hàng nghìn ví dụ để có được cảm nhận rất rõ về sự khác biệt giữa phương tiện chưa được chỉnh sửa và thứ gì đó đã bị thao túng—đây có thể là bất kỳ thứ gì từ sự biến đổi giữa các pixel liền kề, đến thứ tự khoảng cách của các khung trong một video, đến kích thước và độ nén của chính các tập tin.

Thử thách mới

Stamm cho biết: “Khi bạn tạo một hình ảnh, quá trình xử lý vật lý và thuật toán trong máy ảnh của bạn sẽ đưa ra mối quan hệ giữa các giá trị pixel khác nhau, rất khác so với giá trị pixel nếu bạn photoshop hoặc AI tạo ra một hình ảnh”.

“Nhưng gần đây chúng tôi thấy các trình tạo văn bản thành video, như Sora, có thể tạo ra một số video khá ấn tượng. Và những điều đó đặt ra một thách thức hoàn toàn mới vì chúng chưa được tạo ra bằng máy ảnh hay photoshop.”

Năm ngoái, một quảng cáo tranh cử ủng hộ Thống đốc bang Florida Ron DeSantis đã xuất hiện cho thấy cựu Tổng thống Donald Trump ôm và hôn Antony Fauci là người đầu tiên sử dụng công nghệ AI. Điều này có nghĩa là video không được chỉnh sửa hoặc ghép lại với nhau từ người khác, thay vào đó nó được tạo ra toàn bộ bởi một chương trình AI.

Và nếu không có sự chỉnh sửa, Stamm lưu ý, thì các manh mối tiêu chuẩn sẽ không tồn tại — điều này đặt ra một vấn đề đặc biệt cho việc phát hiện.

Stamm cho biết: “Cho đến nay, các chương trình phát hiện pháp y đã phát huy hiệu quả đối với các video đã chỉnh sửa bằng cách xử lý chúng như một chuỗi hình ảnh và áp dụng quy trình phát hiện tương tự”.

“Nhưng với video do AI tạo ra, không có bằng chứng nào về việc thao tác hình ảnh theo từng khung hình, vì vậy, để chương trình phát hiện có hiệu quả, nó cần có khả năng xác định các dấu vết mới bị bỏ lại qua cách các chương trình AI tạo ra chúng xây dựng chúng. video.”

Trong nghiên cứu, nhóm đã thử nghiệm 11 máy dò hình ảnh tổng hợp có sẵn công khai. Mỗi chương trình này đều có hiệu quả cao—độ chính xác ít nhất là 90%—trong việc xác định các hình ảnh bị chỉnh sửa. Nhưng hiệu suất của chúng giảm 20–30% khi đối mặt với các video sáng suốt được tạo bởi các trình tạo AI có sẵn công khai, Luma, VideoCrafter-v1, CogVideo và Stable Diffusion Video.

Họ viết: “Những kết quả này cho thấy rõ ràng rằng các máy dò hình ảnh tổng hợp gặp khó khăn đáng kể trong việc phát hiện các video tổng hợp”. “Phát hiện này có tính nhất quán trên nhiều kiến trúc máy dò khác nhau, cũng như khi các máy dò được người khác đào tạo trước hoặc được đào tạo lại bằng cách sử dụng tập dữ liệu của chúng tôi.”

Một cách tiếp cận đáng tin cậy

Nhóm nghiên cứu suy đoán rằng các máy dò dựa trên mạng thần kinh tích chập, giống như thuật toán MISLnet của nó, có thể thành công trước video tổng hợp vì chương trình được thiết kế để liên tục thay đổi cách học khi gặp các ví dụ mới. Bằng cách này, có thể nhận ra dấu vết pháp y mới khi chúng phát triển. Trong vài năm qua, nhóm đã chứng minh khả năng nhạy bén của MISLnet trong việc phát hiện các hình ảnh đã bị chỉnh sửa bằng các chương trình chỉnh sửa mới, bao gồm cả các công cụ AI—vì vậy việc thử nghiệm nó với video tổng hợp là một bước tự nhiên.

Tai D. Nguyen, nghiên cứu sinh tiến sĩ tại MISL, đồng tác giả của bài báo, cho biết: “Chúng tôi đã sử dụng thuật toán CNN để phát hiện các hình ảnh, video và âm thanh bị chỉnh sửa với thành công đáng tin cậy”. “Do khả năng thích ứng với một lượng nhỏ thông tin mới, chúng tôi nghĩ rằng chúng cũng có thể là một giải pháp hiệu quả để xác định các video tổng hợp do AI tạo ra.”

Đối với thử nghiệm, nhóm đã huấn luyện tám máy dò CNN, bao gồm MISLnet, với cùng một tập dữ liệu thử nghiệm được sử dụng để huấn luyện các máy dò hình ảnh, bao gồm video thực và video do AI tạo ra bởi bốn chương trình có sẵn công khai. Sau đó, họ thử nghiệm chương trình trên một tập hợp video bao gồm một số video được tạo bởi các chương trình AI tổng hợp chưa được công bố rộng rãi: Sora, Pika và VideoCrafter-v2.

Bằng cách phân tích một phần nhỏ—một bản vá—từ một khung hình duy nhất của mỗi video, bộ dò của CNN có thể tìm hiểu xem một video tổng hợp trông như thế nào ở cấp độ chi tiết và áp dụng kiến thức đó vào bộ video mới. Mỗi chương trình đều có hiệu quả hơn 93% trong việc xác định các video tổng hợp, trong đó MISLnet hoạt động tốt nhất với 98.3%.

Các chương trình này hiệu quả hơn một chút khi tiến hành phân tích toàn bộ video bằng cách lấy mẫu ngẫu nhiên vài chục bản vá từ các khung hình khác nhau của video và sử dụng chúng như một tập huấn luyện nhỏ để tìm hiểu các đặc điểm của video mới. Sử dụng một bộ 80 bản vá, chương trình có độ chính xác từ 95–98%.

Với một chút đào tạo bổ sung, các chương trình cũng có độ chính xác hơn 90% trong việc xác định chương trình được sử dụng để tạo video. Điều mà nhóm đề xuất là do cách tiếp cận độc quyền, độc đáo mà mỗi chương trình sử dụng để sản xuất video.

Các nhà nghiên cứu viết: “Video được tạo bằng nhiều chiến lược và kiến trúc trình tạo khác nhau”. “Vì mỗi kỹ thuật truyền tải các dấu vết đáng kể nên điều này giúp các mạng phân biệt chính xác giữa mỗi trình tạo dễ dàng hơn nhiều”.

Nghiên cứu nhanh

Trong khi các chương trình gặp khó khăn khi phải đối mặt với thách thức phát hiện một trình tạo hoàn toàn mới mà trước đó chưa từng tiếp xúc với ít nhất một lượng nhỏ video từ nó, thì chỉ cần tinh chỉnh một chút, MISLnet có thể nhanh chóng học cách nhận dạng với độ chính xác 98%. Chiến lược này, được gọi là “học vài phát” là một khả năng quan trọng vì công nghệ AI mới đang được tạo ra hàng ngày, vì vậy các chương trình phát hiện phải đủ linh hoạt để thích ứng với mức đào tạo tối thiểu.

Stamm cho biết: “Chúng tôi đã thấy video do AI tạo ra được sử dụng để tạo ra thông tin sai lệch”. “Khi các chương trình này trở nên phổ biến hơn và dễ sử dụng hơn, chúng ta có thể mong đợi sẽ tràn ngập các video tổng hợp. Mặc dù các chương trình phát hiện không phải là tuyến phòng thủ duy nhất chống lại thông tin sai lệch—nỗ lực nâng cao kiến thức thông tin là chìa khóa—việc sở hữu khả năng công nghệ để xác minh tính xác thực của phương tiện kỹ thuật số chắc chắn là một bước quan trọng.”