על עקבותיהם של זיופים עמוקים, חוקרים מזהים 'טביעות אצבע' של וידאו שנוצר בינה מלאכותית

בפברואר, OpenAI פרסמה סרטונים שנוצרו על ידי תוכנית הבינה המלאכותית הגנרטיבית שלה Sora. התוכן הריאליסטי להפליא, המופק באמצעות הודעות טקסט פשוטות, הוא פריצת הדרך האחרונה עבור חברות המדגימות את היכולות של AI טֶכנוֹלוֹגִיָה. זה גם העלה חששות לגבי הפוטנציאל של AI גנרטיבי לאפשר יצירת תוכן מטעה ומטעה בקנה מידה עצום.

על פי מחקר חדש מאוניברסיטת דרקסל, השיטות הנוכחיות לאיתור מדיה דיגיטלית שעברה מניפולציות לא יהיו יעילות נגד וידאו שנוצר בינה מלאכותית; אבל גישת למידת מכונה יכולה להיות המפתח לחשיפת היצירות הסינתטיות הללו.

במאמר שהתקבל להצגה בכנס IEEE לזיהוי מחשבים וזיהוי דפוסים ביוני, הסבירו חוקרים ממעבדת מולטימדיה ואבטחת מידע במכללה להנדסה של דרקסל כי בעוד שטכנולוגיית זיהוי תמונה סינתטית קיימת כשלה עד כה באיתור וידאו שנוצר בינה מלאכותית, הם הצלחתי עם אלגוריתם למידת מכונה שניתן לאמן לחלץ ולזהות "טביעות אצבע" דיגיטליות של מחוללי וידאו רבים ושונים, כמו דיפוזיה יציבה של וידאו, Video-Crafter ו-Cog-Video.

בנוסף, הם הראו שאלגוריתם זה יכול ללמוד לזהות מחוללי AI חדשים לאחר לימוד רק כמה דוגמאות של הסרטונים שלהם.

"זה יותר מקצת מטריד שטכנולוגיית הווידאו הזו יכולה להשתחרר לפני שיש מערכת טובה לזיהוי זיופים שנוצרו על ידי שחקנים גרועים", אמר מתיו סטם, Ph.D., פרופסור חבר במכללה להנדסה של דרקסל ומנהל MISL.

"חברות אחראיות יעשו כמיטב יכולתן להטמיע מזהים וסימני מים, אבל ברגע שהטכנולוגיה תהיה זמינה לציבור, אנשים שרוצים להשתמש בה להטעיה ימצאו דרך. לכן אנחנו פועלים כדי להישאר לפניהם על ידי פיתוח הטכנולוגיה לזיהוי סרטונים סינתטיים מתוך דפוסים ותכונות שהם אנדמיים לתקשורת".

בלשי דיפפייק

המעבדה של Stamm הייתה פעילה במאמצים לסמן תמונות וסרטונים שעברו מניפולציות דיגיטלית כבר יותר מעשור, אך הקבוצה הייתה עסוקה במיוחד בשנה האחרונה, מכיוון שטכנולוגיית עריכה משמשת להפצת מידע מוטעה פוליטי.

עד לאחרונה, המניפולציות הללו היו תוצר של תוכנות עריכת תמונות ווידאו שמוסיפות, מסירות או מעבירות פיקסלים; או להאט, להאיץ או לחלץ פריימים של וידאו. כל אחת מהעריכות הללו משאירה שובל פירורי לחם דיגיטלי ייחודי והמעבדה של Stamm פיתחה חבילה של כלים מכוילים כדי למצוא ולעקוב אחריהם.

הכלים של המעבדה משתמשים בתוכנית למידת מכונה מתוחכמת הנקראת רשת עצבית מוגבלת. אלגוריתם זה יכול ללמוד, בדרכים דומות למוח האנושי, מה "נורמלי" ומה "חריג" ברמת תת-פיקסל של תמונות וסרטונים, במקום לחפש מזהים ספציפיים שנקבעו מראש של מניפולציה מלכתחילה. זה הופך את התוכנית למיומנת הן בזיהוי זיופים עמוקים ממקורות ידועים, כמו גם בזיהוי אלה שנוצרו על ידי תוכנית לא ידועה בעבר.

הרשת העצבית מאומנת בדרך כלל במאות או אלפי דוגמאות כדי לקבל תחושה טובה מאוד של ההבדל בין מדיה לא ערוכה למשהו שעבר מניפולציה - זה יכול להיות כל דבר, החל משונות בין פיקסלים סמוכים, ועד לסדר המרווח של פריימים ב- וידאו, לגודל ולדחיסה של הקבצים עצמם.

אתגר חדש

"כשאתה יוצר תמונה, העיבוד הפיזי והאלגוריתמי במצלמה שלך מציג קשרים בין ערכי פיקסלים שונים ששונים מאוד מערכי הפיקסלים אם אתה יוצר תמונה בפוטושופ או בינה מלאכותית", אמר סטם.

"אבל לאחרונה ראינו מחוללי טקסט לווידאו, כמו סורה, שיכולים ליצור כמה סרטונים מרשימים למדי. ואלה מהווים אתגר חדש לגמרי כי הם לא הופקו במצלמה או עברו פוטושופ".

בשנה שעברה הופיעה מודעת קמפיין שהסתובבה בתמיכה במושל פלורידה, רון דה-סנטיס, שהראתה את הנשיא לשעבר דונלד טראמפ מחבק ומנשק את אנטוני פאוצ'י היה הראשון שהשתמש בטכנולוגיית AI גנרטיבית. המשמעות היא שהסרטון לא נערך או חובר יחד מאחרים, אלא הוא נוצר על ידי תוכנית AI.

ואם אין עריכה, מציין Stamm, אז הרמזים הסטנדרטיים אינם קיימים — מה שמציב בעיה ייחודית לזיהוי.

"עד עכשיו, תוכניות זיהוי משפטי היו יעילות נגד סרטונים ערוכים פשוט על ידי התייחסות אליהם כסדרה של תמונות ויישום אותו תהליך זיהוי", אמר סטם.

"אבל עם וידאו שנוצר בינה מלאכותית, אין עדות למניפולציה של תמונה ממסגרת למסגרת, כך שתוכנית זיהוי תהיה אפקטיבית היא תצטרך להיות מסוגלת לזהות עקבות חדשים שהושארו מאחור בדרך שבה תוכניות AI גנרטיביות בונות את סרטונים."

במחקר, הצוות בדק 11 גלאי תמונה סינתטיים זמינים לציבור. כל אחת מהתוכניות הללו הייתה יעילה ביותר - לפחות 90% דיוק - בזיהוי תמונות שעברו מניפולציות. אבל הביצועים שלהם ירדו ב-20-30% כשהם מתמודדים עם סרטונים בעלי אבחנה שנוצרו על ידי מחוללי AI זמינים לציבור, Luma, VideoCrafter-v1, CogVideo ו-Stable Diffusion Video.

"תוצאות אלו מראות בבירור שגלאי תמונות סינתטיות חווים קושי משמעותי בזיהוי סרטונים סינתטיים", כתבו. "ממצא זה מתקיים בקנה אחד עם מספר ארכיטקטורות גלאים שונות, כמו גם כאשר גלאים מאומנים מראש על ידי אחרים או מאומנים מחדש באמצעות מערך הנתונים שלנו."

גישה מהימנה

הצוות שיער שגלאים מבוססי רשת עצבית קונבולוציונית, כמו אלגוריתם ה-MISLnet שלו, יכולים להצליח מול וידאו סינתטי מכיוון שהתוכנית נועדה לשנות ללא הרף את הלמידה שלה כשהיא נתקלת בדוגמאות חדשות. על ידי כך, ניתן לזהות עקבות פורנזיות חדשות כשהן מתפתחות. במהלך השנים האחרונות, הצוות הוכיח את החדות של MISLnet באיתור תמונות שעברו מניפולציות באמצעות תוכניות עריכה חדשות, כולל כלי בינה מלאכותית - כך שבדיקתה מול וידאו סינתטי היה צעד טבעי.

"השתמשנו באלגוריתמים של CNN כדי לזהות תמונות שעברו מניפולציות וזיופים עמוקים של וידאו ואודיו עם הצלחה אמינה", אמר טאי ד' נגוין, דוקטורנט ב-MISL, שהיה שותף למחבר המאמר. "בשל יכולתם להסתגל לכמויות קטנות של מידע חדש חשבנו שהם יכולים להוות פתרון יעיל גם לזיהוי סרטונים סינתטיים שנוצרו בינה מלאכותית."

לצורך הבדיקה, הקבוצה הכשירה שמונה גלאי CNN, כולל MISLnet, עם אותו מערך בדיקה המשמש לאימון גלאי התמונות, הכולל סרטונים אמיתיים וסרטוני AI שנוצרו על ידי ארבע התוכניות הזמינות לציבור. לאחר מכן הם בדקו את התוכנית מול סט של סרטונים שכללו מספר שנוצרו על ידי תוכניות AI גנרטיביות שעדיין לא זמינות לציבור: Sora, Pika ו-VideoCrafter-v2.

על ידי ניתוח חלק קטן - תיקון - מתוך פריים בודד מכל סרטון, גלאי CNN הצליחו ללמוד כיצד נראה סרטון סינטטי ברמה פרטנית וליישם את הידע הזה על סט הסרטונים החדש. כל תוכנית הייתה יעילה ביותר מ-93% בזיהוי הסרטונים הסינתטיים, כאשר MISLnet השיגה את הביצועים הטובים ביותר, ב-98.3%.

התוכנות היו מעט יותר יעילות כאשר ערכו ניתוח של הסרטון כולו, על ידי שליפת דגימה אקראית של כמה עשרות טלאים מפריימים שונים של הסרטון ושימוש באלו כסט אימון מיני כדי ללמוד את המאפיינים של הסרטון החדש. באמצעות סט של 80 תיקונים, התוכניות היו מדויקות בין 95-98%.

עם קצת הכשרה נוספת, התוכניות היו גם מדויקות ביותר מ-90% בזיהוי התוכנית ששימשה ליצירת הסרטונים, מה שהצוות מציע בגלל הגישה הייחודית והקניינית שבה משתמשת כל תוכנית להפקת סרטון.

"סרטונים נוצרים באמצעות מגוון רחב של אסטרטגיות וארכיטקטורות מחוללים", כתבו החוקרים. "מכיוון שכל טכניקה מעניקה עקבות משמעותיים, זה מקל הרבה יותר על רשתות להבחין במדויק בין כל מחולל."

מחקר מהיר

בעוד התוכניות נאבקו כשהתמודדו עם האתגר של זיהוי מחולל חדש לחלוטין מבלי להיחשף קודם לכן לפחות לכמות קטנה של וידאו ממנו, עם כמות קטנה של כוונון עדין, MISLnet יכלה ללמוד במהירות לבצע את הזיהוי ברמת דיוק של 98%. אסטרטגיה זו, הנקראת "למידה מועטה" היא יכולת חשובה מכיוון שטכנולוגיית בינה מלאכותית חדשה נוצרת מדי יום, כך שתוכניות הזיהוי חייבות להיות זריזות מספיק כדי להסתגל עם אימון מינימלי.

"כבר ראינו וידאו שנוצר בינה מלאכותית בשימוש ליצירת מידע מוטעה", אמר סטאם. "ככל שהתוכנות הללו הופכות להיות נפוצות יותר וקלות יותר לשימוש, אנו יכולים לצפות להיות מוצפים בסרטונים סינתטיים. בעוד שתוכניות זיהוי לא צריכות להיות קו ההגנה היחיד נגד מידע שגוי - מאמצי אוריינות מידע הם המפתח - היכולת הטכנולוגית לאמת את האותנטיות של המדיה הדיגיטלית היא בהחלט צעד חשוב."