החוקרים כיוונו את השליטה ביצירת תמונות AI

עדכון: 1 ביוני 2021
החוקרים כיוונו את השליטה ביצירת תמונות AI

חוקרים מאוניברסיטת מדינת צפון קרוליינה פיתחו שיטה חדישה חדשה לבקרה כיצד מערכות בינה מלאכותית (AI) יוצרות תמונות. לעבודה יש ​​יישומים לתחומים החל מרובוטיקה אוטונומית וכלה באימון AI.

מדובר בסוג של משימת AI הנקראת יצירת תנאי מותנה, בה מערכות AI יוצרות תמונות העומדות במערך ספציפי של תנאים. לדוגמא, ניתן לאמן מערכת ליצור תמונות מקוריות של חתולים או כלבים, תלוי איזו חיה המשתמש ביקש. טכניקות עדכניות יותר בנו על זה כדי לשלב תנאים לגבי פריסת תמונה. זה מאפשר למשתמשים לציין את סוגי האובייקטים שהם רוצים שיופיעו במקומות מסוימים על המסך. לדוגמא, השמיים עשויים להיכנס לתיבה אחת, עץ עשוי להיות בתיבה אחרת, זרם עשוי להיות בתיבה נפרדת וכן הלאה.

העבודה החדשה מתבססת על טכניקות אלה כדי לתת למשתמשים שליטה רבה יותר על התמונות המתקבלות ולשמור על מאפיינים מסוימים על פני סדרת תמונות.

"הגישה שלנו ניתנת להגדרה מחדש", אומר טיאנפו וו, מחבר משותף של מאמר בנושא העבודה ועוזר פרופסור להנדסת מחשבים במדינת NC. "כמו גישות קודמות, שלנו מאפשר למשתמשים שהמערכת תיצור תמונה המבוססת על קבוצה מסוימת של תנאים. אבל שלנו מאפשר לך גם לשמור על התמונה ולהוסיף לה. לדוגמא, משתמשים יכולים לגרום ל- AI ליצור סצנה הררית. לאחר מכן המשתמשים יוכלו להוסיף למערכת גולשים לסצנה ההיא. "

בנוסף, הגישה החדשה מאפשרת למשתמשים לבצע את ה- AI לתפעל אלמנטים ספציפיים כך שהם ניתנים לזיהוי זהה, אך עברו או השתנו בצורה כלשהי. לדוגמה, ה- AI עשוי ליצור סדרת תמונות המציגה גולשים פונים לעבר הצופה כשהם נעים על פני הנוף.

"יישום אחד לכך יהיה לעזור לרובוטים האוטונומיים 'לדמיין' כיצד התוצאה הסופית עשויה להיראות לפני שהם מתחילים במשימה נתונה," אומר וו. "אתה יכול גם להשתמש במערכת כדי ליצור תמונות לאימון AI. אז במקום לאסוף תמונות ממקורות חיצוניים, אתה יכול להשתמש במערכת זו ליצירת תמונות להכשרת מערכות AI אחרות. "

החוקרים בחנו את הגישה החדשה שלהם באמצעות מערך הנתונים COCO-Stuff ומערך הגנום החזותי. בהתבסס על מדדים סטנדרטיים של איכות תמונה, הגישה החדשה עברה את הטכניקות הקודמות ביותר של יצירת תמונות.

"הצעד הבא שלנו הוא לראות אם נוכל להרחיב את העבודה הזו לווידיאו ותמונות תלת מימד", אומר וו.

הכשרה לגישה החדשה דורשת כמות נכבדה של חישוב; החוקרים השתמשו בתחנת עבודה של 4 GPU. עם זאת, פריסת המערכת יקרה פחות מבחינה חישובית.

"מצאנו את זה GPU נותן לך מהירות כמעט בזמן אמת ", אומר וו