الباحثون صقلوا التحكم في توليد الصور بالذكاء الاصطناعي

تحديث: 1 يونيو 2021
الباحثون صقلوا التحكم في توليد الصور بالذكاء الاصطناعي

طور باحثون من جامعة ولاية كارولينا الشمالية طريقة جديدة متطورة للتحكم في كيفية إنشاء أنظمة الذكاء الاصطناعي (AI) للصور. يحتوي العمل على تطبيقات في مجالات من الروبوتات المستقلة إلى تدريب الذكاء الاصطناعي.

موضوع الخلاف هو نوع من مهام الذكاء الاصطناعي يسمى توليد الصور الشرطي ، حيث تقوم أنظمة الذكاء الاصطناعي بإنشاء صور تلبي مجموعة معينة من الشروط. على سبيل المثال ، يمكن تدريب النظام على إنشاء صور أصلية للقطط أو الكلاب ، اعتمادًا على الحيوان الذي طلبه المستخدم. تم بناء تقنيات حديثة على هذا لتضمين الشروط المتعلقة بتخطيط الصورة. يتيح ذلك للمستخدمين تحديد أنواع الكائنات التي يريدون ظهورها في أماكن معينة على الشاشة. على سبيل المثال ، قد تنتقل السماء في صندوق واحد ، وقد تكون الشجرة في صندوق آخر ، وقد يكون الدفق في صندوق منفصل ، وهكذا.

يعتمد العمل الجديد على تلك التقنيات لمنح المستخدمين مزيدًا من التحكم في الصور الناتجة ، وللاحتفاظ بخصائص معينة عبر سلسلة من الصور.

يقول تيانفو وو ، المؤلف المشارك لورقة بحثية عن العمل وأستاذ مساعد لهندسة الكمبيوتر في ولاية نورث كارولاينا: "نهجنا قابل لإعادة التشكيل بدرجة كبيرة". "مثل الأساليب السابقة ، تتيح طريقتنا للمستخدمين جعل النظام ينشئ صورة بناءً على مجموعة محددة من الشروط. لكن صورتنا تسمح لك أيضًا بالاحتفاظ بهذه الصورة والإضافة إليها. على سبيل المثال ، يمكن للمستخدمين جعل الذكاء الاصطناعي يصنع مشهدًا جبليًا. يمكن للمستخدمين بعد ذلك جعل النظام يضيف متزلجين إلى هذا المشهد ".

بالإضافة إلى ذلك ، يتيح النهج الجديد للمستخدمين جعل الذكاء الاصطناعي يتلاعب بعناصر محددة بحيث يمكن تحديدها بنفس الطريقة ، ولكنها انتقلت أو تغيرت بطريقة ما. على سبيل المثال ، قد تنشئ منظمة العفو الدولية سلسلة من الصور تظهر المتزلجين يتجهون نحو العارض أثناء تحركهم عبر المشهد.

يقول وو: "أحد تطبيقات ذلك هو مساعدة الروبوتات المستقلة على" تخيل "الشكل الذي قد تبدو عليه النتيجة النهائية قبل أن تبدأ في مهمة معينة". "يمكنك أيضًا استخدام النظام لإنشاء صور للتدريب على الذكاء الاصطناعي. لذا ، بدلاً من تجميع الصور من مصادر خارجية ، يمكنك استخدام هذا النظام لإنشاء صور لتدريب أنظمة الذكاء الاصطناعي الأخرى ".

اختبر الباحثون نهجهم الجديد باستخدام مجموعة بيانات COCO-Stuff ومجموعة بيانات الجينوم المرئي. استنادًا إلى المقاييس القياسية لجودة الصورة ، تفوق الأسلوب الجديد في الأداء على أحدث تقنيات إنشاء الصور السابقة.

يقول وو: "خطوتنا التالية هي معرفة ما إذا كان بإمكاننا توسيع هذا العمل ليشمل الفيديو والصور ثلاثية الأبعاد".

يتطلب التدريب على النهج الجديد قدرًا لا بأس به من القوة الحسابية ؛ استخدم الباحثون محطة عمل 4-GPU. ومع ذلك ، فإن نشر النظام أقل تكلفة من الناحية الحسابية.

"وجدنا ذلك وحدة معالجة الرسوميات‏:‏ يمنحك سرعة في الوقت الفعلي تقريبًا "، كما يقول وو