استخدام تقنيات التعميم لجعل أنظمة الذكاء الاصطناعي أكثر تنوعًا

تحديث: 2 أغسطس 2021
استخدام تقنيات التعميم لجعل أنظمة الذكاء الاصطناعي أكثر تنوعًا

طورت مجموعة في DeepMind تسمى فريق التعلم المفتوح طريقة جديدة لتدريب أنظمة الذكاء الاصطناعي على ممارسة الألعاب. بدلاً من تعريضها لملايين الألعاب السابقة ، كما هو الحال مع أنظمة الذكاء الاصطناعي الأخرى في الألعاب ، أعطت المجموعة في DeepMind وكلاء نظام الذكاء الاصطناعي الجديد لديها مجموعة من المهارات الدنيا التي يستخدمونها لتحقيق هدف بسيط (مثل اكتشاف لاعب آخر في عالم افتراضي) ثم البناء عليه. أنشأ الباحثون عالمًا افتراضيًا يسمى XLand - عالم افتراضي ملون له مظهر عام لألعاب الفيديو. في ذلك ، ينطلق لاعبو الذكاء الاصطناعي ، الذين يسميهم الباحثون وكلاء ، لتحقيق هدف عام ، وكما يفعلون ، يكتسبون المهارات التي يمكنهم استخدامها لتحقيق أهداف أخرى. ثم قام الباحثون بتبديل اللعبة ، ومنحهم هدفًا جديدًا مع السماح لهم بالاحتفاظ بالمهارات التي تعلموها في الألعاب السابقة.

يتضمن أحد الأمثلة على هذه التقنية وكيلًا يحاول شق طريقه إلى جزء من عالمه مرتفع جدًا بحيث لا يمكن الصعود إليه مباشرةً والذي لا توجد له نقاط وصول مثل السلالم أو المنحدرات. أثناء التذمر ، يجد الوكيل أنه يستطيع تحريك جسم مسطح يجد أنه يعمل كمنحدر ، وبالتالي يشق طريقه إلى حيث يحتاج إلى الذهاب. للسماح لوكلائهم بتعلم المزيد من المهارات ، أنشأ الباحثون 700,000 سيناريو أو لعبة واجه فيها الوكلاء ما يقرب من 3.4 مليون مهمة فريدة. من خلال اتباع هذا النهج ، كان العملاء قادرين على تعليم أنفسهم كيفية لعب ألعاب متعددة ، مثل الوسم والتقاط العلم والاختباء والبحث. يطلق الباحثون على نهجهم تحديًا لا نهاية له. جانب آخر مثير للاهتمام في XLand هو أن هناك نوعًا من الأفرلورد ، كيان يحتفظ بعلامات تبويب للوكلاء ويلاحظ المهارات التي يتعلمونها ثم يولد ألعابًا جديدة لتقوية مهاراتهم. مع هذا النهج ، سيستمر الوكلاء في التعلم طالما يتم تكليفهم بمهام جديدة.

أثناء تشغيل عالمهم الافتراضي ، وجد الباحثون أن الوكلاء تعلموا مهارات جديدة ، عن طريق الصدفة بشكل عام ، وجدوا أنها مفيدة ثم قاموا ببنائها ، مما أدى إلى مهارات أكثر تقدمًا مثل اللجوء إلى التجريب عند نفاد الخيارات ، والتعاون مع وكلاء آخرين وتعلم كيفية استخدام الأشياء كأدوات. يقترحون أن نهجهم هو خطوة نحو إنشاء خوارزميات قادرة بشكل عام على تعلم كيفية لعب ألعاب جديدة بمفردهم - مهارات قد يستخدمها ذات يوم في يوم من الأيام الروبوتات.