تحسين أداء التعلم الآلي عن طريق إسقاط الأصفار

تحديث: 6 أغسطس 2023
تحسين أداء التعلم الآلي عن طريق إسقاط الأصفار

اكتشف باحثو كاوست طريقة لزيادة سرعة التدريب بشكل كبير. يمكن تدريب نماذج التعلم الآلي الكبيرة بشكل أسرع بشكل ملحوظ من خلال مراقبة عدد المرات التي يتم فيها الحصول على نتائج صفرية في التعلم الآلي الموزع الذي يستخدم مجموعات بيانات تدريبية كبيرة.

تطور نماذج الذكاء الاصطناعي "ذكاءها" من خلال تدريبها على مجموعات البيانات التي تم تصنيفها لإخبار النموذج بكيفية التمييز بين المدخلات المختلفة ثم الاستجابة وفقًا لذلك. كلما زادت البيانات المصنفة التي يتم إدخالها ، أصبح النموذج أفضل في أداء أي مهمة تم تعيينها للقيام بها. بالنسبة لتطبيقات التعلم العميق المعقدة ، مثل المركبات ذاتية القيادة ، يتطلب ذلك مجموعات بيانات إدخال هائلة وأوقات تدريب طويلة جدًا ، حتى عند استخدام منصات حوسبة عملاقة قوية ومكلفة للغاية.

أثناء التدريب ، يتم تعيين مهام التعلم الصغيرة لعشرات أو مئات من عقد الحوسبة ، والتي تشارك نتائجها عبر شبكة اتصالات قبل تشغيل المهمة التالية. أحد أكبر مصادر الحوسبة الزائدة في مهام الحوسبة المتوازية هو في الواقع هذا الاتصال بين عقد الحوسبة في كل خطوة نموذجية.

يوضح فريق جامعة الملك عبدالله أن "الاتصال هو عقبة رئيسية في الأداء في التعلم العميق الموزع". "جنبًا إلى جنب مع الزيادة السريعة في حجم النموذج ، نرى أيضًا زيادة في نسبة القيم الصفرية التي يتم إنتاجها أثناء عملية التعلم ، والتي نسميها التباين. كانت فكرتنا هي استغلال هذا التباين لزيادة الاستخدام الفعال للنطاق الترددي من خلال إرسال كتل بيانات غير صفرية فقط ".

بناءً على تطوير سابق لجامعة الملك عبدالله يُدعى SwitchML ، والذي حسّن الاتصالات الداخلية عن طريق تشغيل كود تجميع فعال على محولات الشبكة التي تعالج نقل البيانات ، ذهب فاي وماركو كانيني وزملاؤهم خطوة إلى الأمام من خلال تحديد النتائج الصفرية وتطوير طريقة لإسقاط الإرسال بدون مقاطعة تزامن عملية الحوسبة المتوازية.

يقول الفريق: "إن الطريقة الدقيقة لاستغلال التباين لتسريع التدريب الموزع هي مشكلة صعبة ، كما يقول الفريق. "تحتاج جميع العقد إلى معالجة كتل البيانات في نفس الموقع في فتحة زمنية ، لذلك يتعين علينا تنسيق العقد لضمان تجميع كتل البيانات فقط في نفس الموقع. للتغلب على هذا ، أنشأنا عملية مجمعة لتنسيق العمال ، وإرشادهم بشأن الكتلة التي يجب إرسالها بعد ذلك. "

أظهر الفريق مخطط OmniReduce الخاص بهم على قاع اختبار يتكون من مجموعة من وحدات معالجة الرسومات (GPU) وحقق ثمانية أضعاف السرعة النموذجية التعلم العميق المهام.

ELE تايمز
+ المشاركات
  • تتعاون BD Soft T مع Data Resolve ، وتعزز عروضها في الأمن السيبراني وذكاء المؤسسات
  • النهج المشترك يجد أفضل مسار مباشر لإنشاء مسار الروبوت
  • يمكن أن تؤدي مادة واحدة بوظيفتين إلى ذاكرة أسرع
  • جديد تكنولوجيا يمكن أن يجلب أسرع إصدار من 5G إلى منزلك ومكان عملك