إصدارات سريعة من Llama 3 مُحسّنة لوحدات معالجة الرسومات Nvidia

يمكن للمطورين الآن الوصول إلى Llama 3 على ai.nvidia.com، حيث يتم تقديمه كخدمة NVIDIA NIM صغيرة مع واجهة برمجة تطبيقات قياسية لمرونة النشر.

كشفت Meta أن مهندسيها قاموا بتدريب Llama 3 على مجموعة كمبيوتر مكونة من 24,576 وحدة معالجة رسوميات NVIDIA H100 Tensor Core، مرتبطة بشبكة NVIDIA Quantum-2 InfiniBand.

قام مهندسو Meta بتدريب Llama 3 على مجموعة كمبيوتر تحتوي على 24,576 وحدة معالجة رسوميات NVIDIA H100 Tensor Core، مرتبطة بشبكة NVIDIA Quantum-2 InfiniBand. بدعم من NVIDIA، قامت Meta بضبط شبكتها وبرامجها وبنيات النماذج الخاصة بها من أجل برنامج LLM الرائد.

لمزيد من التقدم في مجال الذكاء الاصطناعي التوليدي، وصفت Meta مؤخرًا خططًا لتوسيع نطاق بنيتها التحتية إلى 350,000 وحدة معالجة رسوميات H100.

تتوفر اليوم إصدارات Llama 3، التي تم تسريعها على وحدات معالجة الرسومات NVIDIA، للاستخدام في السحابة ومركز البيانات والحافة والكمبيوتر الشخصي.

من خلال المتصفح، يمكن للمطورين تجربة Llama 3 على ai.nvidia.com. لقد تم تعبئتها كخدمة NVIDIA NIM الصغيرة مع واجهة برمجة التطبيقات القياسية التي يمكن نشرها في أي مكان.

يمكن للشركات ضبط Llama 3 باستخدام بياناتها باستخدام NVIDIA NeMo، وهو إطار عمل مفتوح المصدر لـ LLMs والذي يعد جزءًا من نظام NVIDIA AI Enterprise الأساسي الآمن والمدعوم. يمكن تحسين النماذج المخصصة للاستدلال باستخدام NVIDIA TensorRT-LLM ونشرها باستخدام NVIDIA Triton Inference Server.

يعمل Llama 3 أيضًا على NVIDIA Jetson Orin للروبوتات وأجهزة الحوسبة المتطورة، مما يؤدي إلى إنشاء عوامل تفاعلية مثل تلك الموجودة في Jetson AI Lab.

علاوة على ذلك، فإن وحدات معالجة الرسوميات NVIDIA RTX وGeForce RTX لمحطات العمل وأجهزة الكمبيوتر تسرع الاستدلال على Llama 3. تمنح هذه الأنظمة المطورين هدفًا لأكثر من 100 مليون نظام مسرع بواسطة NVIDIA

تتضمن أفضل الممارسات في نشر LLM لروبوت الدردشة تحقيق التوازن بين زمن الوصول المنخفض وسرعة القراءة الجيدة والاستخدام الأمثل لوحدة معالجة الرسومات لتقليل التكاليف.

تحتاج مثل هذه الخدمة إلى تسليم الرموز المميزة - المعادل التقريبي للكلمات إلى LLM - بحوالي ضعف سرعة قراءة المستخدم والتي تبلغ حوالي 10 رموز مميزة في الثانية.

وبتطبيق هذه المقاييس، أنتجت وحدة معالجة الرسوميات NVIDIA H200 Tensor Core واحدة حوالي 3,000 رمزًا في الثانية - وهو ما يكفي لخدمة حوالي 300 مستخدم متزامن - في اختبار أولي باستخدام إصدار Llama 3 مع 70 مليار معلمة.

وهذا يعني أن خادم NVIDIA HGX واحد مع ثماني وحدات معالجة رسومات H200 يمكنه تقديم 24,000 رمزًا في الثانية، مما يؤدي إلى تحسين التكاليف بشكل أكبر من خلال دعم أكثر من 2,400 مستخدم في نفس الوقت.

بالنسبة للأجهزة المتطورة، قام إصدار Llama 3 الذي يحتوي على ثمانية مليارات معلمة بإنشاء ما يصل إلى 40 رمزًا مميزًا في الثانية على Jetson AGX Orin و15 رمزًا مميزًا في الثانية على Jetson Orin Nano.