גרסאות מואצות של Llama 3 מותאמות למעבדי Nvidia GPU

עדכון: 20 באפריל, 2024 תגיות:ארכיטקטורהלסביבהeliclt

מפתחים יכולים כעת לגשת ל-Llama 3 בכתובת ai.nvidia.com, שם הוא מוצע כשירות מיקרו של NVIDIA NIM עם API סטנדרטי לגמישות בפריסה.

Meta חשפה שהמהנדסים שלה הכשירו את Llama 3 באשכול מחשבים של 24,576 NVIDIA H100 Tensor Core GPUs, מקושרים לרשת NVIDIA Quantum-2 InfiniBand.

מהנדסי Meta הכשירו את Llama 3 על אשכול מחשבים הכולל 24,576 גרפי גרפי NVIDIA H100 Tensor Core, מקושרים לרשת NVIDIA Quantum-2 InfiniBand. עם תמיכה מ-NVIDIA, Meta כיוונה את ארכיטקטורות הרשת, התוכנה והדגמים שלה עבור ספינת הדגל שלה LLM.

כדי לקדם עוד יותר את מצב האמנות בתחום הבינה המלאכותית הגנרטיבית, Meta תיארה לאחרונה תוכניות להרחיב את התשתית שלה ל-350,000 H100 GPUs.

גרסאות של Llama 3, המואצות במעבדי NVIDIA GPU, זמינות היום לשימוש בענן, במרכז הנתונים, בקצה ובמחשב האישי.

מדפדפן, מפתחים יכולים לנסות את Llama 3 בכתובת ai.nvidia.com. הוא ארוז כמיקרו-שירות NIM של NVIDIA עם ממשק תכנות יישומים סטנדרטי שניתן לפרוס בכל מקום.

עסקים יכולים לכוונן את Llama 3 עם הנתונים שלהם באמצעות NVIDIA NeMo, מסגרת קוד פתוח עבור LLMs שהיא חלק מהפלטפורמה המאובטחת והנתמכת של NVIDIA AI Enterprise. ניתן לבצע אופטימיזציה של דגמים מותאמים אישית להסקת מסקנות עם NVIDIA TensorRT-LLM ולפרוס אותם עם NVIDIA Triton Inference Server.

Llama 3 פועל גם על NVIDIA Jetson Orin עבור רובוטיקה והתקני מחשוב קצה, ויוצרים סוכנים אינטראקטיביים כמו אלה במעבדת ה-AI של Jetson.

יתרה מכך, NVIDIA RTX ו-GeForce RTX GPUs עבור תחנות עבודה ומחשבי PC מהירות מסקנות ב-Llama 3. מערכות אלו מעניקות למפתחים יעד של יותר מ-100 מיליון מערכות מואצות של NVIDIA 

שיטות עבודה מומלצות בפריסת LLM עבור צ'אטבוט כרוכה באיזון של חביון נמוך, מהירות קריאה טובה ושימוש אופטימלי ב-GPU להפחתת עלויות.

שירות כזה צריך לספק אסימונים - המקבילה הגסה של מילים ל-LLM - בערך פי שניים ממהירות הקריאה של המשתמש שהיא בערך 10 אסימונים לשנייה.

בהחלת המדדים הללו, NVIDIA H200 Tensor Core GPU יחיד יצר כ-3,000 אסימונים/שנייה - מספיק כדי לשרת כ-300 משתמשים בו-זמנית - בבדיקה ראשונית באמצעות הגרסה של Llama 3 עם 70 מיליארד פרמטרים.

זה אומר ששרת NVIDIA HGX יחיד עם שמונה H200 GPUs יכול לספק 24,000 אסימונים/שנייה, ולמטב עוד יותר את העלויות על ידי תמיכה ביותר מ-2,400 משתמשים בו זמנית.

עבור מכשירי קצה, הגרסה של Llama 3 עם שמונה מיליארד פרמטרים יצרה עד 40 אסימונים/שנייה ב-Jetson AGX Orin ו-15 אסימונים/שנייה ב-Jetson Orin Nano.