Versions accélérées de Llama 3 optimisées pour les GPU Nvidia

Les développeurs peuvent désormais accéder à Llama 3 sur ai.nvidia.com, où il est proposé sous forme de microservice NVIDIA NIM avec une API standard pour une flexibilité de déploiement.

Meta a révélé que ses ingénieurs avaient formé Llama 3 sur un cluster informatique de 24,576 100 GPU NVIDIA H2 Tensor Core, liés à un réseau NVIDIA Quantum-XNUMX InfiniBand.

Les ingénieurs Meta ont formé Llama 3 sur un cluster d'ordinateurs contenant 24,576 100 GPU NVIDIA H2 Tensor Core, liés à un réseau NVIDIA Quantum-XNUMX InfiniBand. Avec le soutien de NVIDIA, Meta a optimisé ses architectures de réseau, de logiciels et de modèles pour son LLM phare.

Pour faire progresser davantage l'état de l'art en matière d'IA générative, Meta a récemment décrit son intention de faire évoluer son infrastructure jusqu'à 350,000 100 GPU HXNUMX.

Des versions de Llama 3, accélérées sur les GPU NVIDIA, sont disponibles aujourd'hui pour une utilisation dans le cloud, les centres de données, en périphérie et sur PC.

Depuis un navigateur, les développeurs peuvent essayer Llama 3 sur ai.nvidia.com. Il est présenté sous la forme d'un microservice NVIDIA NIM avec une interface de programmation d'application standard qui peut être déployée n'importe où.

Les entreprises peuvent affiner Llama 3 avec leurs données à l'aide de NVIDIA NeMo, un framework open source pour les LLM qui fait partie de la plateforme NVIDIA AI Enterprise sécurisée et prise en charge. Les modèles personnalisés peuvent être optimisés pour l'inférence avec NVIDIA TensorRT-LLM et déployés avec NVIDIA Triton Inference Server.

Llama 3 fonctionne également sur NVIDIA Jetson Orin pour les appareils robotiques et informatiques de pointe, créant des agents interactifs comme ceux du Jetson AI Lab.

De plus, les GPU NVIDIA RTX et GeForce RTX pour postes de travail et PC accélèrent l'inférence sur Llama 3. Ces systèmes donnent aux développeurs un objectif de plus de 100 millions de systèmes accélérés par NVIDIA.

Les meilleures pratiques de déploiement d'un LLM pour un chatbot impliquent un équilibre entre une faible latence, une bonne vitesse de lecture et une utilisation optimale du GPU pour réduire les coûts.

Un tel service doit fournir des jetons – l'équivalent approximatif des mots d'un LLM – à environ deux fois la vitesse de lecture d'un utilisateur, soit environ 10 jetons/seconde.

En appliquant ces mesures, un seul GPU NVIDIA H200 Tensor Core a généré environ 3,000 300 jetons/seconde, soit suffisamment pour servir environ 3 utilisateurs simultanés, lors d'un premier test utilisant la version de Llama 70 avec XNUMX milliards de paramètres.

Cela signifie qu'un seul serveur NVIDIA HGX doté de huit GPU H200 pourrait fournir 24,000 2,400 jetons/seconde, optimisant ainsi davantage les coûts en prenant en charge plus de XNUMX XNUMX utilisateurs en même temps.

Pour les appareils Edge, la version de Llama 3 avec huit milliards de paramètres a généré jusqu'à 40 jetons/seconde sur Jetson AGX Orin et 15 jetons/seconde sur Jetson Orin Nano.