Beschleunigte Versionen von Llama 3, optimiert für Nvidia-GPUs

Entwickler können jetzt auf Llama 3 unter ai.nvidia.com zugreifen, wo es als NVIDIA NIM-Microservice mit einer Standard-API für Flexibilität bei der Bereitstellung angeboten wird.

Meta gab bekannt, dass seine Ingenieure Llama 3 auf einem Computercluster aus 24,576 NVIDIA H100 Tensor Core-GPUs trainiert haben, die mit einem NVIDIA Quantum-2 InfiniBand-Netzwerk verbunden sind.

Meta-Ingenieure trainierten Llama 3 auf einem Computercluster mit 24,576 NVIDIA H100 Tensor Core-GPUs, verbunden mit einem NVIDIA Quantum-2 InfiniBand-Netzwerk. Mit Unterstützung von NVIDIA hat Meta seine Netzwerk-, Software- und Modellarchitekturen für sein Flaggschiff-LLM optimiert.

Um den Stand der Technik in der generativen KI weiter voranzutreiben, hat Meta kürzlich Pläne beschrieben, seine Infrastruktur auf 350,000 H100-GPUs zu skalieren.

Auf NVIDIA-GPUs beschleunigte Versionen von Llama 3 sind ab sofort für den Einsatz in der Cloud, im Rechenzentrum, am Edge und auf dem PC verfügbar.

Über einen Browser können Entwickler Llama 3 unter ai.nvidia.com ausprobieren. Es ist als NVIDIA NIM-Microservice mit einer Standard-Anwendungsprogrammierschnittstelle verpackt, die überall bereitgestellt werden kann.

Unternehmen können Llama 3 mithilfe von NVIDIA NeMo, einem Open-Source-Framework für LLMs, das Teil der sicheren, unterstützten NVIDIA AI Enterprise-Plattform ist, mit ihren Daten verfeinern. Benutzerdefinierte Modelle können mit NVIDIA TensorRT-LLM für Inferenz optimiert und mit NVIDIA Triton Inference Server bereitgestellt werden.

Llama 3 läuft auch auf NVIDIA Jetson Orin für Robotik- und Edge-Computing-Geräte und erstellt interaktive Agenten wie die im Jetson AI Lab.

Darüber hinaus beschleunigen NVIDIA RTX- und GeForce RTX-GPUs für Workstations und PCs die Geschwindigkeitsinferenz auf Llama 3. Diese Systeme bieten Entwicklern ein Ziel von mehr als 100 Millionen NVIDIA-beschleunigten Systemen

Zu den Best Practices bei der Bereitstellung eines LLM für einen Chatbot gehört ein Gleichgewicht zwischen geringer Latenz, guter Lesegeschwindigkeit und optimaler GPU-Nutzung, um die Kosten zu senken.

Ein solcher Dienst muss Token – das ungefähre Äquivalent von Wörtern an ein LLM – mit etwa der doppelten Lesegeschwindigkeit eines Benutzers liefern, also etwa 10 Token/Sekunde.

Unter Anwendung dieser Metriken generierte eine einzelne NVIDIA H200 Tensor Core GPU in einem ersten Test mit der Version von Llama 3,000 mit 300 Milliarden Parametern etwa 3 Token/Sekunde – genug, um etwa 70 gleichzeitige Benutzer zu bedienen.

Das bedeutet, dass ein einzelner NVIDIA HGX-Server mit acht H200-GPUs 24,000 Token/Sekunde liefern könnte, was die Kosten durch die gleichzeitige Unterstützung von mehr als 2,400 Benutzern weiter optimiert.

Bei Edge-Geräten generierte die Version von Llama 3 mit acht Milliarden Parametern bis zu 40 Token/Sekunde auf Jetson AGX Orin und 15 Token/Sekunde auf Jetson Orin Nano.