Versnelde versies van Llama 3 geoptimaliseerd voor Nvidia GPU's

Update: 20 april 2024 Tags:architectuurecoeliclt

Ontwikkelaars hebben nu toegang tot Llama 3 op ai.nvidia.com, waar het wordt aangeboden als een NVIDIA NIM-microservice met een standaard API voor flexibiliteit bij de implementatie.

Meta onthulde dat zijn ingenieurs Llama 3 hebben getraind op een computercluster van 24,576 NVIDIA H100 Tensor Core GPU's, gekoppeld aan een NVIDIA Quantum-2 InfiniBand-netwerk.

Meta-ingenieurs hebben Llama 3 getraind op een computercluster met 24,576 NVIDIA H100 Tensor Core GPU's, gekoppeld aan een NVIDIA Quantum-2 InfiniBand-netwerk. Met steun van NVIDIA heeft Meta zijn netwerk-, software- en modelarchitecturen afgestemd op zijn vlaggenschip LLM.

Om de state-of-the-art op het gebied van generatieve AI verder te bevorderen, beschreef Meta onlangs plannen om zijn infrastructuur op te schalen naar 350,000 H100 GPU's.

Versies van Llama 3, versneld op NVIDIA GPU's, zijn vandaag beschikbaar voor gebruik in de cloud, datacenter, edge en pc.

Vanuit een browser kunnen ontwikkelaars Llama 3 proberen op ai.nvidia.com. Het is verpakt als een NVIDIA NIM-microservice met een standaard application programming interface die overal kan worden ingezet.

Bedrijven kunnen Llama 3 verfijnen met hun gegevens met behulp van NVIDIA NeMo, een open-sourceframework voor LLM's dat deel uitmaakt van het veilige, ondersteunde NVIDIA AI Enterprise-platform. Aangepaste modellen kunnen worden geoptimaliseerd voor inferentie met NVIDIA TensorRT-LLM en geïmplementeerd met NVIDIA Triton Inference Server.

Llama 3 draait ook op NVIDIA Jetson Orin voor robotica en edge computing-apparaten, waardoor interactieve agenten ontstaan ​​zoals die in het Jetson AI Lab.

Bovendien kunnen NVIDIA RTX- en GeForce RTX-GPU's voor werkstations en pc's de snelheid infereren op Llama 3. Deze systemen bieden ontwikkelaars een doelwit van meer dan 100 miljoen NVIDIA-versnelde systemen 

Best practices bij het inzetten van een LLM voor een chatbot omvatten een balans tussen lage latentie, goede leessnelheid en optimaal GPU-gebruik om de kosten te verlagen.

Zo'n dienst moet tokens leveren – het ruwe equivalent van woorden voor een LLM – met ongeveer tweemaal de leessnelheid van een gebruiker, namelijk ongeveer 10 tokens/seconde.

Door deze statistieken toe te passen, genereerde een enkele NVIDIA H200 Tensor Core GPU ongeveer 3,000 tokens/seconde – genoeg om ongeveer 300 gelijktijdige gebruikers te bedienen – in een eerste test met de versie van Llama 3 met 70 miljard parameters.

Dat betekent dat een enkele NVIDIA HGX-server met acht H200 GPU's 24,000 tokens/seconde kan leveren, waardoor de kosten verder worden geoptimaliseerd door meer dan 2,400 gebruikers tegelijkertijd te ondersteunen.

Voor edge-apparaten genereerde de versie van Llama 3 met acht miljard parameters tot 40 tokens/seconde op Jetson AGX Orin en 15 tokens/seconde op Jetson Orin Nano.