Versioni accelerate di Llama 3 ottimizzate per GPU Nvidia

Aggiornamento: 20 aprile 2024 Tag:architetturaecoeliclt

Gli sviluppatori possono ora accedere a Llama 3 su ai.nvidia.com, dove viene offerto come microservizio NVIDIA NIM con un'API standard per la flessibilità di implementazione.

Meta ha rivelato che i suoi ingegneri hanno addestrato Llama 3 su un cluster di computer di 24,576 GPU NVIDIA H100 Tensor Core, collegate a una rete NVIDIA Quantum-2 InfiniBand.

Gli ingegneri di Meta hanno addestrato Llama 3 su un cluster di computer contenente 24,576 GPU NVIDIA H100 Tensor Core, collegate a una rete NVIDIA Quantum-2 InfiniBand. Con il supporto di NVIDIA, Meta ha ottimizzato la rete, il software e le architetture dei modelli per il suo LLM di punta.

Per far avanzare ulteriormente lo stato dell’arte dell’intelligenza artificiale generativa, Meta ha recentemente descritto i piani per scalare la propria infrastruttura fino a 350,000 GPU H100.

Le versioni di Llama 3, accelerate su GPU NVIDIA, sono oggi disponibili per l'utilizzo su cloud, data center, edge e PC.

Da un browser, gli sviluppatori possono provare Llama 3 su ai.nvidia.com. È confezionato come microservizio NVIDIA NIM con un'interfaccia di programmazione delle applicazioni standard che può essere distribuito ovunque.

Le aziende possono ottimizzare Llama 3 con i propri dati utilizzando NVIDIA NeMo, un framework open source per LLM che fa parte della piattaforma NVIDIA AI Enterprise sicura e supportata. I modelli personalizzati possono essere ottimizzati per l'inferenza con NVIDIA TensorRT-LLM e distribuiti con NVIDIA Triton Inference Server.

Llama 3 funziona anche su NVIDIA Jetson Orin per dispositivi di robotica e edge computing, creando agenti interattivi come quelli del Jetson AI Lab.

Inoltre, le GPU NVIDIA RTX e GeForce RTX per workstation e PC velocizzano l'inferenza su Llama 3. Questi sistemi offrono agli sviluppatori un obiettivo di oltre 100 milioni di sistemi accelerati da NVIDIA 

Le migliori pratiche nell'implementazione di un LLM per un chatbot implicano un equilibrio tra bassa latenza, buona velocità di lettura e utilizzo ottimale della GPU per ridurre i costi.

Un servizio di questo tipo deve fornire token – l'equivalente approssimativo di parole per un LLM – a circa il doppio della velocità di lettura di un utente, ovvero circa 10 token/secondo.

Applicando questi parametri, una singola GPU NVIDIA H200 Tensor Core ha generato circa 3,000 token al secondo, sufficienti per servire circa 300 utenti simultanei, in un test iniziale utilizzando la versione di Llama 3 con 70 miliardi di parametri.

Ciò significa che un singolo server NVIDIA HGX con otto GPU H200 potrebbe fornire 24,000 token al secondo, ottimizzando ulteriormente i costi supportando più di 2,400 utenti contemporaneamente.

Per i dispositivi edge, la versione di Llama 3 con otto miliardi di parametri ha generato fino a 40 token/secondo su Jetson AGX Orin e 15 token/secondo su Jetson Orin Nano.