Versiones aceleradas de Llama 3 optimizadas para GPU Nvidia

Actualización: 20 de abril de 2024 Tags:arquitecturaecoeliclt

Los desarrolladores ahora pueden acceder a Llama 3 en ai.nvidia.com, donde se ofrece como un microservicio NVIDIA NIM con una API estándar para flexibilidad de implementación.

Meta reveló que sus ingenieros entrenaron Llama 3 en un grupo de computadoras de 24,576 GPU NVIDIA H100 Tensor Core, conectadas con una red NVIDIA Quantum-2 InfiniBand.

Los metaingenieros entrenaron a Llama 3 en un grupo de computadoras que incluye 24,576 GPU NVIDIA H100 Tensor Core, conectadas con una red NVIDIA Quantum-2 InfiniBand. Con el apoyo de NVIDIA, Meta ajustó sus arquitecturas de red, software y modelos para su LLM insignia.

Para avanzar aún más en el estado del arte en IA generativa, Meta describió recientemente planes para escalar su infraestructura a 350,000 GPU H100.

Las versiones de Llama 3, aceleradas en GPU NVIDIA, están disponibles hoy para su uso en la nube, el centro de datos, el perímetro y la PC.

Desde un navegador, los desarrolladores pueden probar Llama 3 en ai.nvidia.com. Está empaquetado como un microservicio NVIDIA NIM con una interfaz de programación de aplicaciones estándar que se puede implementar en cualquier lugar.

Las empresas pueden ajustar Llama 3 con sus datos utilizando NVIDIA NeMo, un marco de código abierto para LLM que forma parte de la plataforma segura y compatible con NVIDIA AI Enterprise. Los modelos personalizados se pueden optimizar para la inferencia con NVIDIA TensorRT-LLM e implementar con NVIDIA Triton Inference Server.

Llama 3 también se ejecuta en NVIDIA Jetson Orin para robótica y dispositivos informáticos de vanguardia, creando agentes interactivos como los del Jetson AI Lab.

Además, las GPU NVIDIA RTX y GeForce RTX para estaciones de trabajo y PC aceleran la inferencia en Llama 3. Estos sistemas ofrecen a los desarrolladores un objetivo de más de 100 millones de sistemas acelerados por NVIDIA. 

Las mejores prácticas en la implementación de un LLM para un chatbot implican un equilibrio entre baja latencia, buena velocidad de lectura y uso óptimo de GPU para reducir costos.

Un servicio de este tipo necesita entregar tokens (el equivalente aproximado de palabras para un LLM) a aproximadamente el doble de la velocidad de lectura del usuario, que es aproximadamente 10 tokens/segundo.

Aplicando estas métricas, una sola GPU NVIDIA H200 Tensor Core generó alrededor de 3,000 tokens/segundo (suficiente para atender a unos 300 usuarios simultáneos) en una prueba inicial utilizando la versión de Llama 3 con 70 mil millones de parámetros.

Eso significa que un único servidor NVIDIA HGX con ocho GPU H200 podría entregar 24,000 tokens/segundo, optimizando aún más los costos al admitir a más de 2,400 usuarios al mismo tiempo.

Para dispositivos de borde, la versión de Llama 3 con ocho mil millones de parámetros generó hasta 40 tokens/segundo en Jetson AGX Orin y 15 tokens/segundo en Jetson Orin Nano.