Phiên bản tăng tốc của Llama 3 được tối ưu hóa cho GPU Nvidia

Cập nhật: ngày 20 tháng 2024 năm XNUMX tags:kiến trúcsinh tháieliclt

Các nhà phát triển hiện có thể truy cập Llama 3 tại ai.nvidia.com, nơi Llama XNUMX được cung cấp dưới dạng vi dịch vụ NVIDIA NIM với API tiêu chuẩn để triển khai linh hoạt.

Meta tiết lộ các kỹ sư của họ đã đào tạo Llama 3 trên cụm máy tính gồm 24,576 GPU NVIDIA H100 Tensor Core, được liên kết với mạng NVIDIA Quantum-2 InfiniBand.

Các kỹ sư của Meta đã đào tạo Llama 3 trên một cụm máy tính chứa 24,576 GPU NVIDIA H100 Tensor Core, được liên kết với mạng NVIDIA Quantum-2 InfiniBand. Với sự hỗ trợ từ NVIDIA, Meta đã điều chỉnh kiến ​​trúc mạng, phần mềm và mô hình cho LLM hàng đầu của mình.

Để nâng cao hơn nữa công nghệ tiên tiến trong lĩnh vực AI sáng tạo, Meta gần đây đã mô tả kế hoạch mở rộng cơ sở hạ tầng của mình lên 350,000 GPU H100.

Các phiên bản của Llama 3, được tăng tốc trên GPU NVIDIA, hiện có sẵn để sử dụng trên đám mây, trung tâm dữ liệu, biên và PC.

Từ trình duyệt, các nhà phát triển có thể dùng thử Llama 3 tại ai.nvidia.com. Nó được đóng gói dưới dạng microservice NVIDIA NIM với giao diện lập trình ứng dụng tiêu chuẩn có thể được triển khai ở mọi nơi.

Các doanh nghiệp có thể tinh chỉnh Llama 3 bằng dữ liệu của họ bằng cách sử dụng NVIDIA NeMo, một khung nguồn mở dành cho LLM, một phần của nền tảng NVIDIA AI Enterprise được hỗ trợ, an toàn. Các mô hình tùy chỉnh có thể được tối ưu hóa cho hoạt động suy luận với NVIDIA TensorRT-LLM và được triển khai với NVIDIA Triton Inference Server.

Llama 3 cũng chạy trên NVIDIA Jetson Orin dành cho robot và các thiết bị điện toán biên, tạo ra các tác nhân tương tác giống như các tác nhân trong Phòng thí nghiệm AI Jetson.

Hơn nữa, GPU NVIDIA RTX và GeForce RTX dành cho máy trạm và PC tăng tốc độ suy luận trên Llama 3. Các hệ thống này đặt ra cho các nhà phát triển mục tiêu hơn 100 triệu hệ thống được tăng tốc bởi NVIDIA 

Các phương pháp hay nhất trong việc triển khai LLM cho chatbot bao gồm sự cân bằng giữa độ trễ thấp, tốc độ đọc tốt và sử dụng GPU tối ưu để giảm chi phí.

Dịch vụ như vậy cần phân phối mã thông báo - tương đương với các từ cho LLM - với tốc độ đọc gấp đôi tốc độ đọc của người dùng, tức là khoảng 10 mã thông báo/giây.

Áp dụng các số liệu này, một GPU NVIDIA H200 Tensor Core duy nhất đã tạo ra khoảng 3,000 token/giây — đủ để phục vụ khoảng 300 người dùng đồng thời — trong thử nghiệm ban đầu sử dụng phiên bản Llama 3 với 70 tỷ tham số.

Điều đó có nghĩa là một máy chủ NVIDIA HGX với 200 GPU H24,000 có thể cung cấp 2,400 token/giây, tối ưu hóa chi phí hơn nữa bằng cách hỗ trợ hơn XNUMX người dùng cùng lúc.

Đối với các thiết bị biên, phiên bản Llama 3 với 40 tỷ thông số tạo ra tới 15 token/giây trên Jetson AGX Orin và XNUMX token/giây trên Jetson Orin Nano.