Versi akselerasi Llama 3 yang dioptimalkan untuk GPU Nvidia

Pembaruan: 20 April 2024 Tags:arsitekturekoeliclt

Pengembang kini dapat mengakses Llama 3 di ai.nvidia.com, yang ditawarkan sebagai layanan mikro NVIDIA NIM dengan API standar untuk fleksibilitas penerapan.

Meta mengungkapkan para insinyurnya melatih Llama 3 pada cluster komputer yang terdiri dari 24,576 GPU NVIDIA H100 Tensor Core, yang terhubung dengan jaringan NVIDIA Quantum-2 InfiniBand.

Insinyur meta melatih Llama 3 pada cluster komputer yang mengemas 24,576 GPU NVIDIA H100 Tensor Core, yang terhubung dengan jaringan NVIDIA Quantum-2 InfiniBand. Dengan dukungan dari NVIDIA, Meta menyesuaikan arsitektur jaringan, perangkat lunak, dan modelnya untuk LLM andalannya.

Untuk lebih memajukan kecanggihan AI generatif, Meta baru-baru ini menjelaskan rencana untuk meningkatkan infrastrukturnya menjadi 350,000 GPU H100.

Versi Llama 3, yang diakselerasi pada GPU NVIDIA, saat ini tersedia untuk digunakan di cloud, pusat data, edge, dan PC.

Dari browser, pengembang dapat mencoba Llama 3 di ai.nvidia.com. Ini dikemas sebagai layanan mikro NVIDIA NIM dengan antarmuka pemrograman aplikasi standar yang dapat digunakan di mana saja.

Bisnis dapat menyempurnakan Llama 3 dengan data mereka menggunakan NVIDIA NeMo, kerangka kerja sumber terbuka untuk LLM yang merupakan bagian dari platform NVIDIA AI Enterprise yang aman dan didukung. Model khusus dapat dioptimalkan untuk inferensi dengan NVIDIA TensorRT-LLM dan diterapkan dengan NVIDIA Triton Inference Server.

Llama 3 juga berjalan pada NVIDIA Jetson Orin untuk robotika dan perangkat komputasi edge, menciptakan agen interaktif seperti yang ada di Jetson AI Lab.

Terlebih lagi, GPU NVIDIA RTX dan GeForce RTX untuk workstation dan PC melakukan inferensi kecepatan pada Llama 3. Sistem ini memberi pengembang target lebih dari 100 juta sistem yang dipercepat NVIDIA 

Praktik terbaik dalam menerapkan LLM untuk chatbot melibatkan keseimbangan latensi rendah, kecepatan membaca yang baik, dan penggunaan GPU yang optimal untuk mengurangi biaya.

Layanan semacam itu perlu mengirimkan token — setara dengan kata-kata ke LLM — dengan kecepatan sekitar dua kali lipat kecepatan membaca pengguna yaitu sekitar 10 token/detik.

Dengan menerapkan metrik ini, satu GPU NVIDIA H200 Tensor Core menghasilkan sekitar 3,000 token/detik — cukup untuk melayani sekitar 300 pengguna secara bersamaan — dalam pengujian awal menggunakan versi Llama 3 dengan 70 miliar parameter.

Artinya, satu server NVIDIA HGX dengan delapan GPU H200 dapat mengirimkan 24,000 token/detik, yang semakin mengoptimalkan biaya dengan mendukung lebih dari 2,400 pengguna secara bersamaan.

Untuk perangkat edge, versi Llama 3 dengan delapan miliar parameter menghasilkan hingga 40 token/detik pada Jetson AGX Orin dan 15 token/detik pada Jetson Orin Nano.