Versi dipercepatkan Llama 3 dioptimumkan untuk GPU Nvidia

Kemas kini: 20 April 2024 Tags:seni binaekoeliclt

Pembangun kini boleh mengakses Llama 3 di ai.nvidia.com, di mana ia ditawarkan sebagai perkhidmatan mikro NVIDIA NIM dengan API standard untuk fleksibiliti penggunaan.

Meta mendedahkan juruteranya melatih Llama 3 pada kluster komputer 24,576 NVIDIA H100 Tensor Core GPUs, dipautkan dengan rangkaian NVIDIA Quantum-2 InfiniBand.

Jurutera meta melatih Llama 3 pada kluster komputer yang membungkus 24,576 NVIDIA H100 Tensor Core GPU, dipautkan dengan rangkaian NVIDIA Quantum-2 InfiniBand. Dengan sokongan daripada NVIDIA, Meta menala rangkaian, perisian dan seni bina modelnya untuk LLM perdananya.

Untuk memajukan lagi keadaan seni dalam AI generatif, Meta baru-baru ini menerangkan rancangan untuk meningkatkan infrastrukturnya kepada 350,000 GPU H100.

Versi Llama 3, dipercepatkan pada GPU NVIDIA, tersedia hari ini untuk digunakan dalam awan, pusat data, edge dan PC.

Daripada pelayar, pembangun boleh mencuba Llama 3 di ai.nvidia.com. Ia dibungkus sebagai perkhidmatan mikro NVIDIA NIM dengan antara muka pengaturcaraan aplikasi standard yang boleh digunakan di mana-mana sahaja.

Perniagaan boleh memperhalusi Llama 3 dengan data mereka menggunakan NVIDIA NeMo, rangka kerja sumber terbuka untuk LLM yang merupakan sebahagian daripada platform NVIDIA AI Enterprise yang selamat dan disokong. Model tersuai boleh dioptimumkan untuk inferens dengan NVIDIA TensorRT-LLM dan digunakan dengan NVIDIA Triton Inference Server.

Llama 3 juga berjalan pada NVIDIA Jetson Orin untuk robotik dan peranti pengkomputeran tepi, mewujudkan ejen interaktif seperti yang terdapat di Jetson AI Lab.

Lebih-lebih lagi, GPU NVIDIA RTX dan GeForce RTX untuk stesen kerja dan inferens kelajuan PC pada Llama 3. Sistem ini memberikan pemaju sasaran lebih daripada 100 juta sistem dipercepatkan NVIDIA 

Amalan terbaik dalam menggunakan LLM untuk chatbot melibatkan keseimbangan kependaman rendah, kelajuan bacaan yang baik dan penggunaan GPU yang optimum untuk mengurangkan kos.

Perkhidmatan sedemikian perlu menghantar token — persamaan kasar perkataan kepada LLM — pada kira-kira dua kali kelajuan membaca pengguna iaitu kira-kira 10 token/saat.

Menggunakan metrik ini, satu GPU NVIDIA H200 Tensor Core menjana kira-kira 3,000 token/saat — cukup untuk melayani kira-kira 300 pengguna serentak — dalam ujian awal menggunakan versi Llama 3 dengan 70 bilion parameter.

Ini bermakna pelayan NVIDIA HGX tunggal dengan lapan GPU H200 boleh menyampaikan 24,000 token/saat, seterusnya mengoptimumkan kos dengan menyokong lebih daripada 2,400 pengguna pada masa yang sama.

Untuk peranti tepi, versi Llama 3 dengan lapan bilion parameter menjana sehingga 40 token/saat pada Jetson AGX Orin dan 15 token/saat pada Jetson Orin Nano.