Ускоренные версии Llama 3, оптимизированные для графических процессоров Nvidia

Обновление: 20 апреля 2024 г. Теги: архитектураэкоeliclt

Теперь разработчики могут получить доступ к Llama 3 на сайте ai.nvidia.com, где она предлагается в виде микросервиса NVIDIA NIM со стандартным API для обеспечения гибкости развертывания.

Meta сообщила, что ее инженеры обучали Llama 3 на компьютерном кластере из 24,576 100 графических процессоров NVIDIA H2 с тензорными ядрами, связанных с сетью NVIDIA Quantum-XNUMX InfiniBand.

Мета-инженеры обучали Llama 3 на компьютерном кластере, состоящем из 24,576 100 графических процессоров NVIDIA H2 с тензорными ядрами, подключенных к сети NVIDIA Quantum-XNUMX InfiniBand. При поддержке NVIDIA компания Meta настроила свою сеть, программное обеспечение и архитектуру моделей для своего флагманского LLM.

В целях дальнейшего развития современных технологий в области генеративного искусственного интеллекта компания Meta недавно описала планы по масштабированию своей инфраструктуры до 350,000 100 графических процессоров HXNUMX.

Версии Llama 3, ускоренные на графических процессорах NVIDIA, доступны уже сегодня для использования в облаке, центрах обработки данных, периферийных устройствах и на ПК.

Разработчики могут попробовать Llama 3 в браузере на сайте ai.nvidia.com. Он упакован как микросервис NVIDIA NIM со стандартным интерфейсом программирования приложений, который можно развернуть где угодно.

Предприятия могут точно настроить Llama 3 на основе своих данных с помощью NVIDIA NeMo, платформы с открытым исходным кодом для LLM, которая является частью безопасной и поддерживаемой платформы NVIDIA AI Enterprise. Пользовательские модели можно оптимизировать для вывода с помощью NVIDIA TensorRT-LLM и развернуть с помощью сервера вывода NVIDIA Triton.

Llama 3 также работает на NVIDIA Jetson Orin для робототехники и периферийных вычислительных устройств, создавая интерактивные агенты, аналогичные тем, что используются в Jetson AI Lab.

Более того, графические процессоры NVIDIA RTX и GeForce RTX для рабочих станций и ПК ускоряют вывод на Llama 3. Эти системы дают разработчикам цель создать более 100 миллионов систем с ускорением NVIDIA. 

Лучшие практики развертывания LLM для чат-бота включают баланс низкой задержки, хорошей скорости чтения и оптимального использования графического процессора для снижения затрат.

Такая служба должна доставлять токены — грубый эквивалент слов в LLM — примерно в два раза быстрее скорости чтения пользователя, которая составляет около 10 токенов в секунду.

Применяя эти показатели, один графический процессор NVIDIA H200 с тензорными ядрами генерировал около 3,000 токенов в секунду — этого достаточно для одновременного обслуживания около 300 пользователей — в первоначальном тесте с использованием версии Llama 3 с 70 миллиардами параметров.

Это означает, что один сервер NVIDIA HGX с восемью графическими процессорами H200 может доставлять 24,000 2,400 токенов в секунду, что дополнительно оптимизирует затраты за счет одновременной поддержки более XNUMX пользователей.

Для периферийных устройств версия Llama 3 с восемью миллиардами параметров генерирует до 40 токенов в секунду на Jetson AGX Orin и 15 токенов в секунду на Jetson Orin Nano.