Nvidia GPU 向けに最適化された Llama 3 のアクセラレーション バージョン

更新日: 20 年 2024 月 XNUMX 日 タグ:建築エコeliclt

開発者は、ai.nvidia.com で Llama 3 にアクセスできるようになりました。Llama XNUMX は、導入の柔軟性を高める標準 API を備えた NVIDIA NIM マイクロサービスとして提供されています。

Meta は、同社のエンジニアが、NVIDIA Quantum-3 InfiniBand ネットワークにリンクされた 24,576 個の NVIDIA H100 Tensor コア GPU のコンピューター クラスター上で Llama 2 をトレーニングしたことを明らかにしました。

メタ エンジニアは、NVIDIA Quantum-3 InfiniBand ネットワークにリンクされた 24,576 個の NVIDIA H100 Tensor コア GPU を搭載したコンピューター クラスター上で Llama 2 をトレーニングしました。 NVIDIA のサポートを受けて、Meta は主力 LLM 向けにネットワーク、ソフトウェア、モデル アーキテクチャを調整しました。

生成 AI の最先端技術をさらに推進するために、Meta は最近、自社のインフラストラクチャを 350,000 個の H100 GPU に拡張する計画について説明しました。

NVIDIA GPU で高速化された Llama 3 のバージョンは、クラウド、データセンター、エッジ、PC で使用できるようになりました。

開発者は、ブラウザから ai.nvidia.com で Llama 3 を試すことができます。これは、どこにでも展開できる標準のアプリケーション プログラミング インターフェイスを備えた NVIDIA NIM マイクロサービスとしてパッケージ化されています。

企業は、安全でサポートされている NVIDIA AI Enterprise プラットフォームの一部である LLM 用のオープンソース フレームワークである NVIDIA NeMo を使用して、データを使用して Llama 3 を微調整できます。カスタム モデルは、NVIDIA TensorRT-LLM を使用した推論用に最適化され、NVIDIA Triton Inference Server を使用して展開できます。

Llama 3 は、ロボット工学やエッジ コンピューティング デバイス用の NVIDIA Jetson Orin 上でも実行され、Jetson AI Lab のような対話型エージェントを作成します。

さらに、ワークステーションおよび PC 用の NVIDIA RTX および GeForce RTX GPU により、Llama 3 での推論が高速化されます。これらのシステムにより、開発者は 100 億を超える NVIDIA アクセラレーション システムを目標にできます。 

チャットボットに LLM を導入するベスト プラクティスには、コストを削減するための低遅延、良好な読み取り速度、および最適な GPU 使用のバランスが含まれます。

このようなサービスは、ユーザーの読み取り速度 (約 10 トークン/秒) の約 XNUMX 倍の速度でトークン (LLM への単語にほぼ相当するもの) を配信する必要があります。

これらのメトリクスを適用すると、200 億パラメータを持つ Llama 3,000 バージョンを使用した初期テストで、単一の NVIDIA H300 Tensor コア GPU が毎秒約 3 トークンを生成しました。これは約 70 人の同時ユーザーにサービスを提供するのに十分な量です。

つまり、200 つの H24,000 GPU を搭載した 2,400 台の NVIDIA HGX サーバーで XNUMX トークン/秒を配信でき、同時に XNUMX 人を超えるユーザーをサポートすることでコストをさらに最適化できます。

エッジ デバイスの場合、3 億パラメータを備えたバージョンの Llama 40 は、Jetson AGX Orin では最大 15 トークン/秒、Jetson Orin Nano では最大 XNUMX トークン/秒を生成しました。