Nvidia GPU 向けに最適化された Llama 3 のアクセラレーションバージョン |シュンロンウェイ株式会社

開発者は、ai.nvidia.com で Llama 3 にアクセスできるようになりました。Llama XNUMX は、導入の柔軟性を高める標準 API を備えた NVIDIA NIM マイクロサービスとして提供されています。

Meta は、同社のエンジニアが、NVIDIA Quantum-3 InfiniBand ネットワークにリンクされた 24,576 個の NVIDIA H100 Tensor コア GPU のコンピュータークラスター上で Llama 2 をトレーニングしたことを明らかにしました。

メタエンジニアは、NVIDIA Quantum-3 InfiniBand ネットワークにリンクされた 24,576 個の NVIDIA H100 Tensor コア GPU を搭載したコンピュータークラスター上で Llama 2 をトレーニングしました。 NVIDIA のサポートを受けて、Meta は主力 LLM 向けにネットワーク、ソフトウェア、モデルアーキテクチャを調整しました。

生成 AI の最先端技術をさらに推進するために、Meta は最近、自社のインフラストラクチャを 350,000 個の H100 GPU に拡張する計画について説明しました。

NVIDIA GPU で高速化された Llama 3 のバージョンは、クラウド、データセンター、エッジ、PC で使用できるようになりました。

開発者は、ブラウザから ai.nvidia.com で Llama 3 を試すことができます。これは、どこにでも展開できる標準のアプリケーションプログラミングインターフェイスを備えた NVIDIA NIM マイクロサービスとしてパッケージ化されています。

企業は、安全でサポートされている NVIDIA AI Enterprise プラットフォームの一部である LLM 用のオープンソースフレームワークである NVIDIA NeMo を使用して、データを使用して Llama 3 を微調整できます。カスタムモデルは、NVIDIA TensorRT-LLM を使用した推論用に最適化され、NVIDIA Triton Inference Server を使用して展開できます。

Llama 3 は、ロボット工学やエッジコンピューティングデバイス用の NVIDIA Jetson Orin 上でも実行され、Jetson AI Lab のような対話型エージェントを作成します。

さらに、ワークステーションおよび PC 用の NVIDIA RTX および GeForce RTX GPU により、Llama 3 での推論が高速化されます。これらのシステムにより、開発者は 100 億を超える NVIDIA アクセラレーションシステムを目標にできます。

チャットボットに LLM を導入するベストプラクティスには、コストを削減するための低遅延、良好な読み取り速度、および最適な GPU 使用のバランスが含まれます。

このようなサービスは、ユーザーの読み取り速度 (約 10 トークン/秒) の約 XNUMX 倍の速度でトークン (LLM への単語にほぼ相当するもの) を配信する必要があります。

これらのメトリクスを適用すると、200 億パラメータを持つ Llama 3,000 バージョンを使用した初期テストで、単一の NVIDIA H300 Tensor コア GPU が毎秒約 3 トークンを生成しました。これは約 70 人の同時ユーザーにサービスを提供するのに十分な量です。

つまり、200 つの H24,000 GPU を搭載した 2,400 台の NVIDIA HGX サーバーで XNUMX トークン/秒を配信でき、同時に XNUMX 人を超えるユーザーをサポートすることでコストをさらに最適化できます。

エッジデバイスの場合、3 億パラメータを備えたバージョンの Llama 40 は、Jetson AGX Orin では最大 15 トークン/秒、Jetson Orin Nano では最大 XNUMX トークン/秒を生成しました。

Nvidia GPU 向けに最適化された Llama 3 のアクセラレーション バージョン

Nvidia GPU 向けに最適化された Llama 3 のアクセラレーションバージョン