Nvidia GPU에 최적화된 Llama 3의 가속 버전

개발자는 이제 ai.nvidia.com에서 Llama 3에 액세스할 수 있습니다. Llama XNUMX는 배포 유연성을 위한 표준 API를 갖춘 NVIDIA NIM 마이크로서비스로 제공됩니다.

Meta는 자사 엔지니어들이 NVIDIA Quantum-3 InfiniBand 네트워크와 연결된 24,576개의 NVIDIA H100 Tensor Core GPU로 구성된 컴퓨터 클러스터에서 Llama 2를 교육했다고 밝혔습니다.

Meta 엔지니어들은 NVIDIA Quantum-3 InfiniBand 네트워크와 연결된 24,576개의 NVIDIA H100 Tensor Core GPU를 포함하는 컴퓨터 클러스터에서 Llama 2를 교육했습니다. NVIDIA의 지원을 받아 Meta는 주력 LLM을 위한 네트워크, 소프트웨어 및 모델 아키텍처를 조정했습니다.

Meta는 생성 AI 분야의 최첨단 기술을 더욱 발전시키기 위해 최근 인프라를 350,000개의 H100 GPU로 확장할 계획을 설명했습니다.

NVIDIA GPU에서 가속화된 Llama 3 버전은 오늘부터 클라우드, 데이터 센터, 엣지 및 PC에서 사용할 수 있습니다.

개발자는 ai.nvidia.com에서 브라우저를 통해 Llama 3를 사용해 볼 수 있습니다. 어디든 배포할 수 있는 표준 애플리케이션 프로그래밍 인터페이스를 갖춘 NVIDIA NIM 마이크로서비스로 패키지되어 있습니다.

기업은 안전하게 지원되는 NVIDIA AI 엔터프라이즈 플랫폼의 일부인 LLM용 오픈 소스 프레임워크인 NVIDIA NeMo를 사용하여 데이터로 Llama 3를 미세 조정할 수 있습니다. 맞춤형 모델은 NVIDIA TensorRT-LLM을 통한 추론에 최적화되고 NVIDIA Triton Inference Server와 함께 배포될 수 있습니다.

Llama 3는 또한 로봇공학 및 엣지 컴퓨팅 장치용 NVIDIA Jetson Orin에서 실행되어 Jetson AI Lab과 같은 대화형 에이전트를 생성합니다.

게다가 워크스테이션 및 PC용 NVIDIA RTX 및 GeForce RTX GPU는 Llama 3에서 추론 속도를 높입니다. 이러한 시스템은 개발자에게 100억 개 이상의 NVIDIA 가속 시스템 목표를 제공합니다.

챗봇용 LLM 배포의 모범 사례에는 비용 절감을 위한 낮은 대기 시간, 우수한 읽기 속도 및 최적의 GPU 사용 간의 균형이 포함됩니다.

이러한 서비스는 LLM의 대략적인 단어에 해당하는 토큰을 사용자 읽기 속도(초당 약 10개 토큰)의 두 배 속도로 전달해야 합니다.

이러한 지표를 적용하여 단일 NVIDIA H200 Tensor 코어 GPU는 3,000억 개의 매개변수가 있는 Llama 300 버전을 사용한 초기 테스트에서 약 3명의 동시 사용자에게 서비스를 제공하기에 충분한 초당 약 70개의 토큰을 생성했습니다.

즉, 200개의 H24,000 GPU가 장착된 단일 NVIDIA HGX 서버는 초당 2,400개의 토큰을 제공할 수 있으며, 동시에 XNUMX명 이상의 사용자를 지원하여 비용을 더욱 최적화할 수 있습니다.

엣지 장치의 경우 3억 개의 매개변수가 포함된 Llama 40 버전은 Jetson AGX Orin에서 초당 최대 15개의 토큰을 생성하고 Jetson Orin Nano에서는 초당 XNUMX개의 토큰을 생성합니다.