Blackwell GPU는 Hopper 아키텍처를 공유하지만 성능을 향상시킵니다.

업데이트: 19년 2024월 XNUMX일 태그 :아키텍처환경elicltNEC

황은 1.8조 매개변수 AI를 민주화하여 가속 컴퓨팅의 XNUMX조 XNUMX천억 매개변수 컴퓨팅 성능을 충족할 것이라고 약속했습니다.

San Jose Sharks 아이스하키팀의 홈구장에서 Jensen Huang은 중앙 무대에 올라 Blackwell 플랫폼, 즉 2세대 변압기 엔진과 회사의 5세대 NVLINK 고속 GPU 상호 연결을 갖춘 AI 슈퍼칩을 발표했습니다.

20조 매개변수 규모로 작동할 수 있는 생성 AI를 민주화하기 위해 구축되었습니다. 수학자이자 게임 이론가인 David Blackwell의 이름을 딴 Blackwell AI는 단일 GPU에서 4PFLOPS(FP10) 또는 8PFLOPS FP192의 AI 성능을 제공합니다. 설계 기준 중 하나는 단일 통합 CUDA GPU로 작동하는 레티클 크기의 다이 3개입니다. 이는 분리나 프로그래밍 변경 없이 뇌의 오른쪽과 왼쪽을 연결하는 것과 유사한 전체적인 아키텍처를 위한 새로운 종류의 슈퍼칩을 나타냅니다. 또한 8GB HBM1.18e 및 30TBps HBM 대역폭과 25TBps NVLINK를 제공합니다. AI의 경우 이전 세대에 비해 훈련은 XNUMX배, 추론은 XNUMX배, 에너지 효율성은 XNUMX배 향상되었다고 황은 확인했습니다.

빠른 메모리는 192GB HBM3e입니다. 이 조합은 '슈퍼칩'이 AI 데이터센터 규모를 100 GPU 이상으로 확장할 수 있음을 의미합니다.

또 다른 혁신은 이번 주 산호세에서 열린 GTC에서도 발표된 4세대 변압기 엔진을 지원하는 능력이라고 Huang은 말했습니다. 이를 통해 모든 텐서 레이어의 모든 수준을 추적하고 성능을 조정하여 지능형 XNUMX비트 정밀도로 처리량을 가속화할 수 있습니다.