패키지 내 광학 상호 연결이 어떻게 칩렛 생성 AI 성능을 향상시킬 수 있습니까?

업데이트: 29년 2024월 XNUMX일 태그 :27a6a아키텍처환경elicltNECPCB트랜지스터

생성적 인공지능(AI)은 대량의 데이터를 신속하고 지속적으로 이동해야 합니다. 점점 더 많은 사례에서, 칩렛의 IC 간 전기 입출력(I/O) 연결이 더 높은 성능에 병목 현상을 일으키고 있습니다. 주요 전기 I/O 성능 장벽에는 전력 효율성, 대역폭 및 대기 시간이 포함됩니다.

이 FAQ에서는 오늘날 칩렛의 전기 I/O 대신 패키지 내 광학 I/O(IOI)를 사용하여 예상되는 이점을 살펴보고 최신 IOI 솔루션 및 기술을 살펴보는 것으로 마무리합니다.

IOI 솔루션은 데이터 센터의 전기 I/O를 대체하거나 보완하는 플러그형 광 트랜시버를 시작으로 광 상호 연결의 긴 발전 과정 중 최신 기술을 나타냅니다(그림 1). 예를 들어, 전기 직렬 변환기/직렬 변환기(SerDes)는 고속 연결의 일반적인 형태입니다. 직렬 데이터와 병렬 인터페이스 간의 데이터를 각 방향으로 변환하는 한 쌍의 블록으로 구성됩니다. 그러나 112Gbps(초당 기가비트)를 초과하는 것은 매우 어려운 일입니다. 구리 상호 연결의 큰 신호 손실로 인해 몇 센티미터 이상 떨어진 곳에서는 데이터를 전송하기가 어렵기 때문입니다. 칩렛에서 SerDes를 OIO로 교체하면 전기 I/O 병목 현상이 제거되고 데이터 전송 속도가 획기적으로 향상될 것으로 예상됩니다. I/O 성능 향상을 가로막는 중요한 장벽에는 전력 효율성, 대기 시간, 대역폭 밀도 및 도달 범위가 포함됩니다.

그림 1. 전기 I/O(하단)부터 IOI(상단)까지의 엔드투엔드 사용 I/O 옵션 범위(이미지: 에이어 연구소).

I/O 성능 장벽
전력 효율성은 생성 AI와 같은 고성능 컴퓨팅 애플리케이션에 매우 중요합니다. 112Gbps에서 기존 전기 I/O의 전력 효율은 비트당 약 6~10피코줄(pJ/b)입니다. 해당 데이터 속도로 패키지에서 인쇄 회로 기판 가장자리까지 도달하는 것은 가능하지만 많은 전력이 필요하고 열이 발생하며 시스템 효율성이 떨어집니다. 그림 1에 표시된 대로 PCB 가장자리 너머에 도달하려면 전기 I/O 플러그형 광 트랜시버와 활성 광 케이블이 혼합되어 있어야 합니다. IOI는 이러한 성능 수준을 개선해야 합니다.

지연 시간은 또 다른 성능 저하 요인입니다. 50Gbps 이상의 속도로 온보드 및 오프보드 전기 I/O를 사용하려면 대기 시간을 최대 100ns까지 늘릴 수 있는 순방향 오류 수정 코딩을 사용해야 합니다. 이는 생성 AI에 사용되는 것과 같은 분산 컴퓨팅 시스템에는 너무 많은 것입니다. 이러한 애플리케이션에서는 10ns 미만의 지연 시간이 필요합니다.

대역폭 밀도는 중요한 요소입니다. 이기종 칩렛은 높은 시스템 밀도가 요구되는 곳에 사용되며 여기에는 대역폭 밀도가 포함됩니다. 전기 I/O는 약 100Gbps/mm의 대역폭 밀도를 지원할 수 있습니다. SerDes의 한계는 약 200~500Gbps/mm입니다. 도달 거리가 길어지면 전력 및 열 패널티가 발생하므로 대부분의 응용 분야에서 비실용적인 솔루션이 됩니다. 반면 IOI는 현재 약 200Gbps/mm를 제공할 수 있으며 로드맵에서는 향후 1Tbps/mm를 달성할 것으로 예상됩니다.

도달 범위는 I/O의 종단 간 거리입니다. 칩렛에서 필요한 도달 범위는 일반적으로 10mm 미만입니다. PCB에서는 도달 거리가 최대 50mm이고, 데이터 센터에서는 도달 거리가 1,000mm를 초과할 수 있습니다. 전기 I/O는 짧은 도달 거리를 지원할 수 있지만, 더 먼 거리는 광통신을 사용해야 합니다. 장거리 도달을 위해 패키지 내부 또는 PCB의 전기 통신 간을 광학 통신으로 전환하는 것은 비효율적이며 비용이 많이 듭니다. 선호되는 솔루션은 내부 칩렛 통신과 데이터 센터 전체 연결에 IOI를 사용하는 것입니다.

여러 공급업체에서 IOI 솔루션을 발표했습니다. 어떤 경우에는 이종 칩렛에 사용하기 위해 웨이퍼 규모의 프로그래밍 가능 광자 상호 연결 패브릭이 개발되었습니다. 이 디자인은 기존 광섬유가 차지하는 동일한 공간에서 40개의 전환 가능한 광자 레인을 지원합니다. 초기 구현에서는 최대 1인치 정사각형 기판의 최대 48개 이기종 IC의 어레이 전반에 걸쳐 8Tbps의 속도를 지원할 것으로 예상되며 최대 대기 시간은 5ns이고 대체 전기 I/O에 비해 전력 소비도 낮습니다(그림 2). 이 아키텍처는 최대 100Tbps의 대역폭으로 확장될 것으로 예상됩니다.

그림 2. 웨이퍼 규모 프로그래밍 가능 IOI 솔루션의 구조(이미지: ServeTheHome).

두 번째 접근 방식은 실리콘 포토닉스와 표준 CMOS 처리를 결합하여 전기 I/O 전력 소비의 1000%로 최대 10배 더 높은 대역폭 밀도를 제공하는 다중 파장 광원을 사용합니다(표 1). 이 솔루션은 대용량 GlobalFoundries 45나노미터 프로세스를 사용하여 수백만 개의 트랜지스터와 수백 개의 광자 장치를 통합합니다.

표 1. 칩렛의 IOI에 대한 예상 성능의 예(표: 에이어 연구소).

요약
고급 생성 AI 및 기타 고성능 컴퓨팅(HPC) 애플리케이션의 I/O 요구 사항은 전기 기반 솔루션의 기능을 초과합니다. 결과적으로 전력 효율성, 대기 시간, 대역폭 효율성을 지원하고 HPC 애플리케이션의 요구 사항에 도달할 수 있는 IOI 기술이 개발되고 있습니다.

참고자료
이종 통합 로드맵, 2023년판, 9장: 통합 포토닉스, IEEE
Lightmatter Passage는 Chiplet 시대인 ServeTheHome에 공동 패키지 광학 및 실리콘 포토닉스를 제공합니다.
AI/ML 애플리케이션을 갖춘 대규모 데이터 센터용 광 상호 연결, Amphen
마침내 실리콘 포토닉스에서 빛을 본 광학 인터커넥트: 과장된 광고를 넘어서 MDPI 나노물질
포토닉스 기조 연설: 전기 I/O에서 광학 I/O로 전환, 케이던스
CMOS 온칩 통합을 위한 다결정 실리콘 phc 캐비티, 과학 보고서
Ayer Labs, 광학 I/O를 통한 생성적 AI 아키텍처 재검토