パッケージ内の光インターコネクトはチップレット生成 AI のパフォーマンスをどのように強化できるでしょうか?

生成人工知能 (AI) では、大量のデータを迅速かつ継続的に移動する必要があります。チップレット内の IC 間の電気入出力 (I/O) 接続が、パフォーマンス向上のボトルネックになる例が増えています。主要な電気 I/O パフォーマンスの障壁には、電力効率、帯域幅、待ち時間が含まれます。

この FAQ では、今日のチップレットの電気 I/O の代わりにパッケージ内光 I/O (IOI) を使用することで予想される利点を検討し、新しい IOI ソリューションとテクノロジを見て終わります。

IOI ソリューションは、データセンターの電気 I/O を置き換えたり補完したりするプラガブル光トランシーバーから始まった、光インターコネクトにおける長い進歩の最新のものです (図1)。たとえば、電気的シリアライザー/デシリアライザー (SerDes) は高速接続の一般的な形式です。これは、シリアル データとパラレル インターフェイスの間で各方向にデータを変換する 112 対のブロックで構成されます。ただし、XNUMX ギガビット/秒 (Gbps) を超えることは非常に困難です。銅の相互接続での大きな信号損失により、数センチメートルより遠くにデータを送信することが困難になるためです。チップレットで SerDes を OIO に置き換えることにより、電気的な I/O ボトルネックが解消され、データ伝送速度が劇的に向上すると期待されています。 I/O パフォーマンスの向上に対する重大な障壁には、電力効率、遅延、帯域幅密度と到達範囲が含まれます。

図 1. 電気 I/O のエンドツーエンド使用 (下) から IOI (上) までの I/O オプションの範囲 (画像: エアー研究所).

I/O パフォーマンスの障壁
電力効率は、生成 AI などのハイパフォーマンス コンピューティング アプリケーションにとって重要です。 112 Gbps での既存の電気 I/O の電力効率は、ビットあたり約 6 ~ 10 ピコ ジュール (pJ/b) です。そのデータレートでパッケージからプリント基板の端まで到達することは可能ですが、大量の電力が必要となり、熱が発生し、システム効率が低下します。図 1 に示されているように、PCB のエッジを越えて到達するには、電気 I/O プラグ可能光トランシーバーとアクティブな光ケーブルを組み合わせる必要があります。 IOI はこれらのパフォーマンス レベルを向上させる必要があります。

レイテンシもパフォーマンスを低下させる原因となります。 50 Gbps を超える速度でのオンボードおよびオフボードの電気 I/O には、遅延が最大 100 ns 増加する可能性がある前方誤り訂正コーディングの使用が必要です。これは、生成 AI に使用されるような分散コンピューティング システムにとっては多すぎます。これらのアプリケーションでは、10 ns 未満のレイテンシが必要です。

帯域幅密度は重要な要素です。異種チップレットは、帯域幅密度など、高いシステム密度が要求される場合に使用されます。電気 I/O は、約 100 Gbps/mm の帯域幅密度をサポートできます。 SerDes の制限は約 200 ~ 500 Gbps/mm です。到達距離が長くなると電力と熱のペナルティが発生するため、ほとんどのアプリケーションでは実用的ではありません。一方、IOI は現在約 200 Gbps/mm を実現でき、ロードマップでは将来的には 1 Tbps/mm に達すると予想されています。

Reach は I/O のエンドツーエンドの距離です。チップレットでは、必要なリーチは通常 10 mm 未満です。 PCB では到達距離は最大 50 mm、データセンターでは到達距離は 1,000 mm を超えることがあります。電気 I/O は短距離をサポートできますが、長距離には光通信の使用が必要です。パッケージ内または PCB 上の電気通信を長距離の光通信に切り替えるのは非効率的でコストがかかります。推奨されるソリューションは、内部チップレット通信とデータセンター全体の接続の両方に IOI を使用することです。

いくつかのベンダーが IOI ソリューションを発表しています。あるケースでは、異種チップレットで使用するために、ウェハスケールのプログラム可能なフォトニック相互接続ファブリックが開発されました。この設計は、従来の光ファイバーが占める同じスペースで 40 個の切り替え可能なフォトニック レーンをサポートします。初期実装では、最大 1 インチ四方の基板上の最大 48 個の異種 IC 上のアレイ全体で 8 Tbps の速度をサポートし、最大レイテンシは 5 ns で、代替の電気 I/O と比較して消費電力が低いことが期待されています (図2)。このアーキテクチャは、最大 100 Tbps の帯域幅まで拡張できると予想されます。

図 2. ウェハスケールのプログラマブル IOI ソリューションの構造 (画像: ServeTheHome).

1000 番目のアプローチでは、シリコン フォトニクスと標準 CMOS プロセスを組み合わせた多波長光源を使用して、電気 I/O の消費電力の 10% で最大 XNUMX 倍の帯域幅密度を実現します (テーブル1)。このソリューションは、GlobalFoundries の大量 45 ナノメートル プロセスを使用して、数百万のトランジスタと数百のフォトニック デバイスを統合します。

表 1. チップレットの IOI で予想されるパフォーマンスの例 (表: エアー研究所).

まとめ
高度な生成 AI およびその他のハイ パフォーマンス コンピューティング (HPC) アプリケーションの I/O 要件は、電気ベースのソリューションの能力を超えています。その結果、電力効率、遅延、帯域幅効率をサポートし、HPC アプリケーションの要求に応えることができる IOI テクノロジが開発されています。

参考文献
異機種間統合ロードマップ、2023 年版、第 9 章: 統合フォトニクス、IEEE
Lightmatter Passage は、チップレット時代に共同パッケージ化された光学素子とシリコン フォトニクスをもたらします。
AI / ML アプリケーションを備えたハイパースケール データセンター向けの光インターコネクト、Amphenol
光インターコネクトがついにシリコンフォトニクスに光を当てる:誇大宣伝を過ぎて、MDPI ナノマテリアル
フォトニクス基調講演: 電気 I/O から光 I/O への移行、ケイデンス
CMOS オンチップ統合用の多結晶シリコン PhC キャビティ、Scientific Reports
光学 I/O による生成 AI アーキテクチャの再考、Ayer Labs