AIサーバーに革命を起こす：インターフェース相互接続チップ技術の革新を紐解く

TrendForceのデータによると、AIサーバーの出荷台数は約13万台で、世界全体のサーバー出荷台数の約1％を占めています。Microsoft、Meta、Baidu、ByteDanceといった大手メーカーが相次いでジェネレーティブAIをベースとした製品やサービスを投入したことで、受注台数は大幅に増加しています。予測によると、ChatGPTのようなアプリケーションからの継続的な需要に牽引され、AIサーバー市場は2023年から2027年まで年平均成長率12.2%を維持すると予想されています。このような背景から、AIサーバーの開発が特に目を引きます。

DGX H100: 先駆的なAIの進化

2022年に発売されたDGX H100は、NVIDIAのDGXシステムの最新バージョンであり、NVIDIA DGX SuperPODの中核を形成しています。8個のH100 GPUと6,400億トランジスタを搭載したDGXサーバーは、前世代の6倍のAI性能を発揮し、特に新しいFP8精度に優れています。この先進的なシステムは、900GB/秒という驚異的な帯域幅を提供し、AI機能の飛躍的な向上を示しています。

DGX H100 Server Architecture

DGX H100サーバーは、PCIe 5.0標準を利用したネットワークカードおよびPCIeスイッチ拡張の両方の機能を持つIPネットワークカードを内蔵しています。さらに、このサーバーには2枚のCX7カードが搭載されており、各カードには4個のCX7チップが搭載され、2個の800G OSFP光モジュール・ポートが提供されています。GPU相互接続（H100）では、NVSwitchチップが重要な役割を果たします。各GPUは、18個のNVLinksを外部に拡張し、1リンクあたり50GB/秒の双方向帯域幅、合計900GB/秒の双方向帯域幅を実現します。これは4つのオンボードNVSwitchに分散され、各NVSwitchは4～5つのOSFP光モジュールに対応します。各OSFP光モジュールは8つの光チャネルを使用し、チャネルあたりの伝送レートは100Gbpsなので、合計レートは800Gbpsに達します。この構成により、高速データ伝送が可能になります。

CPU、GPUなどのコンポーネントの相互接続: PCIeスイッチ、リタイマチップ

PCIeスイッチ技術の進化: チャネルの限界の克服

PCIeスイッチ（PCIeハブ）は、PCIe通信プロトコルを使用してPCIeデバイスの接続を容易にする重要なコンポーネントです。PCIeスイッチは、拡張およびアグリゲーション機能を提供し、複数のデバイスをPCIeポートに接続することを可能にします。これは、PCIeチャネルの可用性が限られていることに伴う課題を克服する上で特に有益です。現在、PCIeスイッチは従来のストレージ・システムで広く使用されているほか、さまざまなサーバー・プラットフォームでも人気を集めており、システム内のデータ転送速度の向上に貢献しています。

PCIeバス技術の進歩は、PCIeスイッチの速度が世代を経るごとに徐々に向上していくことを意味します。当初、Intelは2001年に「3GIO」という名称で第3世代のI/O技術として発表したが、PCI Special Interest Group（PCI-SIG）による評価を受けて、2002年に「PCI Express」に改名しました。注目すべきマイルストーンは、2003年のPCIe 1.0の正式な導入で発生し、チャネルあたり250MB/秒の伝送速度と2.5GT/秒の総伝送速度のサポートを意味しました。2022年、PCI-SIGはPCIe 6.0仕様を正式に発表し、総帯域幅を64GT/秒に拡大しました。

Evolution of PCIe Switch Technology

PCIeリタイマー業界の主な動向

AIサーバーでは、GPUとCPUの接続時に信号品質を確保するため、最低1個のRetimerチップを搭載する必要があります。AIアクセラレーター構成に4つのRetimerチップを統合しているAstera Labsに代表されるように、複数のRetimerチップの利用を選択するAIサーバーもあります。

Retimer Chip Configuration

PCIeリタイマー市場には現在、3つの大手メーカーと多くの潜在的な競合他社が存在し、大きな可能性を秘めている。現在、Parade Technologies、Astera Labs、Montage Technologyの3社がこの盛況な市場の主要プレーヤーとして際立っており、重要な地位を占めています。特に、Montage Technologyは、PCIe展開の初期採用者であり、PCIe 4.0リタイマーの大規模生産が可能な唯一の中国本土サプライヤーです。さらに、Montage TechnologyはPCIe 5.0リタイマーの開発を着実に進めています。

PCIe retimer vendors

さらに、ルネサス、TI、Microchip TechnologyなどのチップメーカーがPCIe Retimer製品の開発に積極的に参加しています。ルネサスは、公式ウェブサイトで入手可能な情報によると、89HT0816APと89HT0832Pという2つのPCIe 3.0リタイマ製品を提供しています。TIは、16Gbps 8チャネルPCIe 4.0リタイマーDS160PT801を提供しています。また、マイクロチップ・テクノロジーは2020年11月に、PCIe 5.0の32GT/sレートをサポートするように設計されたXpressConnectシリーズのRetimerチップを発表しました。

GPUの相互接続：NVLinkとNVSwitch

世界の主要チップメーカーは、高速インターフェイス技術の普及を重要視しています。中でも、NVIDIAのNVLink、AMDのInfinity Fabric、IntelのCXLが大きく貢献しています。

NVLinkは、NVIDIAが開発した高速インターコネクト技術です。CPUとGPU、GPUとGPU間のデータ転送速度を高速化し、システム性能を向上させるように設計されています。2016年から2022年にかけて、NVLinkは進化を遂げ、第4世代に到達しました。2016年、NVIDIAはPascal GP100GPUのリリースとともに第1世代のNVLinkを発表しました。NVLinkはNVHS（High-Speed Signaling Interconnect）技術を採用し、主にGPU間やGPUとCPU間の信号伝送を容易にします。GPUは、NRZ（Non-Return-to-Zero）形式でエンコードされた差動インピーダンスの電気信号を伝送します。第1世代のNVLinkシングルリンクは40GB/秒の双方向帯域幅を達成し、1チップで4リンクをサポートできるため、双方向帯域幅の合計は160GB/秒になります。

NVLink Comparsion

NVLinkの進歩：各時期の発展

NVLinkテクノロジーは、高速相互接続のイノベーションを推進するため、何度も反復されてきました。2017年には、Voltaアーキテクチャに基づく第2世代のNVLinkが登場しました。リンクあたり50 GB/秒の双方向帯域幅を達成し、チップあたり6リンク、合計300 GB/秒の双方向帯域幅をサポートします。2020年には、アンペール・アーキテクチャーをベースとする第3世代が同様の仕様で発表され、双方向の合計帯域幅は600GB/sに達しました。最新の開発は2022年、Hopperアーキテクチャに基づく第4世代で行われました。この世代では、PAM4変調の電気信号に移行し、1リンクあたりの双方向帯域幅は50GB/sを維持したまま、1チップあたり18リンクをサポートし、その結果、双方向帯域幅の合計は900GB/sに達しました。

高性能GPUインターコネクトを可能にするNVSwitchの開発

2018年、NVIDIAはNVSwitchの最初のイテレーションを発表し、帯域幅を強化し、レイテンシを減少させ、サーバー内の複数のGPU間の通信を促進するソリューションを提供しました。TSMCの12nm FinFETプロセスを利用して製造された第一世代のNVSwitchは、18個のNVLink 2.0インターフェースを誇りました。12個のNVSwitchを配備することで、サーバーは16個のV100 GPUの相互接続速度を収容し、最適化することができます。

NVSwitch Comparsion

現在、NVSwitchは、TSMCの4Nプロセスを使用して製造された第3世代に進化しています。各NVSwitchチップは64個のNVLink 4.0ポートを備え、GPU間で900GB/秒の通信速度を実現します。NVLinkスイッチを介して相互接続されたGPUは、集合的に、ディープラーニング機能を備えた単一の高性能アクセラレータとして機能することができます。

まとめ

PCIeチップ、Retimerチップ、NVSwitchなどのインターフェース相互接続チップ技術の開発により、CPUとGPU間、およびGPU間の相互作用能力が大幅に向上しました。これらの技術の相互作用は、人工知能サーバーのダイナミックな状況を浮き彫りにし、高性能コンピューティングの進歩に貢献しています。

danika3160’s blog

ここで通信分野と関連する記事を紹介していきます！よろしくお願いいたします。