danika3160’s blog

ここで通信分野と関連する記事を紹介していきます! よろしくお願いいたします。

SuperNIC: AI用ネットワーク・アクセラレータ

AIの複雑さと規模が拡大するにつれ、従来のネットワーキング・ソリューションは、これらの高度なシステムのデータ集約的な要件を満たせない傾向にあります。AIワークロードが直面する問題に対処するため、SuperNICが誕生しました。本記事では、SuperNICの変革能力を紹介し、ネットワーク性能に革命をもたらし、AI主導のイノベーションに新たなフロンティアを切り開く方法を探ります。

SuperNICとは?

SuperNICは、イーサネットベースのクラウド環境内のハイパースケールAIワークロードのパフォーマンスを強化するために綿密に作られた、ネットワークアクセラレータの新しいカテゴリーを代表するものです。SuperNICは、GPU間通信用に調整された比類のないネットワーク接続性を提供し、RoCE(Remote Direct Memory Access)技術の活用により最大400Gb/秒の速度を達成します。

SuperNICはAIワークロードの効率的かつ迅速な実行を保証し、AIコンピューティングの未来を推進するための基礎的要素として確立します。この強みは、SuperNICのユニークな特性から生まれます:

  • リアルタイムの遠隔測定データとネットワークを意識したアルゴリズムを活用し、AIネットワーク内の輻輳を効果的に管理・防止する高度な輻輳制御が実装されています。

  • 高速パケット並べ替えは、データフローのシーケンシャルな整合性を維持し、元の送信順序でデータパケットの受信と処理を保証します。

  • 電力効率に優れた薄型設計を特徴とするSuperNICは、限られた電力予算内でAIワークロードに対応します。

  • 入出力(I/O)経路でプログラマブル・コンピューティングが可能なため、AIクラウドデータセンターのネットワークインフラをカスタマイズし、拡張することができます。

  • コンピューティング、ネットワーキング、ストレージ、システムソフトウェア、通信ライブラリ、アプリケーションフレームワークを含むスタック全体にわたる包括的なAIの最適化。

AIがSuperNICの開発を促進

人工知能の成功は、膨大なデータセットの処理、膨大なAIモデルのトレーニング、リアルタイムの推論に不可欠なGPU加速コンピューティングと密接に結びついています。この演算能力の向上は、新たな可能性をもたらすと同時に、従来のネットワークに課題を突きつけています。

インターネット・インフラを支える基盤技術である従来のネットワーキングは、当初、幅広い互換性を提供し、疎結合のアプリケーションを接続するために開発されました。その設計は、緊密に結合した並列処理、迅速なデータ転送、明確な通信パターンを特徴とする現代のAIワークロードがもたらす厳しい計算要求を想定していません。従来のネットワーク・インターフェイス・カード(NIC)は、汎用コンピューティング、汎用データ転送、相互運用性を目的に設計されており、効率的なデータ転送、低レイテンシ、AIタスクに不可欠な決定論的性能に必要な機能や性能を欠いていました。現在のAIワークロードの要求に応えて、SuperNICが登場しました。

SuperNICはDPUよりもAIコンピューティング環境に適している

データ処理ユニット(DPU)は、高スループット、低レイテンシのネットワーク接続など、多くの先進的な機能を提供します。2020年の登場以来、DPUはクラウドコンピューティングで人気を博しています。その主な理由は、データセンターのインフラ処理をオフロード、高速化、分離する能力にあります。DPUとSuperNICには共有機能がありますが、SuperNICは特にAIネットワークを高速化するために設計されています。主な利点は以下の通りです:

  • システム内のGPUとSuperNICの比率を1:1にすることで、AIワークロードの効率を大幅に向上させることができ、その結果、生産性が向上し、企業にとってより良い結果がもたらされます。

  • SuperNICはGPUあたり400Gb/秒のネットワーク容量を提供し、分散AIのトレーニングと推論の通信フローにおいてDPUを凌駕します。

  • AIクラウドコンピューティングのネットワーキングを加速するために、SuperNICはホストCPUからアプリケーションをオフロードするために大量のコンピューティングリソースを必要とするDPUよりも少ないコンピューティングパワーを使用します。

  • また、コンピューティング要件が下がることで消費電力も下がり、これはマルチSuperNICシステムにとって非常に有用です。

  • SuperNICのAI専用ネットワーキング機能には、アダプティブ・ルーティング、アウトオブオーダー・パケット処理、最適化された輻輳制御が含まれ、これらすべてがイーサネットAIクラウド環境の高速化を実現します。

 
BlueField-3 DPU
BlueField-3 SuperNIC
ミッション
  • クラウド・インフラ・プロセッサー

  • データセンター・インフラのオフロード、高速化、分離

  • GPUクラスシステムのN-Sに最適化

  • Alコンピューティングのための高速ネットワーキング

  • クラス最高のRoCEネットワーキング

  • GPUクラスシステムのE-Wに最適化

有機
  • VPCネットワーク・アクセラレーション

  • ネットワーク暗号化アクセラレーション

  • プログラマブル・ネットワーク・パイプライン

  • 高精度タイミング

  • プラットフォーム・セキュリティ

独自の機能
  • 強力なコンピューティング能力

  • セキュアなゼロトラスト管理

  • データ・ストレージの高速化

  • 柔軟なインフラ・プロビジョニング

  • システムあたり1-2DPU

  • 強力なネットワーキング能力

  • Alネットワーク機能セット

  • フルスタックのNVIDIA Al最適化

  • 電力効率に優れた薄型設計

  • システムあたり最大8つのSuperNIC

 

結論

SuperNICは、AIデータセンター向けのネットワークアクセラレーターの一種であり、GPUサーバー間の信頼性の高いスムーズな接続を提供し、高度なAIワークロードを実行するためのまとまった環境を構築し、AIコンピューティングの継続的な発展に貢献します。