danika3160’s blog

ここで通信分野と関連する記事を紹介していきます! よろしくお願いいたします。

DDCテクノロジー:AIGCネットワークによる革命的なソリューション

2023年までには、ChatGPTがその代表例である人工知能生成コンテンツ(AIGC)技術が隆盛し、テキスト生成、コード開発、詩の制作など、いくつかの分野で業界を変えていくことになるだろう。この記事では、新世代のAIGCネットワークが導入した画期的なソリューションである、ネットワーク用のDDCテクノロジーについてご紹介します。この革新的なテクノロジーは、ネットワーキングの展望に革命をもたらし、これまでにない方法で効率性と接続性を高めることを約束します。

GPU負荷分散の3つの方法

前述のAIGC大規模モデルの並外れたパワーは、その膨大なデータ量だけでなく、アルゴリズムの継続的な進化と進歩にも起因しています。このような大規模モデルをトレーニングする場合、作業負荷を分散するために複数のGPUが必要になることがよくあります。効率的な負荷分散を実現するために、データ並列、テンソル並列、パイプライン並列の3つの手法が採用されています。

データ並列

データ並列処理では、モデルの入力データを複数のミニバッチに分割し、異なるGPU間でそれらのミニバッチを並列処理します。各GPUはモデルの完全なコピーを所有し、それぞれ独立にミニバッチを処理します。GPU間通信と同期により、モデルのパラメータは更新され、統合されます。データ並列性は、大規模なトレーニングデータセットを持つモデルに適しており、トレーニングプロセスを加速し、モデルの収束速度を向上させます。

テンソル並列

テンソル並列処理は通常、モデルが大きすぎて1つのプロセッサのメモリに収まらない場合に採用されます。この方法では、モデルの異なる部分が異なるGPUに割り当てられ、各GPUが入力データの一部の処理と対応する計算の実行を担当します。GPU間の頻繁な通信と同期によって、出力が収集され統合されますが、これは高い通信オーバーヘッドにつながる可能性があります。テンソル並列では、交換遅延を最小化するためにプロセッサ間の高速接続が必要です。

パイプライン並列

パイプライン並列は、モデルの計算フローを複数のステージに分解し、これらのステージの実行を異なるGPU間でパイプライン方式で並列化します。各GPUはモデル全体の計算の特定の部分を処理し、処理された結果を次のGPUに渡してさらに計算させます。このアプローチは、全体的なトレーニング時間を短縮し、複雑な計算フローと複数の連続したステージを持つモデルには特に有効ですが、依存する計算結果を待つ間、一部のプロセッサが作業を一時停止するような大きなストールを発生させないように、パイプラインを注意深く管理する必要があります。時には、これら3つの並列戦術を組み合わせてトレーニングプロセスを改善することもあります。

AIGCの運営を支える3つの従来のソリューション

従来のソリューションでは、AIGCの運用をサポートする一般的なソリューションとして、InfiniBand、RDMA、フレームスイッチの3つがあります。

InfiniBandネットワーキング

InfiniBand ネットワーキングは、高性能コンピューティングやデータセンターで使用される高速相互接続技術です。高帯域幅、低遅延、輻輳がないなどの利点があります。しかし、コストが高く、従来のイーサネットネットワーキングの数倍のコストがかかります。

InfiniBand Networking

RDMAネットワーキング

RDMA(Remote Direct Memory Access)は新しい通信メカニズムで す。RDMA方式では、データはCPUや複雑なオペレーティングシステムをバイパスしてネットワークカードと直接通信できるため、レイテンシを短縮しながらデータスループットを大幅に向上させることが可能です。以前は、RDMAは主にInfiniBandネットワーク上で行われていました。現在はイーサネットへの移植が進んでいます。現在主流のネットワーキング方式は、RoCE v2プロトコルに基づき、RDMAをサポートするネットワークを構築するものです。

関連記事-RDMA over Converged Ethernet(RoCE)ガイド.

RDMA Networking

フレームスイッチ

フレームスイッチとは、イーサネットのようなフレームベースのプロトコルを扱うために特別に設計されたネットワークスイッチのことです。しかし、スケーラビリティの制限、デバイスの高い消費電力、広範な障害領域などの問題から、この手法は小規模なAIコンピュータ・クラスタの展開にしか適していません。

新世代AIGCネットワーク:DDCテクノロジー

従来のイーサネットは性能がボトルネックであるため、従来のアプローチでは輻輳やパケットロスなどの性能ロスに悩まされ、拡張性も不十分です。こうした限界に対応するため、DDC(Distributed Disaggregated Chassis)と呼ばれる新しいソリューションが登場しました。DDCは従来のフレームスイッチを分解し、そのスケーラビリティを向上させ、AIクラスタの規模に合わせたネットワークスケールを可能にします。

DDCは、大規模なAIモデル訓練に必要なネットワーク要件を、規模や帯域幅スループットという点で満たすだけでなく、ネットワーク運用の他の重要な側面にも対応しています。しかし、ネットワーク運用はこれら2つの側面だけでなく、遅延、負荷分散、管理効率などの点からも最適化する必要があります。これらの課題に取り組むため、DDCは以下の技術戦略を取り入れております:

VVOQ+セルベースの転送技術でパケットロスを抑制

ネットワークがトラフィックのバーストを経験するシナリオでは、受信側での処理が遅くなり、輻輳やパケットロスにつながる可能性があります。DDCシステムは、VOQ+Cellベースの転送メカニズムを採用しており、堅牢なソリューションを提供します。具体的な処理方法を掘り下げて説明します:

送信側は、パケットを受信後、仮想出力キュー(VOQ)に分類して格納します。ネットワーク接続ポイント(NCP)は、セグメント化する前にバッファ容量をチェックし、動的に負荷分散を行います。一時的な処理制限時には、パケットをVOQ内に格納することで、通信の安定性と帯域幅の利用率を高めます。

VOQ+Cell

 

PFCシングルホップ配備でデッドロックを完全に回避

RDMAロスレスネットワークは、トラフィック制御にPFC(プライオリティ・フロー・コントロール)技術を利用し、優先順位を割り当てたイーサネットリンク用の複数の仮想チャネルを作成できます。しかし、PFCの実装には、特にデッドロックの問題など、課題がないわけではありません。

PFC Single-Hop Deployment

DDCネットワークのコンテキストでは、すべてのネットワーク接続ポイント(NCP)とネットワーク通信機能(NCF)をまとまったエンティティとして考えることで、マルチレベルのスイッチが不要になるという際立った利点が生まれます。その結果、DDCアーキテクチャはPFCに関連するデッドロック問題を効果的に回避し、シームレスで中断のないネットワーク運用を保証します。

NCFs

 

分散型OSが信頼性を向上

DDCアーキテクチャでは、管理機能はネットワーク・コントロール・カード(NCC)の制御下に集中化されています。しかし、この集中制御は単一障害点の潜在的なリスクをもたらします。この問題を軽減するため、DDCは分散型オペレーティングシステムを組み込み、各ネットワーク接続ポイント(NCP)とネットワーク通信機能(NCF)に対して個別の管理機能を実現しています。この分散型アプローチには、システムの信頼性を高め、展開プロセスを簡素化するための独立した制御および管理プレーンが含まれています。

結論

DDCは、独自の技術戦略により、大規模なAIモデルトレーニングに関連するネットワーク需要に効果的に対応します。さらに、多様で複雑なシナリオにおけるネットワークの安定性と効率性を確保するために、多くの側面を綿密に最適化します。