danika3160’s blog

ここで通信分野と関連する記事を紹介していきます! よろしくお願いいたします。

NVIDIA NVLinkの概要

原文の詳細を読むにはこちらをクリックしてください

NVIDIA NVLinkは、高性能計算(HPC)と人工知能(AI)の分野で重要な技術として登場しました。この記事では、NVLinkの複雑さを掘り下げ、NVSwitch チップ、NVLinkサーバー、NVLinkスイッチについて学び、進化し続ける先端コンピューティングの状況におけるその重要性を説明します。

NVIDIA NVLinkとは?

NVLinkは、サーバー内のGPU間の通信制限に対処するプロトコルです。帯域幅に制限がある従来のPCIeスイッチとは異なり、NVLinkはサーバー内のGPU間の高速な直接相互接続を可能にします。第4世代のNVLinkは、PCIe Gen5レーンと比較して、1レーンあたり112Gbpsと大幅に高い帯域幅を提供し、3倍高速です。

NVLink

NVLinkは、従来のネットワークと比較してオーバーヘッドを最小限に抑え、GPUの直接相互接続のための合理化された高速ポイントツーポイントネットワークを提供することを目指しています。異なるレイヤ間でCUDAアクセラレーションを提供することで、NVLinkは通信関連のネットワークオーバーヘッドを削減します。NVLinkはGPUアーキテクチャとともに進化しており、図に示されているように、P100用のNVLink1からH100用のNVLink4へと進歩しています。NVLink 1.0、NVLink 2.0、NVLink 3.0、NVLink 4.0の主な違いは、接続方法、帯域幅、性能にあります。

NVSwitchチップ

NVSwitchチップは、複数のGPUを高速NVLinkインターフェースで接続し、サーバー内の通信と帯域幅を向上させる、スイッチASICに似た物理チップです。NVIDIA NVSwitchの第3世代が提案されており、各GPUのペアを900GB/秒という驚異的な速度で相互接続できます。

NVLink`

64個のNVLink4ポートを備えた最新のNVSwitch3チップは、合計12.8 Tbpsの一方向帯域幅または3.2 TB/sの双方向帯域幅を提供します。NVSwitch3チップの特徴は、SHARP機能の統合です。SHARP機能は、すべての削減処理中に複数のGPUユニットにまたがる計算結果を集約して更新し、ネットワークパケットを削減して計算性能を向上させます。

NVLink

NVLinkサーバー

NVLinkサーバーは、GPUを接続するためにNVLinkとNVSwitch技術を組み込んだもので、通常、NVIDIAのDGXシリーズサーバーや、同様のアーキテクチャを持つOEM HGXサーバーに搭載されています。これらのサーバーはNVLink技術を利用し、卓越したGPU相互接続性、スケーラビリティ、HPC機能を提供します。2022年、NVIDIAは、新しいNVIDIA DGX H100サーバーで構築された世界初のAIプラットフォームである第4世代NVIDIA® DGX™システムを発表しました。

NVLink

その結果、NVLink サーバーは、科学計算、AI、ビッグデータ処理、データセンターなどの重要な領域で不可欠なものとなりました。堅牢なコンピューティング能力と効率的なデータ処理を提供することで、NVLink サーバーはこれらの分野の厳しい要件を満たすだけでなく、これらの分野の進歩を推進し、イノベーションを促進します。

NVLink

NVLinkスイッチ

2022年、NVIDIAはNVSwitchチップを取り出し、ホスト間でGPUバイスを接続するNVLinkスイッチと呼ばれるスイッチにしました。各OSFPは8つの112G PAM4レーンで構成され、各スイッチにはNVSwitch3チップが 2つ内蔵されています。

NVLink

NVLinkネットワーク

NVSwitch物理スイッチは、複数のNVLink GPUサーバをNVLinkネットワークである大規模ファブリックネットワークに接続し、GPU間の高速通信帯域幅と効率の問題を解決します。各サーバーはそれぞれ独立したアドレス空間を持ち、NVLinkネットワーク内のGPUにデータ転送、分離、セキュリティ保護を提供します。システムが起動すると、NVLinkネットワークはソフトウェアAPIを通じて自動的に接続を確立し、動作中にアドレスを変更できます。

NVLink

この図は、NVLinkネットワークと従来のイーサネットネットワークを比較したもので、IPイーサネットから独立したGPUサービス専用のNVLinkネットワークの構築を示しています。

概念
従来の例
NVLinkネットワーク
400G電気/光メディア
カスタムFW OSFP
NVLinkカスタムオンチップHWとFW
IP
新しいNVLinkネットワークアドレスと管理プロトコル
NVLinkカスタムオンチップHWとFW
セッション層
ソケット
SHARP groupsCUDAによるデータ構造のネットワークアドレスのエクスポート
プレゼンテーション層
TSL/SSL
ライブラリ抽象化(NCCL、NVSHMEMなど)
アプリケーション層
HTTP/FTP
Alフレームワークまたはユーザーアプリ
PCIe NIC(カードまたはチップ)
GPUとNVSwitchに組み込まれた機能
RDMAオフロード
NICオフロードエンジン
GPU内蔵コピーエンジン
コレクティブオフロード
NIC/スイッチオフロードエンジン
NVSwitch内蔵SHARPエンジン
セキュリティオフロード
NICのセキュリティ機能
GPU内蔵暗号化と「TLB」ファイアウォール
メディアコントロール
NVSwitch内蔵OSFPケーブルコントローラー
表:従来のネットワーク概念とNVLinkスイッチシステムの対応関係

InfiniBandネットワークとNVLinkネットワークの比較

InfiniBandネットワークとNVLinkネットワークは、ハイパフォーマンス・コンピューティングとデータセンター・アプリケーションで使用される2つの異なるネットワーク技術です。両者には次のような違いがあります:

アーキテクチャと設計: InfiniBandネットワークは、マルチチャンネルの高速シリアル接続を利用するオープンスタンダードのネットワーク技術で、ポイントツーポイント通信とマルチキャスト通信をサポートします。NVLinkネットワークは、GPU間の高速直接接続用に設計されたNVIDIA独自の技術です。

アプリケーション:InfiniBandネットワークは、HPCクラスタや大規模データセンターで広く使用されています。NVLink Network は、主に大規模GPUクラスター、HPC、AI、その他の分野で使用されています。

帯域幅レイテンシーInfiniBand ネットワークは、高帯域幅と低遅延通信を提供し、高いスループットと短い伝送遅延を実現します。NVLink ネットワークは、GPU 間でより高い帯域幅とより低いレイテンシを実現し、高速なデータ交換と協調コンピューティングをサポートします。以下は、NVLinkネットワークを使用したH100とIBネットワークを使用したA100の帯域幅の比較です。

NVLink

まとめ

NVIDIA NVLinkは、HPCとAIの分野に革命をもたらした画期的なテクノロジーです。GPU通信を強化し、パフォーマンスを向上させ、シームレスな並列処理を可能にするその能力により、NVLinkは、数多くのHPCおよびAIアプリケーションにおいて不可欠なコンポーネントとなっています。高度なコンピューティングの状況が進化し続ける中、NVLink の重要性と影響力は拡大し、イノベーションを推進し、可能性の限界を押し広げることになるでしょう。