NVIDIA H100 GPU: 次世代AIとHPCを支えるエンジン

【原文の詳細を読むにはこちらをクリックしてください。】

人工知能(AI)、ハイパフォーマンス・コンピューティング(HPC)、ビッグデータ解析の複雑化により、既存のコンピューティング・リソースでは、もはや市場の需要増に対応できなくなっています。NVIDIA H100 GPUの登場は、その優れたワークロード処理能力により、瞬く間に市場の熱狂を引き起こしました。この記事を読んで、NVIDIA H100 GPUインターコネクト・ソリューションが、性能向上とビジネス成長の達成にどのように役立つかを学びましょう。

NVIDIA H100 GPUとは？

NVIDIA H100 GPUは、DGXシリーズの最新製品で、ハイパフォーマンス・コンピューティングとデータセンター・アプリケーションを強力にサポートすることを目的としています。H100は、数兆パラメータ言語モデル用に調整された専用のTransformerエンジンを活用し、数十億から数兆の範囲のワークロードを高速化します。これにより、人工知能とハイパフォーマンス・コンピューティングの規模が大幅に飛躍し、あらゆるデータセンターにかつてないパフォーマンス、スケーラビリティ、セキュリティを提供します。AI、HPC、グラフィックス処理の分野で比類のない高速化を実現し、最も困難な計算問題に対応します。その結果、多くのスーパーコンピューティング・データセンターに選ばれています。

H100 GPUの詳細については、こちらをご覧ください: NVIDIA DGX H100の紹介

NVIDIA H100 GPU VS A100 GPU

A100は、すでに2020年にリリースされたH100 GPUの前身です。7ナノメートル・プロセスで製造され、AIの推論とトレーニングをサポートします。性能面では、H100 GPUはA100と比べて飛躍的な進歩を遂げたと言えます。

パフォーマンスの違い

前世代のA100と比較して、H100は高いスループットとパフォーマンスの面で徐々に強化されています。NVIDIA A100 GPUは、様々なベンチマークで素晴らしい性能を発揮することで知られています。浮動小数点演算に関して、A100は、倍精度（FP64）演算で最大19.5 TFLOPS（TFLOPS）、単精度（FP32）演算で最大39.5 TFLOPSを実現します。NVIDIA H100 GPU 倍精度(FP64)と単精度(FP32)の具体的なTFLOPS値は提供されていませんが、H100は、科学シミュレーションや高性能コンピューティング・アプリケーションにおけるデータ分析に不可欠な計算スループットを大幅に向上させるように設計されています。

AIコンピューティングに関して、A100テンソル演算はFP16精度で最大312TFLOPS、テンソル浮動小数点32（TF32）演算で最大156TFLOPSを実現します。第4世代のテンソル・コアは、H100に大幅な性能向上をもたらし、非常に強力なAIモデリングおよびディープ・ラーニング・ツールとなることが期待されます。

H100 VS A100

設計電力の比較

ベースライン性能の違いに加え、NVIDIA A100 GPUとNVIDIA H100 GPUは、熱設計と電力効率も異なります。A100 GPUは40GBのHBM2メモリを搭載し、TDPは250Wで、消費電力は比較的低い。H100 PCIeバージョンのTDPは350Wで、A100 80GB PCIeバージョンのTDP 300Wに近いです。そのため、A100 GPUの消費電力は相対的に低く、放熱のためにより多くの冷却システムを必要とします。どちらも特定の構成では最大700WのTDPに達しますが、H100 GPUはA100 GPUよりもエネルギー効率が高くなっています。H100は、特に人工知能やディープラーニングのタスクにおいて効率が向上しており、コンピューティング・パフォーマンスをよりよく満たすことができます。

全体として、NVIDIA H100 GPUの性能レベルはA100の3倍で、コストは1.5～2倍に過ぎません。したがって、H100の性能はさらに魅力的です。また、技術的な詳細を見ると、A100と比較して、H100の16ビット推論速度は約3.5倍に向上し、16ビットトレーニング速度も2.3倍に向上しています。

NVIDIA H100 GPUを使って相互接続を完成させるには？

上記の内容を通してNVIDIA H100 GPUの利点を理解したら、次はネットワークのH100接続をどのように完成させるかを検討します。NVIDIAは、NVLink+NVSwitchを通じてGPUを相互接続し、従来のPCIeバスをバイパスして、より高い帯域幅とより低いレイテンシを実現します。

NVSwitch接続

NVIDIAの第3世代NVSwitchと第4世代NVLink技術は、NVIDIA H100 GPUに、A100 GPUよりも高速なポイントツーポイント相互接続ソリューションを提供します。NVLinkの主な目的は、GPU相互接続のための高速でポイントツーポイントのネットワークを提供することであり、GPU アーキテクチャの進化とともに発展していきます。

このネットワークアーキテクチャでは、各H100は18のNVLink接続を持ち、4つのグループに分けられ、各グループは4つのNVSwitchに接続されています。これらの4つのNVSwitchチップは、GPUノードと相互接続するための18個のOSFPインターフェイスを持っています。各 NVLink 接続の帯域幅は 50GB/秒であり、これは 1 つの OSFP ポートの 400Gb/s に相当します。DGX H100サーバーには18個のOSFPポートがあり、NVLinkスイッチには124個のNVLinkポートと32個のOSFPポートがあります。32 個の GPU サーバーを含む 1 つの SU の場合、相互接続には 18 個の NVLink スイッチが必要です。

H100 VS A100

RDMA-InfiniBand接続

IBネットワークアーキテクチャでは、単一のHGX H100 8-GPU マザーボードが8つのPCIe Gen5x16レーンを通じて4つのPCIeスイッチに接続されます。GPUノード間の相互接続は、PCIeスイッチ上の8つのネットワークインターフェースカード（NIC）を通じて実現されます。これらの8つのNICは通常、CX7 400Gネットワークカードを使用し、400G IBスイッチを介して相互接続されます。以前の接続ソリューションと比較して、InfiniBand接続ソリューションは4 x 800Gの帯域幅を実現しています。

RDMA-InfiniBand Connection

RDMA-RoCE接続

第3の接続ソリューションは、イーサネット TCP/IP プロトコルのUDPレイヤーを介したRoCE-V2（RDMA over Ethernet）の利用です。その名の通り、イーサネットスイッチを利用し、ネットワークアーキテクチャを計算し、IBネットワーキングと整合性のある数量を実現します。以下に示すとおりです：

RDMA-RoCE Connection

先進のH100ソリューションで未来を力づける

FS H100 InfiniBandソリューションのご紹介

FS H100 InfiniBandソリューションのアーキテクチャ・フレームワークをさらに強化するのは、NVIDIA H100 GPUサーバーとの互換性で、堅牢で信頼性が高く、スケーラブルなコンピューティング・ネットワークを形成します。このネットワークは、AIワークロード用に調整されているだけでなく、ハイパフォーマンス・コンピューティング、機械学習、ビッグデータ分析など、幅広い集約的なコンピューティング・タスクの処理にも精通しています。

FS H100 InfiniBandソリューションは、AIに最適化されたデータセンター・ネットワーキングに特化したハイパフォーマンス・コンピューティング機能と最先端技術を統合することで、AIネットワーク・アーキテクチャに革命をもたらします。このソリューションの中核となるのは、32個の物理OSFPポートに64個の400Gb/秒ポートを備えたFS NVIDIA® Quantum-2 MQM9790 InfiniBandスイッチです。このセットアップは、比類のない性能とポート密度を提供するだけでなく、NVIDIAの最先端の400Gb/秒高速相互接続技術のパワーを活用します。このソリューションにNVIDIA Quantum-2 InfiniBandを統合することで、高速かつ極めて低レイテンシでありながら、拡張性の高いネットワーク・アーキテクチャが実現します。これは、RDMA (Remote Direct Memory Access)、アダプティブ・ルーティング、NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP)™といった、効率的で安定したデータ転送を促進するために設計された技術を組み込むことによって、さらに強化されています。

FS H100 InfiniBandソリューションの利点

このソリューションは、NVIDIA H100 GPUをベースとしており、様々なビジネスシナリオの要件を満たすために、計算ネットワーク、管理ネットワーク、ストレージネットワークなど、AIアーキテクチャのネットワークトポロジーに応じてカスタマイズされた構成となっています。

合理化された管理: AmpConユニファイド・プラットフォームは、ワンクリックでInfiniband H100ネットワーク全体の設定、監視、保守を可能にし、自動設定と包括的なセキュリティ・ポリシーによってネットワーク・セキュリティを強化します。

プロフェッショナルIBネットワーク・アーキテクチャ: NVIDIAとの戦略的協業により、200を超える国と地域にまたがるグローバルなプレゼンスで、オーダーメイドのソリューションと、要件分析、ソリューション設計、検証を含む専門的な技術サービスを提供しています。

費用対効果の高いソリューション: RoCEソリューションと比較して、IBネットワークアーキテクチャは優れた安定性と信頼性を実現し、ネットワーク障害とメンテナンスコストを削減しながら、平均約30%のコストメリットを提供します。

グローバル倉庫: 50,000平方メートルを超えるグローバルな倉庫スペースにより、200カ国以上の豊富な在庫を確保し、注文の90％以上を即日出荷するシームレスな供給サービスを提供しています。

ローカライズサービス: 現地での調査、設置、トラブルシューティングを含む包括的な現地サービスを提供し、設置コストの削減とシステムのダウンタイムの最小化を支援するリモート・オンライン・メンテナンスを補足します。

最終的な考え

NVIDIA H100 GPUは、人工知能と大規模コンピューティングのイノベーションをさらに促進し、将来の科学研究と工学分野に大きな性能向上と効率向上をもたらします。H100を中核とするソリューションは、今後も改良と開発が続けられるでしょう。

FSはどのように役立つか

高速ネットワークシステムに特化したグローバル・テクノロジー・リーダーとして、HPC、データセンター、エンタープライズ、テレコムソリューション向けに最高品質の製品とサービスを提供しています。FSは、お客様のニーズに合わせたH100ソリューションの提供に努めています。ご興味のある方は、お気軽にお問い合わせください。

danika3160’s blog

ここで通信分野と関連する記事を紹介していきます！よろしくお願いいたします。