InfiniBandインネットワーク・コンピューティングについて解説

InfiniBandは、高性能コンピューティング（HPC）や人工知能（AI）アプリケーションにおいて重要な役割を果たしており、大規模なデータ転送や複雑な計算タスクをサポートするための高速で低遅延なネットワーク通信の提供に反映されています。InfiniBandの重要性はインネットワークコンピューティングの領域にまで及び、その用途は徐々に拡大しています。ネットワーク内で計算タスクを実行することで、InfiniBandは待ち時間をさらに短縮し、システム全体の効率を向上させ、HPCとAIの領域をより高い性能と知能の向上に向けて推進します。

InfiniBand In-Network Computing

InfiniBandインネットワーク・コンピューティング：定義

InfiniBandインネットワーク・コンピューティング(INC)は、ネットワークに計算機能を導入することにより、システム性能を向上させるために設計されたInfiniBand技術の拡張です。ネットワーク・コンピューティングの領域では、AIやHPCアプリケーションにおける集団通信やポイント・ツー・ポイントのボトルネック問題に効果的に対処し、データセンターのスケーラビリティに新たな視点とソリューションを提供します。

インネットワーク・コンピューティングの理念は、InfiniBandネットワークのスイッチとInfiniBandアダプターに計算機能を統合することです。これにより、データ転送と同時に単純なコンピューティング・タスクを実行できるため、データをサーバーなどの端末ノードに転送して処理する必要がなくなります。

データセンターにおけるInfiniBandインネットワーク・コンピューティング

近年、最新のデータセンターの進化は、クラウド・コンピューティング、ビッグデータ、高性能コンピューティング、人工知能に後押しされ、斬新な分散型並列処理アーキテクチャとして現れています。CPU、メモリ、ストレージなどのリソースはデータセンター全体に分散され、InfiniBand、イーサネット、ファイバチャネル、オムニパスなどの高速ネットワーク技術で相互接続されています。共同設計と分業化により、データ処理タスクの集団的達成が容易になり、ビジネスデータを中心としたバランスの取れたシステム・アーキテクチャが構築されます。

InfiniBandインネットワーク・コンピューティングは、ネットワーク内で計算タスクを実行することにより、インネットワーク・コンピューティングを統合し、データ処理の責任をCPUからネットワークに移すことで、待ち時間を短縮し、システム性能を向上させます。ネットワークプロトコルのオフロード、RDMA、GPUDirectなどの主要技術を通じて、InfiniBandはオンライン計算、通信レイテンシの低減、データ転送効率の最適化などの機能を実現します。このネットワーク内コンピューティングの高度な統合は、高性能コンピューティングと人工知能アプリケーションを効果的にサポートします。

InfiniBandインネットワーク・コンピューティングの主要技術

ネットワークプロトコルのオフロード

ネットワークプロトコルのオフロードは、ネットワーク関連のプロトコルを処理するタスクを専用のハードウェアに移すことで、CPUの負担を軽減するものです。

InfiniBandネットワークアダプタとInfiniBandスイッチは、物理層、リンク層、ネットワーク層、トランスポート層を含むネットワーク通信プロトコル・スタック全体の処理を行います。このオフロードにより、データ伝送中に追加のソフトウェアやCPU処理リソースが不要になり、通信性能が大幅に向上します。

RDMA

リモート・ダイレクト・メモリ・アクセス（RDMA）技術は、ネットワーク伝送におけるサーバー側のデータ処理待ち時間の問題を解決するために開発されました。RDMAは、CPUを介さずに、あるコンピュータのメモリから別のコンピュータへ直接データ伝送を可能にし、データ処理の待ち時間を短縮し、ネットワーク伝送効率を向上させます。

RDMAでは、ユーザー・アプリケーションからサーバーのストレージ領域に直接データを転送し、その後、ネットワーク経由でリモート・システムのストレージに素早く転送することができます。これにより、転送プロセス中にデータのコピーやテキスト交換を何度も行う必要がなくなり、CPU負荷が大幅に軽減されます。

GPUDirect RDMA

GPUDirect RDMAは、RDMA機能を活用してGPUノード間の直接通信を促進し、GPU クラスタの通信効率を高める技術です。

クラスタ内の異なるノード上の2つのGPUプロセスが通信する必要があるシナリオでは、GPUDirect RDMAにより、RDMAネットワークアダプタが2つのノードのGPUメモリ間で直接データを転送できます。これにより、データコピーにCPUが関与する必要がなくなり、PCIeバスへのアクセスが減少し、不要なデータコピーが最小限に抑えられ、通信性能が大幅に向上します。

SHARP

SHARP（Scalable Hierarchical Aggregation and Reduction Protocol）は、集団通信を伴うハイパフォーマンス・コンピューティングや人工知能アプリケーションの効率を最適化するために設計された集団通信ネットワークオフロード技術です。

SHARPはコンピュートエンジンユニットをInfiniBandスイッチチップに統合し、様々な固定小数点演算や浮動小数点演算をサポートします。複数のスイッチを持つクラスタ環境では、SHARPは物理トポロジに論理ツリーを確立し、複数のスイッチが並列分散的に集団通信処理を行います。このSHARPツリーの並列分散処理により、集団通信の待ち時間が大幅に短縮され、ネットワークの輻輳が最小限に抑えられ、クラスタシステムのスケーラビリティが向上します。このプロトコルは、Barrier、Reduce、All-Reduceなどのオペレーションをサポートし、大規模計算環境における集団通信の効率を高めます。

InfiniBandインネットワーク・コンピューティングのアプリケーション：HPC & AI

InfiniBandインネットワーク・コンピューティングは、システム全体のパフォーマンスと効率を向上させる能力があるため、HPCやAIで顕著な応用が見られます。

HPCにおけるInfiniBandインネットワーク・コンピューティング

計算集約的なタスクが主流であるHPCの分野では、CPU/GPUリソースの競合を緩和するためにInfiniBandが役立っています。HPCタスクは、ポイントツーポイント通信と集団通信の両方を含む通信集約的な性質を持っているため、効果的な通信プロトコルが必要となります。オフロード技術、RDMA、GPUDirect、およびSHARP技術が、コンピューティングパフォーマンスを最適化するために広く採用されています。

AIにおけるInfiniBandインネットワーク・コンピューティング

最先端技術である人工知能は、トレーニングプロセスを迅速化し、高精度のモデルを得るために、InfiniBandインネットワーク・コンピューティングに大きく依存しています。現在の状況では、GPUや専用のAIチップがAIトレーニング・プラットフォームの計算コアとして機能しています。これらのプラットフォームは、InfiniBandを活用してトレーニングの高速化を図っており、このプロセスは計算量の多さで知られています。アプリケーションの通信プロトコルをオフロードすることは、AIトレーニング中の待ち時間を短縮する上で非常に重要です。GPU クラスタ間の通信帯域幅を強化するためにGPUDirect RDMA技術を採用し、通信遅延を効果的に削減します。

結論

InfiniBandインネットワーク・コンピューティングは、革新的なネットワーク・コンピューティング技術として、HPCやAI分野に効率的で信頼性の高い計算サポートを提供します。情報技術分野における重要な革新の1つとして、InfiniBandインネットワーク・コンピューティングは、ネットワーク・コンピューティング技術の継続的な進歩と進化をリードしていきます。FSでは、IBスイッチ、IBネットワークカード、IBモジュールケーブルなど、AIソリューション関連のInfiniBand製品を提供することができます。

danika3160’s blog

ここで通信分野と関連する記事を紹介していきます！よろしくお願いいたします。