InfiniBandの洞察: デジタル時代の高性能コンピューティングを強化
21世紀に入ってから、クラウドコンピューティングとビッグデータの人気の高まりにより、データセンターの急速な進化がますます明らかになってきました。このダイナミックな状況の中で、InfiniBandは極めて重要なテクノロジーとして浮上し、データセンターの中心で重要な役割を果たしています。注目すべきことに、2023年の時点では、ChatGPTのようなイノベーションに代表される大規模なAIモデルの台頭により、InfiniBandがさらに目立つ地位に押し上げられています。この注目の高まりは、GPTモデルを支えるネットワークがInfiniBandを基盤として構築されているという事実に起因しています。
しかし、InfiniBandテクノロジーとは正確には何ですか?また、その広範な採用にどのような特性が寄与しているのでしょうか? さらに、なぜ「InfiniBand 対 イーサネット」の議論が続いているのでしょうか? この包括的な記事は、これらの質問のそれぞれに対処することを目的としており、InfiniBand テクノロジーの複雑さと、進化し続けるハイ パフォーマンス コンピューティングの状況におけるその重要性についての貴重な洞察を提供します。
InfiniBandテクノロジーの進化
堅牢な通信プロトコルであるInfiniBand(IB)は、そのルーツがコンピューター アーキテクチャの進化と絡み合っています。現代のデジタルコンピュータの基礎は、算術論理ユニットと制御ユニットを含むCPU、RAMとハードディスクを含むメモリ、およびI/Oデバイスなどの重要なコンポーネントを特徴とする構造であるフォンノイマンアーキテクチャに基づいています。
1990年代初頭に入ると、コンピューティング環境では、拡大する外部デバイスをサポートする需要が急増しました。このニーズに応えて、IntelはPeripheral Component Interconnect(PCI)バス設計を標準のPCアーキテクチャに導入することで先駆者として浮上しました。この革新的なステップは、コンピューター進化の軌跡における極めて重要な瞬間を示し、現在私たちがInfiniBandとして認識している強力な通信プロトコルの最終的な出現の基礎を築きました。
その後、インターネットは急速な発展段階を経て、オンラインビジネスとユーザーベースの隆盛な成長を伴い、ITシステムの能力に大きな課題を課しました。
この期間、ムーアの法則の勢いによってCPU、メモリ、ハードドライブなどのコンポーネントは目覚ましい進歩を遂げましたが、PCIバスはアップグレードの遅れに直面していました。この開発ペースの遅さによりI/Oパフォーマンスが大幅に制約され、システム全体のボトルネックとして浮上しました。
このボトルネックに対応するため、Intel、Microsoft、SUNなどの業界大手が主導する共同の取り組みにより、「次世代 I/O (NGIO)」テクノロジ標準が誕生しました。同時に、IBM、コンパック、ヒューレット・パッカードが「Future I/O(FIO)」の開発を担当した。注目すべきは、これら3つの組織が共同で1998年にPCI-X標準の作成を先導したことです。
極めて重要な出来事として、FIO Developers ForumとNGIO Forumが合併し、InfiniBand Trade Association設立の基礎が築かれました。この共同作業により、2000年にInfiniBandアーキテクチャ仕様の1.0バージョンが正式にリリースされる道が開かれました。本質的に、InfiniBandの開始はPCIバスに取って代わることを目的としていました。RDMAプロトコルを導入したInfiniBandは、遅延の短縮、帯域幅の拡大、信頼性の向上を実現し、より強力なI/Oパフォーマンスを実現しました。
1999年5月、IntelとGalileoテクノロジーの元従業員のグループが集まり、イスラエルに拠点を置くチップ会社Mellanoxを設立しました。 設立後、MellanoxはNGIOと提携し、NGIOとFIO が合併したとき、MellanoxはInfiniBandエコシステムにシームレスに移行しました。2001年は、Mellanoxが最初のInfiniBand製品を発表し、節目となりました。
しかし、InfiniBandコミュニティの状況は2002年に顕著な変化を遂げました。主要なプレーヤーであるIntelは、2004年に正式に開始されたPCI Express(PCIe)の開発に突然注意を向けました。同時に、もう1つの主要な貢献者であるMicrosoftもInfiniBand開発への積極的な関与から撤退しました。SUNや日立などの一部の企業は粘り強く耐えましたが、業界大手の撤退はInfiniBandの発展の軌道に影を落としています。
転機は2003年に起こり、InfiniBandが新しいアプリケーションドメイン、つまりコンピュータクラスタの相互接続性を発見したときでした。同年、バージニア工科大学はInfiniBandテクノロジーに基づいたクラスターを構築し、スーパーコンピューターの世界ランキングであるTOP500リストで3位を確保しました。
2004年には、もう1つの注目すべきInfiniBand非営利組織、Open Fabrics Alliance(OFA)が誕生しました。OFAとIBTAは協力関係を維持しており、IBTAはInfiniBandプロトコル標準の開発、保守、強化に重点を置き、OFAはInfiniBandプロトコルと上位レベルのアプリケーションAPIの両方の開発と保守を担当します。
2005年、InfiniBandはストレージデバイスの接続という別のアプリケーションシナリオを発見しました。この時期には、ストレージエリアネットワーク(SAN)テクノロジとしてInfiniBandとファイバチャネル(FC)が普及し、InfiniBandテクノロジに対する認識が高まりました。
InfiniBandが勢いを増すにつれ、そのユーザーベースは拡大し、2009年までにTOP500リストの181システムがInfiniBandテクノロジーを利用していましたが、依然としてギガビットイーサネットが259システムで主流でした。
2012年以降、高性能コンピューティング(HPC)の需要の高まりに後押しされて、InfiniBandテクノロジーは進歩を続け、着実に市場シェアを拡大しました。2015年には、TOP500リストのシェアが初めて50%を超え、大きな節目を迎えました。InfiniBandは、スーパーコンピューターに推奨される内部相互接続テクノロジーになりました。
InfiniBandの進歩に応じて、イーサネットも開発されました。2010年4月、IBTAはRoCE(RDMA over Converged Ethernet)を導入し、RDMAテクノロジーをInfiniBandからイーサネットに「移植」しました。2014年までに、より成熟したバージョンであるRoCE v2が提案されました。RoCE v2により、イーサネットはコストと互換性の利点を活用して、InfiniBandとの技術的パフォーマンスのギャップを大幅に縮めました。
以下のグラフは、2007年から2021年までのTOP500リストのテクノロジー シェアを示しており、高性能コンピューティングテクノロジーのダイナミックな状況を示しています。
グラフから明らかなように、25Gおよびより高速なイーサネット(濃い緑色の線で示されている)の台頭は 2015年に始まり、すぐに業界の支持を得て、一時的にInfiniBandに影を落としました。GPT-3に代表される大規模なAI言語モデルの出現により、高性能コンピューティングとインテリジェントコンピューティングに対する社会的需要が急激に高まりました。
GPT-3のような大規模なAI言語モデルが課す驚異的な計算要求を満たすために、不可欠なバックボーンは高性能コンピューティング・クラスターです。性能に関して言えば、InfiniBandはそのようなクラスタに適した選択肢として際立っています。
高性能ネットワーキングの領域では、主にInfiniBandと高速イーサネットの戦いが繰り広げられており、双方が同等の実力を発揮しています。豊富なリソースに恵まれたメーカーはInfiniBandを選ぶことが多く、費用対効果を優先するメーカーは高速イーサネットを選ぶ傾向にあります。
IBMのBlueGene、Cray、IntelのOmniPathのような他のテクノロジーは、選択肢の第2層の代替品として残っています。これらの技術が複雑に絡み合っていることは、高性能コンピューティングのダイナミックな状況を反映しています。
InfiniBandの技術原理
InfiniBandの開発の歴史をたどった後、その動作原理を深く調査すると、InfiniBandがパフォーマンスと遅延の点で従来のイーサネットを上回る理由が明らかになります。InfiniBandはどのようにしてこのような低遅延と高性能を実現しているのでしょうか?
先駆的な進歩: RDMA
前に強調したように、InfiniBandの際立った機能は、リモートダイレクトメモリアクセス(RDMA)プロトコルの早期統合です。
従来のTCP/IPフレームワークでは、データはネットワーク・カードからメイン・メモリに転送され、さらにアプリケーションのストレージ・スペースに転送されます。逆に、アプリケーション空間からのデータも同様の経路を辿り、アプリケーション空間からメインメモリに移動した後、ネットワークカードを通じてインターネットに転送されます。
この複雑なI/O操作では、メインメモリーでの中間コピーが必要となり、データ転送経路が長くなり、CPUに負荷がかかり、転送レイテンシーが発生します。
RDMAは、効果的に「仲介者を排除する」技術として機能します。カーネルバイパスメカニズムで動作するRDMAは、アプリケーションとネットワークカード間の直接データ読み書きを容易にし、サーバー内のデータ転送レイテンシをほぼ1マイクロ秒に抑えます。
さらに、RDMAのゼロコピー・メカニズムは、受信側が送信側のメモリから直接データにアクセスすることを可能にし、メインメモリの関与の必要性を回避します。その結果、CPUの負担が大幅に軽減され、CPU全体の効率が大幅に向上します。
前に強調したように、InfiniBandの広範な採用は、データ転送効率に対するRDMAの変革的影響によるところが大きいと考えられます。
InfiniBandネットワークアーキテクチャ
InfiniBandのネットワーク・トポロジー構造は、以下の図で視覚的に表現されています:
InfiniBandはチャネルベースのアーキテクチャで構築されており、次の4つの主要コンポーネントを備えています:
-
HCA (ホストチャネルアダプタ)
-
TCA (ターゲットチャネルアダプタ)
-
InfiniBandリンク(ケーブルからファイバ、さらにはオンボードリンクまで、さまざまなチャネルを接続する)
-
InfiniBandスイッチとルーター(ネットワーキングに不可欠)
チャネル・アダプタ、特にHCAとTCAは、InfiniBandチャネルの確立において重要な役割を果たし、すべての伝送においてセキュリティと指定されたQoS(Quality of Service)レベルの遵守を保証します。
InfiniBandを利用するシステムは、複数のサブネットに構成することができ、各サブネットは60,000以上のノードをサポートすることができます。サブネット内では、InfiniBandスイッチがレイヤー2の処理を行い、ルーターやブリッジがサブネット間の接続を容易にします。
InfiniBandの第2層の処理は合理化されています。InfiniBandの各サブネットには、16ビットのローカル識別子(LID)を生成するサブネットマネージャが搭載されています。複数のポートで構成されるInfiniBandスイッチは、レイヤ2ローカル・ルーティング・ヘッダに含まれるLIDに基づいて、あるポートから別のポートへのデータ・パケットの転送を促進します。スイッチは主にパケット管理を行い、積極的にデータパケットを生成したり消費したりすることはありません。
InfiniBandは、シンプルな処理と独自のCut-Throughテクノロジーを活用することで、フォワーディング・レイテンシの大幅な短縮を実現し、100ns以下のレベルに達します。このレイテンシは、従来のイーサネット・スイッチが提供できるレイテンシよりも格段に速いです。
InfiniBandネットワークでは、データは最大4KBのパケット形式で伝送され、シリアル方式を採用しています。
InfiniBandプロトコルスタック
InfiniBandプロトコルは構造化されたレイヤーアプローチを採用しており、各レイヤーは独立して機能し、その上に位置するレイヤーにサービスを提供します。視覚的な表現として、以下の図を参照してください:
InfiniBandプロトコル・スタックには物理層が含まれ、ビット信号がどのようにワイヤー上のシンボル、フレーム、データシンボル、パケット間のデータパディングに構造化されるかを決定します。物理層は、信号プロトコルの正確な仕様を提供し、効率的なパケットの構築を容易にします。
スタックを上げると、リンク層はデータパケットのフォーマットを定義し、フロー制御、ルーティング選択、エンコード、デコードといったパケット操作に不可欠なプロトコルの概要を示します。
ネットワーク層は、40バイトのグローバル・ルート・ヘッダー(GRH)をデータ・パケットに付加することでルーティング選択を担当し、効果的なデータ転送を促進します。
転送プロセスでは、ルーターが可変CRCチェックを実行し、エンド・ツー・エンドのデータ転送の完全性を保証します。
プロトコルスタックを上へ進むと、トランスポート層がデータパケットを指定されたキューペア(QP)に配送する役割を担い、QPにパケットを効果的に処理する方法を指示します。
InfiniBandの明確に定義されたレイヤー1-4は、集合的に包括的なネットワークプロトコルを構成し、そのエンドツーエンドのフロー制御は、ネットワークのパケット送受信の基盤を形成し、ロスレスネットワークを保証します。
キュー・ペア(QP)はRDMA技術において極めて重要な役割を果たします。送信キュー(SQ)と受信キュー(RQ)の2つのキューで構成されるQPは、基本的な通信ユニットとして機能します。ユーザーがデータを送受信するためにAPIコールを呼び出すと、基本的にデータをQPに置くことになります。QP内のリクエストは、ポーリング・メカニズムを使って順次処理されます。
InfiniBandリンクレート
InfiniBandリンクは、銅線ケーブルまたは光ファイバーケーブルのいずれかを使用して確立することができ、InfiniBand専用ケーブルは、特定の接続要件に基づいて選択されます。
物理層では、InfiniBandは1X、4X、12Xといった複数のリンク速度を定義しており、それぞれが各方向に2本のワイヤを持つ4線シリアル差動接続を採用しています。
例えば、初期のSDR(シングル・データ・レート)仕様では、1Xリンクの帯域幅は2.5Gbps、4Xリンクは10Gbps、12Xリンクは30Gbpsでした。しかし、8b/10bエンコーディングの利用により、1Xリンクの実際のデータ帯域幅は2.0Gbpsでした。リンクの双方向性を考慮すると、バスに対する総帯域幅は4Gbpsでした。
時間の経過とともに、InfiniBandのネットワーク帯域幅は、SDR、DDR、QDR、FDR、EDR、HDRからNDR、XDR、GDRへと継続的にアップグレードされてきました:
InfiniBandの商用製品
FS.comは、NDR、HDR、EDR、FRDなど、お客様の様々な速度要件に対応するため、40Gから800Gまでの速度をカバーする多様な製品ポートフォリオを提供しています。当社の製品ラインには、InfiniBand Quantum/Quantum-2スイッチ、InfiniBandモジュール、InfiniBandアダプタ、0.5mから100mの距離をサポートするAOC/DACケーブルなどがあります。これらの製品は、高速相互接続と超低遅延をサポートするだけでなく、スケーラブルなソリューションを提供し、AI開発者や科学研究者の研究、イノベーション、製品開発を加速します。
さらに、当社は世界中に7つの現地倉庫を持ち、迅速な配送を保証します。FS.comは、優れた製品を保証するために、厳格なパフォーマンス、信頼性、シナリオ、互換性テストを実施しています。FS.comはプロフェッショナルな技術チームを擁し、アプリケーション・シナリオに応じたソリューションの展開において豊富な経験を有しています。ハイパフォーマンスコンピューティング、データセンター、教育、研究、生物医学、金融、エネルギー、自律走行、インターネット、製造、通信などのソリューションを積極的に提供しています。その他の分野のお客様にもプロフェッショナルなサービスを提供します。
結論
要約すると、高性能コンピューティングと人工知能の急増する需要によって推進される、InfiniBandの軌道は有望であるように見えます。
InfiniBandは、大規模なコンピューティングクラスターやスーパーコンピューターに広く採用されており、その高性能と低遅延の相互接続テクノロジで際立っています。帯域幅の向上と遅延の削減を提供することで、大規模なデータ転送と同時コンピューティングの要件にシームレスに対応します。多様なトポロジーや複雑な通信パターンへの適応性により、InfiniBandは独自の地位を確立し、高性能コンピューティングとAIの分野で強力な選択肢となっています。
それにもかかわらず、イーサネットは広く普及しているネットワーキング・テクノロジーであり、依然として進化の軌跡をたどっています。イーサネットは、高速化と技術的なブレークスルーによって、データセンターでの地位を確固たるものとし、InfiniBandとのギャップを埋めてきました。包括的なエコシステムと成熟した標準化サポートを誇るイーサネットは、一般的なデータセンター環境において、アクセスしやすく管理しやすいソリューションとして浮上しています。
技術の進歩と需要の変化に伴い、InfiniBandとイーサネットは、さまざまなアプリケーションシナリオでそれぞれの強みを発揮する態勢を整えています。InfiniBandとイーサネットの最終的な勝敗は依然として不透明であり、展開される物語を解き明かすのは時間しかない。間違いなく、InfiniBandとイーサネットは、情報技術発展の舵取りをし、高まる帯域幅のニーズに対応し、効率的なデータ伝送と処理のための優れた機能を提供し続けるでしょう。