
OpenAIは2026年5月5日、大規模AIモデルの学習を高速化し、安定性を高める新しいネットワークプロトコル「MRC(Multipath Reliable Connection)」を公開しました。AMD、Broadcom、Intel、Microsoft、NVIDIAと共同で開発した通信基盤で、仕様はOpen Compute Project(OCP)への貢献として提供されます。
MRCは、フロンティアモデルの学習に必要なGPU間通信を効率化するための技術です。大規模AIの学習では、1回の処理ステップで何百万件ものデータ転送が発生することがあります。1つの転送が遅れるだけでも、同期して動くGPU全体に影響し、学習ジョブの停止や遅延につながる可能性があります。OpenAIは、ネットワークの混雑やリンク障害、スイッチ障害が、こうした遅延やばらつきの主な原因だと説明しています。
MRCは、最新の800Gb/sネットワークインターフェースに組み込まれるプロトコルで、単一のデータ転送を数百の経路に分散できます。従来のAI学習向けネットワークでは、パケットの順序を保つために1つの通信が単一経路を通ることが多く、特定のリンクに通信が集中しやすい課題がありました。これに対しMRCは、パケットを複数の経路に分散して送信し、混雑の発生を抑えます。各パケットには最終的なメモリアドレスが含まれるため、順不同で到着しても受信側で処理できる仕組みです。
障害対応の面でも、MRCは大規模運用に適した設計になっています。経路の混雑やパケット損失を検知した場合、その経路の利用を停止し、別の経路へ切り替えます。OpenAIによると、MRCはネットワーク障害をマイクロ秒単位で迂回でき、従来のネットワーク構成で発生していた数秒から数十秒規模の安定化待ちを大きく減らせるということです。
また、MRCはマルチプレーンネットワークを前提にしています。800Gb/sの接続を1本の大きなリンクとして扱うのではなく、複数の小さなリンクに分割し、並列のネットワークとして構成します。OpenAIは、この方式により10万基を超えるGPUを2層のイーサネットスイッチだけで接続できるとしています。従来の構成では3層または4層が必要になる場合があり、MRCは消費電力や故障し得る部品数、ネットワーク全体のコスト削減にもつながります。
MRCはすでに、OpenAIがフロンティアモデルの学習に利用する最大規模のNVIDIA GB200スーパーコンピューター群に導入されています。対象には、Oracle Cloud Infrastructureがテキサス州アビリーンに構築した拠点や、MicrosoftのFairwaterスーパーコンピューターが含まれます。OpenAIは、MRCが混雑や障害、保守作業が発生してもGPU群を動かし続けるための重要な基盤になると説明しています。
出典:Supercomputer networking to accelerate large scale AI training | OpenAI
