無効な入力です。特殊文字はサポートされていません。
マイクロンは、NVIDIAのSCADAプログラミングモデル、9650 PCIe® Gen6 SSD、BroadcomのPEX90000 PCIe Gen6スイッチ、H3 PlatformのFalcon 6048 PCIe Gen6サーバーを用いて、2億3千万IOPSを達成しました。AIインフラのパフォーマンスにおけるこの大きな節目となる達成を発表できることを誇りに思います。
Scaled Accelerated Data Access(SCADA)は、「GPU-Initiated On-Demand High-Throughput Storage Access in the BaM System Architecture(BaMシステムアーキテクチャーにおけるGPU主導のオンデマンド高スループットストレージアクセス)」に導入された安全なプログラミングモデルおよびテクノロジースタックです。SCADAは、NVIDIA、マイクロンをはじめとする企業が連携して推進する主要なストレージエコシステムの取り組みであり、ローカルメモリの制約を超えて巨大なデータセットへのアクセスを可能とする新しいインフラクラスの定義と実装を目的としています。NVMeベースの読み込み/保存操作により、アウト・オブ・メモリエラーを防止するとともに、定評のあるDPUにストレージ制御を移すことで、高いパフォーマンスを維持しながら、侵害された計算ノードから共有データを保護します。
今回の成果が示しているのは、GPU主導のストレージオーケストレーションと、次世代インターコネクト、そして世界最速クラスのSSDを組み合わせることで実現できる圧倒的な性能です。
このデモは、SC25のマイクロンブース(#3516)でライブ展示しています。詳細は本ブログの末尾をご覧ください。
Micron 9650:世界最速のSSD
Micron 9650 SSDは、単なる「ピーク性能」を追求した製品ではありません。速度、電力効率、相互運用性のバランスに優れ、次世代のAIおよびHPCワークロードを実現するためのSSDです。Micron 9650は、世界初のPCIe Gen6 SSDとしてFMS 2025で発表され(「マイクロン、AI革命を支える業界初のSSD製品ポートフォリオを発表」)、スループットおよびIOPSの両面で記録的な性能を実現すると同時に、堅牢なエコシステム統合もサポートしています。過去2年間にわたり、マイクロンはPCIe Gen6に関わるパートナー各社と緊密に連携し、数々の相互運用性テストを実施してきました。そのおかげで今年は、広範に適用するにあたっての準備を整えることができました。PCIe Gen6アーキテクチャーの採用と、小ブロック処理に最適化された設計により、Micron 9650は、NVIDIA SCADAのようなGPU主導型の環境に最適な製品となっています。
NVIDIA SCADAがAIワークロードの拡張に向けてスループットを強化
SCADA(Scaled Accelerated Data Access)は、GPUとストレージを直接接続することで従来のCPUボトルネックを回避すると同時にデータ転送を高速化し、GPU主導のストレージ操作というNVIDIAのビジョンを具現化した技術です。SCADAは、GPUがNVMeトランザクションを直接制御できるようにするための、NVIDIAによる長年の研究開発の成果です。これにより、AIワークロードのスケーラビリティに重要な小ブロック処理において、これまでにないレベルのスループットとIOPSが実現します。特に、創薬やソーシャルネットワーク、ナレッジグラフで使用されるグラフニューラルネットワーク(GNN)といった用途において大きな効果を発揮します。SCADAの詳細については、FMS 2025で発表された次のNVIDIAのプレゼンテーションをご覧ください:次世代AIワークロードに向けたメモリおよびストレージアーキテクチャーの進化(Advancing Memory and Storage Architectures for Next-Gen AI Workloads)。
BroadcomとH3:最先端のサーバープラットフォーム
このストレージオーケストレーションを支えているのが、BroadcomのPEX90000 PCIe Gen6スイッチシリーズを統合したH3 PlatformのFalcon 6048 PCIe Gen6サーバーです。このPCIe Gen6スイッチは、超低レイテンシー、高帯域幅、きわめて高いポート密度を実現しており、GPUとNVMeデバイス間の高いスケーラビリティとシームレスな接続性が可能になります。
PCIe Gen6スイッチは、H3 PlatformのFalcon 6048サーバー内部に実装されており、アクセラレーターとストレージを単一のPCIe Gen6最適化ファブリックとして統合するシステムを実現しています。本システムは、PCIe Gen6 x4接続のMicron 9650 SSD(E1.S)を最大44台搭載可能です。さらに、H3独自の高度なテレメトリーおよび診断機能により、大規模AIファブリックの運用管理を簡素化します。加えて、CPU、GPU、SSD(特にMicron 9650)、NIC、リタイマーとの大規模な相互運用性テストを実施しており、信頼性の高い安心な導入を実現します。
デモで体感する、2億3000万IOPSの実力
SC25での今回のデモは、単なる性能検証ではなく、新たな到達点を示すものとなります。デモでは、H3 PlatformのFalcon 6048サーバーを以下の構成で使用します。
- Micron 9650 PCIe Gen6 SSD:44台(E1.S、7.68TB)
- NVIDIA H100 PCIe Gen5 GPU:3基(NVL、96GB HBM3)
- Intel PCIe Gen5 CPU:1基
- Broadcom PEX90000 PCIe Gen6シリーズスイッチ:3基(各144レーン)
この構成において、SOLベンチマークのSCADAワークロードを用い、512バイトのランダムリードで2億3千万IOPSを達成しました。このベンチマークは、GPUスレッドが複数のSSDにアクセスする際に、どれだけのランダムIOPSを実現できるかを測定するものです。この結果により、SSDを1台から44台に増やしても、パフォーマンスがほぼ直線的にスケールすることが示され、GPU主導I/OとPCIe Gen6インフラが相互に高い価値をもたらすことが実証されました。
最大のパフォーマンスを引き出すため、SOLベンチマークは、44台のデバイスを3つのインスタンスに分散し、256回の反復処理(キューペアあたりのI/O数×512)および8つのキューペアを使用する構成にチューニングしました。
AIおよびHPCにとっての意義
AIモデルがますます複雑化し、推論時に扱うデータ量が増大するにつれて、ストレージがボトルネックになることが少なくありません。SCADAは、GPUがストレージI/Oを直接制御することで、この常識を覆しました。これにより、レイテンシーの低減と帯域幅利用率の最大化を実現します。さらに、PCIe Gen6および高性能SSDと組み合わせることで、このアーキテクチャーは、ベクトルデータベース、グラフニューラルネットワーク、大規模推論パイプラインといったワークロードに対して、リアルタイムのデータアクセスが可能になります。
ライブで体験
SC25(米国セントルイス、11月18日~20日)のマイクロンブース(#3516)にて、この画期的な技術をぜひご体験ください。会場では、以下をご覧いただけます。
- システムアーキテクチャーとパフォーマンス指標を示すアニメーション
- Micron 9650 SSD、NVIDIA H100 GPU、DDR5 DRAMを搭載したオープントップ構成のH3 Falcon 6048サーバー実機
- Broadcom PEX90000 PCIe Gen6シリーズスイッチの実機サンプル
- 専門スタッフが解説する、SCADA、PCIe Gen6、BroadcomのPCIeスイッチ、マイクロンSSDが切り拓くAIインフラの未来