次世代AIストレージ:Micron® SSD、WEKA™、AMD EPYC™、Supermicro
Supercomputing 2022において、Micron®データセンターワークロードエンジニアリングチーム、WEKA、AMDおよびSupermicroは共同で、AIワークロード向けのWEKA分散ストレージソリューションで第4世代AMD EPYCプラットフォームを初めてテストしました。
私たちは、最先端のハードウェアとソフトウェアを最大限に活用したソリューションを展開し、MLPerf™ストレージワーキンググループの新しいベンチマークに従って、要求の厳しいAIワークロードに対するサポート能力を評価しました。
この取り組みについてLinkedInに投稿したとき、このグループがMLPerfストレージを大規模にテストし、AMD Genoaプロセッサー上でWEKAをテストした最初のグループであることを知りました。リラン・ズヴィベル氏(WEKAの共同設立者兼CTO)は、このプロセスが非常にスムーズに進んだことを喜ぶとともに、「全く新しいプラットフォーム(新しいPCIe®バス、新しいCPUなど)上で初めて実行する」ことには、しばしば困難が伴うとコメントしています。
WEKAバージョン4では、Software-Defined Storageスタックを拡張し、次世代システムの優位性を活かすために必要なノードあたりのスケーラビリティとパフォーマンスを向上させました。WEKAによれば、バージョン4は以下のような特徴を持ちます。
NVMeTMおよび最新のネットワーク向けに設計されたデータプラットフォーム。
帯域幅とIOPsのパフォーマンスを向上させ、レイテンシーとメタデータを削減。
オンプレミスまたはクラウド上のデータへの広範なマルチプロトコル アクセスをサポート。
混合ワークロードや小規模ファイルでは、チューニングを必要とせず、ローカルディスクよりも高速。
Supermicroは、WEKAクラスターノード用に新しいAS-1115CS-TNRシステムを6台提供しました。これらのプラットフォームは、PCIe® Gen5バックプレーンと共に第4世代AMD EPYC CPUを活用しています。テスト対象システムの詳細は以下の通りです。
AMD 第4世代EPYC 9654P CPU(96コア)
マイクロン DDR5 4800MT/秒 RDIMM 12枚
NVIDIA® Connectx®-6 200Gbe NIC 2台
このソリューションはマイクロン DDR5 DRAMを活用して展開されました。このDRAMは旧世代のDDR4よりも性能とスループットが向上し、転送速度が高速化されています。
さらに、マイクロン7450 NVMe SSDを使用しました。このSSDは、マイクロン176層とCMOSアンダーアレイ(CuA)で構築されています。このSSDは、高性能と優れたサービス品質を兼ね備えており、優れたアプリケーション性能と応答時間を提供します。
ネットワークにはNVIDIA ConnectX-6 200Gbe NICを使用し、ストレージノードごとに2NIC、クライアントごとに1NICを使用しました。PCIe Gen5 400Gbe NVIDIA ConnectX-7 NICが利用可能になれば、同様のパフォーマンスでネットワーク構成と実装を簡素化できるため、その使用をお勧めします。
ベースライン結果
最大システムスループットを測定するため、12台の負荷発生クライアントで、全クライアントにわたって1~32キュー深度(QD)の範囲でFIOパフォーマンスをテストしました。
1MBの読み込みで142GB/秒、1MBの書き込みで103GB/秒に達しました。WEKAが採用しているイレイジャーコーディング(消失訂正符号)4+2スキームを考慮すると、書き込みスループットは驚異的です。これは第4世代AMD EPYC CPUによる極めて高い計算能力と、マイクロン DDR5 DRAMの性能向上によるものです。
ランダムワークロードでは、4KB読み取りIOPSが630万回、4KBランダム書き込みIOPSが170万回測定されました。これらは、マイクロン 7450 NVMe SSDのパフォーマンスとレイテンシー、およびWEKAが重点を置くローカルスモールブロックNVMeパフォーマンスによって実現される、クラスターからの優れたスモールブロックランダムパフォーマンスを反映しています。
AI/MLワークロード:MLPerfストレージ
MLPerfストレージベンチマークは、複数モデルのAI学習における物理的なストレージ性能を評価するために策定されました。このベンチマークでは、測定されたスリープ時間を使用して、GPUがデータを要求・処理し、次のデータバッチを求めるまでの時間をシミュレートします。こうしたステップにより、極めてバースト性の高いワークロードが生成され、ストレージは短時間に最大スループットを発揮し、その後はスリープ状態に移行します。このAIベンチマークにはいくつかの大きなメリットがあります。
- AI/MLにおけるストレージの影響を重視
- 物理的ストレージと前処理の設定
- 実行にGPUアクセラレーターを必要としない
- シードデータからモデルごとに大きなデータセットを生成可能
私たちは以下の設定でテストを行いました。
- MLPerf Storage v0.4(プレビュー)
- ワークロード:医療画像のセグメンテーション学習
- モデル:Unet3D
- シードデータ:KiTS19画像セット
- 生成データセットサイズ:2TB (500GB x 4)
- フレームワーク:PyTorch
- シミュレーションGPU:NVIDIA A100
このベンチマークの重要な点は、各MLPerfプロセスがAI学習プロセスを実行する単一のGPUを表していることです。MLPerfのストレージプロセスを拡張すると、最大スループットは45GB/sに達しますが、プロセスあたりのパフォーマンスは288プロセスあたりから低下し始めます。このデータポイントは、288個のNVIDIA A100 GPUが同時にUnet3D医療画像セグメンテーション学習プロセスを実行していることを表しており、これは36個のNVIDIA DGX A100システムに相当します。
さらに詳しく知りたい方は
以下のリソースもぜひご覧ください。