デザインツール
アプリケーション

Micron® SSD、WEKA™、AMD EPYC™、Supermicro

ライアン・メレディス | 2023年1月

次世代AIストレージ:Micron® SSD、WEKA™、AMD EPYC™、Supermicro

Supercomputing 2022において、Micron®データセンターワークロードエンジニアリングチーム、WEKAAMDおよびSupermicroは共同で、AIワークロード向けのWEKA分散ストレージソリューションで第4世代AMD EPYCプラットフォームを初めてテストしました。

私たちは、最先端のハードウェアとソフトウェアを最大限に活用したソリューションを展開し、MLPerf™ストレージワーキンググループの新しいベンチマークに従って、要求の厳しいAIワークロードに対するサポート能力を評価しました。

この取り組みについてLinkedInに投稿したとき、このグループがMLPerfストレージを大規模にテストし、AMD Genoaプロセッサー上でWEKAをテストした最初のグループであることを知りました。リラン・ズヴィベル氏(WEKAの共同設立者兼CTO)は、このプロセスが非常にスムーズに進んだことを喜ぶとともに、「全く新しいプラットフォーム(新しいPCIe®バス、新しいCPUなど)上で初めて実行する」ことには、しばしば困難が伴うとコメントしています。

WEKAバージョン4では、Software-Defined Storageスタックを拡張し、次世代システムの優位性を活かすために必要なノードあたりのスケーラビリティとパフォーマンスを向上させました。WEKAによれば、バージョン4は以下のような特徴を持ちます。

NVMeTMおよび最新のネットワーク向けに設計されたデータプラットフォーム。

帯域幅とIOPsのパフォーマンスを向上させ、レイテンシーとメタデータを削減。

オンプレミスまたはクラウド上のデータへの広範なマルチプロトコル アクセスをサポート。

混合ワークロードや小規模ファイルでは、チューニングを必要とせず、ローカルディスクよりも高速。

Supermicroは、WEKAクラスターノード用に新しいAS-1115CS-TNRシステムを6台提供しました。これらのプラットフォームは、PCIe® Gen5バックプレーンと共に第4世代AMD EPYC CPUを活用しています。テスト対象システムの詳細は以下の通りです。

AMD 第4世代EPYC 9654P CPU(96コア)

マイクロン DDR5 4800MT/秒 RDIMM 12枚

マイクロン 7450 NVMe SSD 10枚

NVIDIA® Connectx®-6 200Gbe NIC 2台

このソリューションはマイクロン DDR5 DRAMを活用して展開されました。このDRAMは旧世代のDDR4よりも性能とスループットが向上し、転送速度が高速化されています。

さらに、マイクロン7450 NVMe SSDを使用しました。このSSDは、マイクロン176層とCMOSアンダーアレイ(CuA)で構築されています。このSSDは、高性能と優れたサービス品質を兼ね備えており、優れたアプリケーション性能と応答時間を提供します。

ネットワークにはNVIDIA ConnectX-6 200Gbe NICを使用し、ストレージノードごとに2NIC、クライアントごとに1NICを使用しました。PCIe Gen5 400Gbe NVIDIA ConnectX-7 NICが利用可能になれば、同様のパフォーマンスでネットワーク構成と実装を簡素化できるため、その使用をお勧めします。

マイクロン SSDの隣に並んだwekaデバイス、背景は黒

ベースライン結果

最大システムスループットを測定するため、12台の負荷発生クライアントで、全クライアントにわたって1~32キュー深度(QD)の範囲でFIOパフォーマンスをテストしました。

1mシーケンシャル読み取りスループット水平折れ線グラフ(緑色)
1mシーケンシャル書き込み水平折れ線グラフ(緑色)

1MBの読み込みで142GB/秒、1MBの書き込みで103GB/秒に達しました。WEKAが採用しているイレイジャーコーディング(消失訂正符号)4+2スキームを考慮すると、書き込みスループットは驚異的です。これは第4世代AMD EPYC CPUによる極めて高い計算能力と、マイクロン DDR5 DRAMの性能向上によるものです。

4kランダム読み取りiops水平折れ線グラフ(緑色)
4kランダム書き込みiops水平折れ線グラフ(緑色)

ランダムワークロードでは、4KB読み取りIOPSが630万回、4KBランダム書き込みIOPSが170万回測定されました。これらは、マイクロン 7450 NVMe SSDのパフォーマンスとレイテンシー、およびWEKAが重点を置くローカルスモールブロックNVMeパフォーマンスによって実現される、クラスターからの優れたスモールブロックランダムパフォーマンスを反映しています。

AI/MLワークロード:MLPerfストレージ

MLPerfストレージベンチマークは、複数モデルのAI学習における物理的なストレージ性能を評価するために策定されました。このベンチマークでは、測定されたスリープ時間を使用して、GPUがデータを要求・処理し、次のデータバッチを求めるまでの時間をシミュレートします。こうしたステップにより、極めてバースト性の高いワークロードが生成され、ストレージは短時間に最大スループットを発揮し、その後はスリープ状態に移行します。このAIベンチマークにはいくつかの大きなメリットがあります。

  • AI/MLにおけるストレージの影響を重視
  • 物理的ストレージと前処理の設定
  • 実行にGPUアクセラレーターを必要としない
  • シードデータからモデルごとに大きなデータセットを生成可能

私たちは以下の設定でテストを行いました。

  • MLPerf Storage v0.4(プレビュー)
  • ワークロード:医療画像のセグメンテーション学習
  • モデル:Unet3D
  • シードデータ:KiTS19画像セット
  • 生成データセットサイズ:2TB (500GB x 4)
  • フレームワーク:PyTorch
  • シミュレーションGPU:NVIDIA A100
スループット速度を示す折れ線グラフ(緑色・青色)

このベンチマークの重要な点は、各MLPerfプロセスがAI学習プロセスを実行する単一のGPUを表していることです。MLPerfのストレージプロセスを拡張すると、最大スループットは45GB/sに達しますが、プロセスあたりのパフォーマンスは288プロセスあたりから低下し始めます。このデータポイントは、288個のNVIDIA A100 GPUが同時にUnet3D医療画像セグメンテーション学習プロセスを実行していることを表しており、これは36個のNVIDIA DGX A100システムに相当します。

さらに詳しく知りたい方は

以下のリソースもぜひご覧ください。

Director, Storage Solutions Architecture

Ryan Meredith

Ryan Meredith is director of Data Center Workload Engineering for Micron's Storage Business Unit, testing new technologies to help build Micron's thought leadership and awareness in fields like AI and NVMe-oF/TCP, along with all-flash software-defined storage technologies.