デザインツール
アプリケーション

Micron® SSD、WEKA™、AMD EPYC™、Supermicro

ライアン・メレディス | 2023年1月

次世代AIストレージ:Micron® SSD、WEKA™、AMD EPYC™、Supermicro

Supercomputing 2022において、Micron®データセンターワークロードエンジニアリングチーム、WEKAAMDおよびSupermicroは共同で、AIワークロード向けのWEKA分散ストレージソリューションで第4世代AMD EPYCプラットフォームを初めてテストしました。

私たちは、最先端のハードウェアとソフトウェアを最大限に活用したソリューションを展開し、MLPerf™ストレージワーキンググループの新しいベンチマークに従って、要求の厳しいAIワークロードに対するサポート能力を評価しました。

この取り組みについてLinkedInに投稿したとき、このグループがMLPerfストレージを大規模にテストし、AMD Genoaプロセッサー上でWEKAをテストした最初のグループであることを知りました。リラン・ズヴィベル氏(WEKAの共同設立者兼CTO)は、このプロセスが非常にスムーズに進んだことを喜ぶとともに、「全く新しいプラットフォーム(新しいPCIe®バス、新しいCPUなど)上で初めて実行する」ことには、しばしば困難が伴うとコメントしています。

WEKAバージョン4では、Software-Defined Storageスタックを拡張し、次世代システムの優位性を活かすために必要なノードあたりのスケーラビリティとパフォーマンスを向上させました。WEKAによれば、バージョン4は以下のような特徴を持ちます。

NVMeTMおよび最新のネットワーク向けに設計されたデータプラットフォーム。

帯域幅とIOPsのパフォーマンスを向上させ、レイテンシーとメタデータを削減。

オンプレミスまたはクラウド上のデータへの広範なマルチプロトコル アクセスをサポート。

混合ワークロードや小規模ファイルでは、チューニングを必要とせず、ローカルディスクよりも高速。

Supermicroは、WEKAクラスターノード用に新しいAS-1115CS-TNRシステムを6台提供しました。これらのプラットフォームは、PCIe® Gen5バックプレーンと共に第4世代AMD EPYC CPUを活用しています。テスト対象システムの詳細は以下の通りです。

AMD 第4世代EPYC 9654P CPU(96コア)

マイクロン DDR5 4800MT/秒 RDIMM 12枚

マイクロン 7450 NVMe SSD 10枚

NVIDIA® Connectx®-6 200Gbe NIC 2台

このソリューションはマイクロン DDR5 DRAMを活用して展開されました。このDRAMは旧世代のDDR4よりも性能とスループットが向上し、転送速度が高速化されています。

さらに、マイクロン7450 NVMe SSDを使用しました。このSSDは、マイクロン176層とCMOSアンダーアレイ(CuA)で構築されています。このSSDは、高性能と優れたサービス品質を兼ね備えており、優れたアプリケーション性能と応答時間を提供します。

ネットワークにはNVIDIA ConnectX-6 200Gbe NICを使用し、ストレージノードごとに2NIC、クライアントごとに1NICを使用しました。PCIe Gen5 400Gbe NVIDIA ConnectX-7 NICが利用可能になれば、同様のパフォーマンスでネットワーク構成と実装を簡素化できるため、その使用をお勧めします。

マイクロン SSDの隣に並んだwekaデバイス、背景は黒

ベースライン結果

最大システムスループットを測定するため、12台の負荷発生クライアントで、全クライアントにわたって1~32キュー深度(QD)の範囲でFIOパフォーマンスをテストしました。

1mシーケンシャル読み取りスループット水平折れ線グラフ(緑色)
1mシーケンシャル書き込み水平折れ線グラフ(緑色)

1MBの読み込みで142GB/秒、1MBの書き込みで103GB/秒に達しました。WEKAが採用しているイレイジャーコーディング(消失訂正符号)4+2スキームを考慮すると、書き込みスループットは驚異的です。これは第4世代AMD EPYC CPUによる極めて高い計算能力と、マイクロン DDR5 DRAMの性能向上によるものです。

4kランダム読み取りiops水平折れ線グラフ(緑色)
4kランダム書き込みiops水平折れ線グラフ(緑色)

ランダムワークロードでは、4KB読み取りIOPSが630万回、4KBランダム書き込みIOPSが170万回測定されました。これらは、マイクロン 7450 NVMe SSDのパフォーマンスとレイテンシー、およびWEKAが重点を置くローカルスモールブロックNVMeパフォーマンスによって実現される、クラスターからの優れたスモールブロックランダムパフォーマンスを反映しています。

AI/MLワークロード:MLPerfストレージ

MLPerfストレージベンチマークは、複数モデルのAI学習における物理的なストレージ性能を評価するために策定されました。このベンチマークでは、測定されたスリープ時間を使用して、GPUがデータを要求・処理し、次のデータバッチを求めるまでの時間をシミュレートします。こうしたステップにより、極めてバースト性の高いワークロードが生成され、ストレージは短時間に最大スループットを発揮し、その後はスリープ状態に移行します。このAIベンチマークにはいくつかの大きなメリットがあります。

  • AI/MLにおけるストレージの影響を重視
  • 物理的ストレージと前処理の設定
  • 実行にGPUアクセラレーターを必要としない
  • シードデータからモデルごとに大きなデータセットを生成可能

私たちは以下の設定でテストを行いました。

  • MLPerf Storage v0.4(プレビュー)
  • ワークロード:医療画像のセグメンテーション学習
  • モデル:Unet3D
  • シードデータ:KiTS19画像セット
  • 生成データセットサイズ:2TB (500GB x 4)
  • フレームワーク:PyTorch
  • シミュレーションGPU:NVIDIA A100
スループット速度を示す折れ線グラフ(緑色・青色)

このベンチマークの重要な点は、各MLPerfプロセスがAI学習プロセスを実行する単一のGPUを表していることです。MLPerfのストレージプロセスを拡張すると、最大スループットは45GB/sに達しますが、プロセスあたりのパフォーマンスは288プロセスあたりから低下し始めます。このデータポイントは、288個のNVIDIA A100 GPUが同時にUnet3D医療画像セグメンテーション学習プロセスを実行していることを表しており、これは36個のNVIDIA DGX A100システムに相当します。

さらに詳しく知りたい方は

以下のリソースもぜひご覧ください。

ストレージソリューションアーキテクチャー担当ディレクター

Ryan Meredith

ライアン・メレディスは、マイクロンのストレージビジネスユニットでデータセンターワークロードエンジニアリング担当ディレクターを務めています。すべてのフラッシュSoftware Defined Storageテクノロジーのほか、AIやNVMe-oF/TCPなどの分野においてマイクロンのソートリーダーシップと認知度を高めるため、新しいテクノロジーをテストしています。