マイクロンは先ごろ、Micron® 9400 NVMe™ SSDにおけるMLPerf Storage v0.5の結果を発表しました。この結果は、AIサーバー内のローカルキャッシュとしての高性能NVMe SSDを強調しており、マイクロン9400 NVMe SSDはこのユースケースに対して極めて良好に機能します。しかし、ほとんどのAIトレーニングデータはローカルキャッシュではなく、共有ストレージに存在します。SC23に向けて、マイクロンは、30TB Micron 6500 ION NVMe SSDを搭載したWEKAストレージクラスターで、MLPerf Storage AIワークロードを検証しました。
WEKAは、AIワークロード向けに設計された分散型並行ファイルシステムで、マイクロンは、高性能SDSソリューションでMLPerfストレージAIワークロードがどのようにスケールするのかを知りたいと考えました。結果は啓発的であり、現世代のAI システムのサイジングに関する推奨事項を作成するのに役立ち、将来のAIストレージ システムに必要となる大規模なスループットを示唆しています。
まず、MLPerf Storageについて簡単におさらいしましょう。
MLCommons は、6種類のベンチマーク一式を維持・開発し、今後の最新モデルの開発をサポートするよう、オープンデータベースを開発しています。MLPerf Storage Benchmark Suiteは、MLCommonsのベンチマークコレクションの最新作です。
MLPerf Storageは解決を目指している2つの特有の課題に直面しています。AIアクセラレーターにコストがかかることと、利用可能なデータセットの規模が小さいことです。
マイクロンのこれまでのブログ投稿を見て、MLPerfストレージが生成するワークロードとベンチマークのディスカッションを掘り下げましょう。
- Micron 9400 NVMe SSD:AIストレージのためのトップレベルのPCIe Gen4 SSD
- AI学習向けストレージ:MLPerf Storageを使って、Micron 9400 NVMe SSDを分析する
次に、テスト対象のWEKAクラスターを見ていきましょう
私のチームメイトのスジートが、今年初めの投稿で合成ワークロードにおけるクラスターのパフォーマンスを説明しました。結果をすべて記載している投稿を見てみましょう。
クラスターは、6つのストレージノードで構成されており、各ノードが以下のように設定されています。
- Supermicro AS-1115CS-TNR
- シングルポケットAMD EPYC™ 9554P CP
- 64コア / 3.1 GHz ベース / 3.75 GHz ブースト
- 384GB Micron DDR5 DRAM
- 10 マイクロン 30TB 6500 NVMe SSD
- 400 GbE ネットワーク
このクラスターは合計で838TBの容量を提供し、キュー深度の高いワークロードの場合は200GB/秒を達成します。
最後に、MLPerf Storageでこのクラスターがどのようにパフォーマンスするのか見ていきましょう
クイックメモ:ここに表示されている結果は、MLPerf Storageの審査を受けておらず、未検証となっています。また、MLPerf Storage ベンチマークは、2024年最初のリリースに向けてv0.5から次のバージョンに変更中です。ここに表示されている数字は、v0.5リリースと同じ方法論を使っています(各クライアントの独立したデータセット、独立したクライアント、およびクライアント内のアクセラレーターがバリアを共有)。
MLPerf Storage ベンチマークは、バージョン0.5でNVIDIA® V100アクセラレーターをエミュレートします。NVIDIA DGX-2サーバー は16 V100アクセラレーターを備えています。このテストでは、NVIDIA DGX-2のように、各クライアントが16個のV100アクセラレーターをエミュレートするWEKAクラスターでサポートされるクライアント数を表示しています。
さらに、MLPerf Storageベンチマークのv0.5は、Unet3DとBERTという2つの異なるモデルを導入しています。テストを通して私たちは、BERTは著しいストレージトラフィックを生成しないことが分かったので、このテストではUnet3Dに集中することにします (Unet3Dは3D医療イメージングモデル)。
このプロットは、クライアントの所定のノード数に対するストレージシステムへの合計スループットを表示しています。各ノードは16のエミュレート済みアクセラレーターを備えていることを覚えておきましょう。さらに、「成功」とみなされるには、所定の数のノードとアクセラレーターが90%以上のアクセラレーター使用率を維持する必要があります。アクセラレーターが90%を下回った場合は、データ待ちの状態で、アクセラレーターのアイドル時間を示しています。
こちらは6つのノードのWEKAストレージクラスターが16のクライアントをサポートしており、それぞれ16のアクセラレーターをエミュレートして(合計256のエミュレート済みアクセラレーター)、91GB/秒のスループットを達成しています。
このパフォーマンスは、16機のNVIDIA DGX-2 システム(それぞれ16のV100 GPU を搭載)に相当します。これは、6ノードWEKA クラスターでサポートされるAIシステムの数としては非常に高いものです。
V100はPCIe Gen3 GPUであり、NVIDIAのGPU世代におけるパフォーマンス向上のペースは、プラットフォームやPCIe の様々な世代をはるかに上回っています。単一ノードシステムでは、このワークロードでエミュレート済みのNVIDIA A100 GPUが4倍速いことが分かりました。
最大91GB/秒のスループットにより、このWEKA導入では8 つのDGX A100システム(それぞれ8つのA100 GPUを搭載)がサポートされると推定できます。
さらにH100 / H200(PCIe Gen5)とX100(PCIe Gen6)では将来的に、最先端のAIトレーニングサーバーがかなりの量のスループットを推進することになります。
現在では、WEKAストレージとマイクロン6500 NVMe SSDが、AIワークロードに対する能力、パフォーマンス、スケーラビリティの完璧な組み合わせとなっています。
マイクロンは引き続き、AI向けストレージを追求していきます。ご期待ください!