デザインツール
ストレージ

Micron 6500 ION SSDを搭載したWekaストレージは、256のAIアクセラレーターに対応

ウェス・ヴェスク | 2023年11月

マイクロンは先ごろ、Micron® 9400 NVMe™ SSDにおけるMLPerf Storage v0.5の結果を発表しました。この結果は、AIサーバー内のローカルキャッシュとしての高性能NVMe SSDを強調しており、マイクロン9400 NVMe SSDはこのユースケースに対して極めて良好に機能します。しかし、ほとんどのAIトレーニングデータはローカルキャッシュではなく、共有ストレージに存在します。SC23に向けて、マイクロンは、30TB Micron 6500 ION NVMe SSDを搭載したWEKAストレージクラスターで、MLPerf Storage AIワークロードを検証しました。

WEKAは、AIワークロード向けに設計された分散型並行ファイルシステムで、マイクロンは、高性能SDSソリューションでMLPerfストレージAIワークロードがどのようにスケールするのかを知りたいと考えました。結果は啓発的であり、現世代のAI システムのサイジングに関する推奨事項を作成するのに役立ち、将来のAIストレージ システムに必要となる大規模なスループットを示唆しています。

まず、MLPerf Storageについて簡単におさらいしましょう。
MLCommons は、6種類のベンチマーク一式を維持・開発し、今後の最新モデルの開発をサポートするよう、オープンデータベースを開発しています。MLPerf Storage Benchmark Suiteは、MLCommonsのベンチマークコレクションの最新作です。

MLPerf Storageは解決を目指している2つの特有の課題に直面しています。AIアクセラレーターにコストがかかることと、利用可能なデータセットの規模が小さいことです。

マイクロンのこれまでのブログ投稿を見て、MLPerfストレージが生成するワークロードとベンチマークのディスカッションを掘り下げましょう。

次に、テスト対象のWEKAクラスターを見ていきましょう
私のチームメイトのスジートが、今年初めの投稿で合成ワークロードにおけるクラスターのパフォーマンスを説明しました。結果をすべて記載している投稿を見てみましょう。

クラスターは、6つのストレージノードで構成されており、各ノードが以下のように設定されています。

このクラスターは合計で838TBの容量を提供し、キュー深度の高いワークロードの場合は200GB/秒を達成します。

最後に、MLPerf Storageでこのクラスターがどのようにパフォーマンスするのか見ていきましょう
クイックメモ:ここに表示されている結果は、MLPerf Storageの審査を受けておらず、未検証となっています。また、MLPerf Storage ベンチマークは、2024年最初のリリースに向けてv0.5から次のバージョンに変更中です。ここに表示されている数字は、v0.5リリースと同じ方法論を使っています(各クライアントの独立したデータセット、独立したクライアント、およびクライアント内のアクセラレーターがバリアを共有)。

MLPerf Storage ベンチマークは、バージョン0.5でNVIDIA® V100アクセラレーターをエミュレートします。NVIDIA DGX-2サーバー は16 V100アクセラレーターを備えています。このテストでは、NVIDIA DGX-2のように、各クライアントが16個のV100アクセラレーターをエミュレートするWEKAクラスターでサポートされるクライアント数を表示しています。

さらに、MLPerf Storageベンチマークのv0.5は、Unet3DとBERTという2つの異なるモデルを導入しています。テストを通して私たちは、BERTは著しいストレージトラフィックを生成しないことが分かったので、このテストではUnet3Dに集中することにします (Unet3Dは3D医療イメージングモデル)。

このプロットは、クライアントの所定のノード数に対するストレージシステムへの合計スループットを表示しています。各ノードは16のエミュレート済みアクセラレーターを備えていることを覚えておきましょう。さらに、「成功」とみなされるには、所定の数のノードとアクセラレーターが90%以上のアクセラレーター使用率を維持する必要があります。アクセラレーターが90%を下回った場合は、データ待ちの状態で、アクセラレーターのアイドル時間を示しています。

こちらは6つのノードのWEKAストレージクラスターが16のクライアントをサポートしており、それぞれ16のアクセラレーターをエミュレートして(合計256のエミュレート済みアクセラレーター)、91GB/秒のスループットを達成しています。

このパフォーマンスは、16機のNVIDIA DGX-2 システム(それぞれ16のV100 GPU を搭載)に相当します。これは、6ノードWEKA クラスターでサポートされるAIシステムの数としては非常に高いものです。

V100はPCIe Gen3 GPUであり、NVIDIAのGPU世代におけるパフォーマンス向上のペースは、プラットフォームやPCIe の様々な世代をはるかに上回っています。単一ノードシステムでは、このワークロードでエミュレート済みのNVIDIA A100 GPUが4倍速いことが分かりました。

最大91GB/秒のスループットにより、このWEKA導入では8 つのDGX A100システム(それぞれ8つのA100 GPUを搭載)がサポートされると推定できます。

さらにH100 / H200(PCIe Gen5)とX100(PCIe Gen6)では将来的に、最先端のAIトレーニングサーバーがかなりの量のスループットを推進することになります。

現在では、WEKAストレージとマイクロン6500 NVMe SSDが、AIワークロードに対する能力、パフォーマンス、スケーラビリティの完璧な組み合わせとなっています。

マイクロンは引き続き、AI向けストレージを追求していきます。ご期待ください!

SMTS Systems Performance Engineer

Wes Vaske

Wes Vaske is a principal storage solution engineer with Micron.