デザインツール
AI

より少ない消費電力で、より速くAIワークロードを完了するMicron 9550 SSD

ライアン・メレディス | 2024年10月

Micron 9550高性能SSDは、AIワークロードに大きな変革をもたらします。実績あるMicron G8 NAND、最新のコントローラ、SSDのすべての主要コンポーネントの垂直統合を利用することにより、マイクロンはパフォーマンスだけでなく電力効率においてもクラス最高のドライブを設計しました。

私のチームでは、最先端の4つのAIワークロードでMicron 9550 U.2 7.68TBドライブのテストを実施しました。その結果、Micron 9550は、AIシステム向けの最高のデータセンター用SSDであることが実証されました。


4つのワークロードでクラス最高
 

9550ワークロードのグラフ


テストしたすべてのワークロードで、Micron 9550は高速であるだけでなく、平均電力使用量が少ない、つまりSSDのエネルギー使用量(ワークロード時間×平均電力)を大幅に削減するという結果が出ています。各ワークロードについて詳しく見ていきましょう。
 

グラフニューラルネットワークトレーニング:Big accelerator Memory
 

Big accelerator Memory(BaM)とGPU-Initiated Direct Storage(GIDS)は、NVMeドライバに代わり、高度なGPUスレッドパラレル化を利用して、NVIDIA® H100を使用するPCIe®第5世代SSDのパフォーマンスを向上します。このワークロードは、小さいブロックの入出力(IO)では私たちが今までテストした中で最も高いパフォーマンスを必要とします。

合成スケーリングテストのグラフ

この合成テストはFIO(フレキシブルIO)に似ていますが、H100 GPUから開始されます。ここでは、Micron 9550は340万入出力操作毎秒(IOPs)を達成していることが分かります。1ワットあたりのIOPsもグラフ化しました。ご覧の通り、Micron 9550は競合製品と比べて最大2倍のエネルギー効率を示しています。

実際のAIトレーニングワークロードでは、どのようになるでしょうか?

  • より高いパフォーマンス:BaMとMicron 9550を使用してH100でグラフニューラルネットワークのトレーニングを実行すると、60%高いSSDのスループットにより、33%高いパフォーマンスが得られます。
  • より少ないSSD電力:電力に関して言うと、Micron 9550は16.6Wの消費電力で290万IOPsを達成しており、43%少ないSSDエネルギーで処理を実行していることになります。
  • システムのエネルギー使用量の削減:システムの消費電力に注目すると、Micron 9550のスピードと効率性により、システム全体のエネルギー使用量が29%削減されています。

BaMなどの高性能なストレージバウンドのワークロードの場合、Micron 9550の優れた電力効率は、システムエネルギーの削減、省電力化、データセンターにおけるコストの抑制にそのまま直結します。
 

MLPerfストレージによるUnet3D医療用イメージセグメンテーション
 

MLPerfストレージのベンチマークでは、医療用イメージセグメンテーションモデルで使用するものと全く同じサイズのファイルを配置することにより、Unet3D AIトレーニングワークロードをシミュレートします。その後、TensorflowとPytorchを使用してこれらを処理し、GPUがトレーニング動作を実行しているときのスリープ時間を挿入することにより、GPUをエミュレートします。このプロセスをチューニングし、各GPUで特定のモデルを実行するにはどの程度のスループットが必要かを示すことができます。

  • より高いパフォーマンス:この場合、大きいブロックを大量に読み取るワークロードとなり、どのSSDも同じように動作するため、パフォーマンスが5%増加しています。このIOパターンは、AIトレーニングワークロードの多くで典型的です。
  • より少ないSSD電力:Micron 9550が特異な点は、32%少ない平均SSD電力で、5%のパフォーマンス向上を達成している点です。
  • SSDのエネルギー使用量の削減:より高いパフォーマンスと、より低い平均SSD電力により、このワークロードではSSDのエネルギー使用量が35%少なくなっています。

SSDレベルでの省電力が実現すると、AIトレーニングサーバーの電力バジェットの柔軟性が向上し、GPU高密度設計が可能になります。
 

DeepSpeed ZeRO-Inferenceによる大規模言語モデル推論
 

DeepSpeed ZeRO-Inferenceは、メインメモリに収まり切らないLLMを、SSDによってインテリジェントにオフロードすることで実現できるよう設計されています。

最初のテストは合成読み取り/書き込みです。これは特定のSSDを使用した場合にLLMに見られる最大のパフォーマンスを表しています。

推論ワークロードでは、読み取りのほうが一般的です。ここではスループットは15%高く、SSD電力は27%低くなっており、SSDとシステムの省エネ率は、それぞれ37%と19%です。

書き込みははるかに少ないものの、チェックポイントや、検索拡張生成(RAG)ワークロードの実行時には必ず発生します。このテストでは、Micron 9550のスループットは78%高く、SSD電力は22%少ないことが分かります。その結果、SSDのエネルギー使用量が51%、システムのエネルギー使用量が43%、それぞれ削減されています。

Meta Llama 3 70Bでは、どうなるでしょうか?

  • やや高いパフォーマンス:2つのNVIDIA L40S推論アクセラレータを搭載したシステムにおけるMeta Llama 3 700億パラメータモデルでは、Micron 9550により毎秒トークン数がわずかに増加しました。このワークロードは99%が256KBのランダム読み取りであり、テストしたすべてのSSDが、このIOパターンでは同じようなパフォーマンスを示すからです。このワークロードは、GPUコンピュートバウンドでもあります。
  • より少ないSSD電力:Micron 9550ではSSD電力が19%低く、SSDエネルギー使用量が21%少ないという結果になりました。
  • システムのエネルギー使用量の削減? システムのエネルギー使用量には、それほど影響が見られませんでした。2つのL40Sによるエネルギー使用量は、単一のSSDよりもはるかに多いからです。大規模な展開では、2%のシステム省電力化でも重要と考えられます。

Micron 9550がGPUバウンドのワークロードで同レベルのパフォーマンスを達成するにあたって、電力は19%少なく、かつエネルギーは21%少なくて済みます。ストレージサブシステムの使用電力量が少なければ、その分だけ電力に余裕が生じ、システム設計者はより多くのGPUを推論システムに使用できます。
 

NVIDIA GPUDirect®ストレージ


最後に、NVIDIA GPUDirectストレージ(GDS)を見てみましょう。ここでは、NVIDIA H100 GPUから様々なIOサイズでIOを生成し、Micron 9550から直接データを読み取り、CPU+DRAMバウンスバッファをバイパスします。

  • より高いパフォーマンス:競合製品と比べて9~34%高いスループットとなっています。小さいブロックのIOでは、Micron 9550のほうがはるかに高速です。IOサイズが大きくなると、ドライブの差は目立たなくなります。
  • より少ないSSD電力:Micron 9550の消費電力は30%少なくなっています。
  • SSDのエネルギー使用量の削減:Micron 9550は、1TBのデータ転送に使用するエネルギーが最大で66%少ないという結果になっています。


より高いパフォーマンス、より少ないSSD電力、より少ないエネルギー使用量


以上、4つのAIワークロードから明白なパターンが読み取れます。Micron 9550はより少ない電力使用量で、より高いパフォーマンスを発揮します。これは、SSDとシステムのレベルで大幅な省エネにつながります。

AIワークロードによって、データセンターにおけるシステムパフォーマンスの限界が緩和されてきており、データセンターSSDのパフォーマンス要件が急激に高度化し始めています。Micron 9550は、このような新たな課題を解決するよう設計されました。ワークロードパフォーマンスが、それを証明しています。

Director, Storage Solutions Architecture

Ryan Meredith

Ryan Meredith is director of Data Center Workload Engineering for Micron's Storage Business Unit, testing new technologies to help build Micron's thought leadership and awareness in fields like AI and NVMe-oF/TCP, along with all-flash software-defined storage technologies.