「持っているベーコンと卵をすべて私にください。
いや……、誤解を避けるために申しますが、『ベーコンと卵をたくさんください』と言っているのではありません。ただ、あなたの持っているベーコンと卵をすべて、私にください」
-ロン・スワンソン
ベーコンと卵を大容量NVMe™ SSDに置き換えると、データセンターストレージ市場の現状がよく理解できると思います。AIは今、私たちが所有するベーコンと卵のすべてを消費し続けています。これからもその消費量は増え続け、減ることはありません。
このブログでは、より高速なAI向けストレージの短期消費を加速する3つの要因について説明します。
- AIアクセラレーターは……加速しています。
- 生成AIの産業導入:コールドデータは不要。
- TCOに最適化するストレージソフトウェアのイノベーション。
AIワークロードに高速ストレージは必要なく、従来の不安定なHDDプラットフォームでも問題なく機能しています。
はい、確かに多くのAIワークロードは、大ブロック読み込み(大部分はシーケンシャル読み込み)を使用するよう設計されており、これはHDDにとって最適なユースケースといえます。しかし、それはGen3およびGen4のAIアクセラレーターの場合であって、NVIDIA H100のようなGen5 AIアクセラレーターが幅広く導入され、業界がB100とそれ以降に向けた準備を整えるに従い、HBMに対する帯域幅の増加ペースはデータセンターシステムのアーキテクチャーよりも大幅に速く進んでいます。
ここでは、AIコンピューティングの1ユニットの帯域幅を、1アクセラレーターのHBM帯域幅、8つのチャネルを備えた1DPCにおける1CPUのDRAM帯域幅、4台のNVMe SSDの帯域幅、24台のEAMR HDDの帯域幅とそれぞれの最大転送速度で比較します。24台のHDDを選択した理由は、帯域幅の要件を満たすためには、1台のNVMe SSDに対して6台のHDDでオーバープロビジョニングするのが一般的であるためです。また、HDDの最適条件をモデル化するために、最大転送速度を選択しました。ちなみに、Y軸のスケールはlog2である点に留意してください。
AIアクセラレーターのコンピューティング能力は、HBMの進歩によって急速に向上しています。この傾向は衰える気配を見せておらず、HBM帯域幅とDRAM、およびNVMe SSDの差は世代ごとに拡大しています。
この加速により、従来のHDDベースのAIワークロードが、Micron 6500 IONのような大容量NVMeストレージに移行しています。私たちは多くの顧客を通じて、H100クラスのGPUが遂に利用可能となり、さらに多くのエンタープライズ環境で導入され始めている現状を目の当たりにしています。
AIアクセラレーターの能力の進歩により一般的なストレージのユースケースが加速している一方で、より高速なストレージは、新たなAIワークロードにも対応することが可能です。
生成AIの産業導入:コールドデータは不要
LLMのような生成AIモデルの初期生成とトレーニングはAIシステム向け大規模クラスターで実行され、少数の限られた組織でのみ行われていますが、日常的なユースケースであるオンプレミスの推論と微調整により、AIシステムの導入はほとんどの会社において進んでいます。
トレーニングされたモデル(チャットボットなど)を採用し、その後、会社の専有データに基づいてそのモデルを微調整することは、一般的な慣習になりつつあります。ここマイクロンでは、チャットボットを特長とするさまざまなツールと、私たちのデータに基づいてトレーニングしたコード生成ツールを使用しています。このトレーニングデータは機密性が高いため、微調整はオンプレミスで実行し、ローカルのインフラストラクチャー内で維持する必要があります。
そのトレーニングデータが保存される可能性が最も高い場所はどこですか? 一般的に、さまざまなベンダーから入手した、HDDベースの異なるストレージハードウェアを使用します。これまでの一般的なデータフローは、ホット層(SSD)からウォーム層(SSDキャッシュ搭載HDD)、コールド層(低速HDD、電源オフの可能性あり)、そしてアーカイブ(テープ)の順でした。AIモデルが進歩するにつれて、新しいモデルは専有データを基に繰り返しトレーニングを行う必要があります。つまり、コールド層以下からデータを取得すると、効果的な微調整能力が損なわれるということです。データは今後ますます活用され、より高速かつ大容量のストレージシステムの導入が求められるようになります。
TCOに最適化するストレージソフトウェアのイノベーション
生成AIのユースケースを可能にするには、AIシステムを効率的に使用することが重要です。大規模言語モデルは大きく、HBMとDRAMを大量に消費します。多くの場合、可能な限り迅速にトレーニングを完了させるには、LLMでクラスター化されたAIリソースの量を増加するのが最適です。微調整や大規模推論などの場合、時間はかかるものの、少ないハードウェアでより大規模な問題セットを解決することが、TCOにとっては最適であるといえます。
この最適化により、高速NVMe SSDを効果的に活用してHBMやDRAMを拡張し、データパスを最適化する画期的なAIストレージソフトウェアスタックの開発が加速しています。私たちがテストした例のうちいくつかを以下に示します。
- 大容量アクセラレーターメモリ:NVMeドライバーの交換を可能にした研究プロジェクトで、AIアクセラレーターがNVMe SSDに直接アクセスできるようにします。現在はGNNワークロードで動作しており、最速のNVMe SSDから小ブロックのI/Oパフォーマンスのビットを最大限に引き出すことができます。
- DeepSpeedのZeRO-Inference:推論用kvキャッシュをNVMe SSDにオフローディングするソフトウェアで、大規模推論のワークロード向けシステムGPU、メモリ、ストレージの効率的な使用を実現します。
- NVIDIA GPUDirectストレージ:CPUバウンスバッファを迂回して、GPUからNVMe SSDストレージへのデータパスを可能にするテクノロジー。負荷が高いシステムのストレージパフォーマンスを大幅に向上します。
すべてのベーコンと卵
AIワークロードに対するストレージ要件は、HBMやメモリに比べて遅れを取っています。過去8年間にわたるAIアクセラレーターの各世代の性能は、前世代と比較して5倍以上も向上しました。初期のAIワークロードはコンピューティングリソースとメモリ帯域幅によって制限を受けていましたが、GPUの急速な進歩により、ほとんどのAIワークロードで何らかの形式のSSDストレージが必要となるのは時間の問題です。
生成AIが一般的なエンタープライズワークロードになるにつれ、効率的な微調整とトレーニング向けソリューションによりストレージソフトウェアのイノベーションは急速に進歩しています。高性能NVMe SSDは、高価かつ希少なAIシステムリソースを効率的に使用できるようにする「低速」メモリとしての役割を果たすことができます。
マイクロンは業界パートナーと緊密に連携しており、AIワークロードに特有の要件を熟知しています。AIシステムのアーキテクチャーから、HBM、メモリ、データセンターストレージにわたって、私たちが持つテクノロジーの可能性に期待しています。