デザインツール
ストレージ

なぜ大容量SSDがこれほど注目されるのか?

カリー・マンス | 2024年9月

カリフォルニア州サンタクララで今年開催されたカンファレンス、「Future of Memory and Storage 2024(FMS 2024)」に参加された皆さんなら、大容量SSDに関するプレゼンテーションで溢れかえっていたかをご存じのはずです。ほんの1年前までは、顧客の多くが64TBもの容量は大きすぎると考えていました。FMS 2024のいくつかのプレゼンテーションや展示ブースでは、今後数年のうちに発売される製品のSSDロードマップに「128TB」や「256TB」という大容量が示されていました。なぜこのような突然の変化が起きたのでしょうか? 昨年の厳しい決算期を経て、フラッシュ業界は一斉に正気を失ったのでしょうか? 何が起きているのかを考えてみましょう。

大きな変化の理由

この急激な変化の理由は、今日のIT業界で起きている他の多くの変化に対する理由と同じです。それは、生成AIの爆発的な台頭です。ストレージ業界では、HDDがあまりにも低速であるため、高速で安価なSSDに取って代わられる日が来るのではないかとささやかれています。しかし困ったことに、HDDが安価であるため、頭の良いストレージソフトウェア開発者たちがHDDから十分な性能を引き出す方法を模索する状況がいまだに続いています。

トレーニングに膨大な量のデータを素早く消費する大規模GPUクラスターが登場したことで、この話には終止符が打たれようとしています。指数関数的に拡大する大規模言語モデル(LLM)は、トレーニングにますます多くのデータを必要としています。GPUは従来のCPUよりも高速のデータ処理が可能です。ユーザーが何千台ものHDDにデータをストライピングしようとしても、その大幅なデータ増加によりHDDは対応しきれなくなっています。対応には、あまりにも大量の電力と膨大なスペースが必要になるからです。

速度を上げるためにSSDをGPUの近くに配置し、大量のデータの保存にHDDを使用するというのはどうでしょうか? 生成AIはワークフローであり、単なるアプリケーションではありません。トレーニング用データの取り込み、キュレーション、フォーマット、GPUへの反復的な供給、やり直しを避けるための定期的なチェックポイントの確認などがそのプロセスです。パブリックLLMは、ユーザーデータによって最適化され、微調整される必要があり、推論中の検索拡張生成(RAG)は、アプリケーション固有のデータに素早くアクセスする必要があります。異なるストレージシステム間でのデータ移動は、複雑でコストがかかり、消費電力の点で非効率的です。ほかにも、より優れたモデルの開発や既存モデルの活用から目をそらすことにつながります。

そこで、大容量で低コストのSSDの出番です。コンピューティングシステムでは、SSDのパフォーマンスは通常IOPS(入出力操作毎秒)で測定されます。ストレージシステムでは、デバイスのパフォーマンスは容量あたりのスループット(MB/秒/TB)で測定されます。大規模なGPUトレーニングクラスターの場合、システム要件は、テラバイトのストレージ容量あたり最大100MB/秒もの帯域幅になる可能性があります。マルチモーダルモデルに対応するテキスト、画像、動画を保存する大容量ストレージシステムには、ペタバイトからエクサバイトのシステム容量が必要になるため、数百から数万もの個別のドライブが必要になります。

SSDはHDDの最大50倍の帯域幅を誇り、少ないSDDで多数のHDDと同じシステムスループットを達成できます。SSDの数が少ないほど、容量をHDDよりも大きくしてシステムの容量要件を満たさなければなりません。大容量とは、どの程度のことを言うのでしょうか?

それはパフォーマンス要件とネットワーク帯域幅によります。これらのストレージシステムは通常、超高速ネットワークでGPUクラスターに接続されていますが、そうしたネットワークの総帯域幅は、SSDの総帯域幅よりもはるかに低いままです。最大規模のGPUクラスター(最大100MB/秒/TBが必要)では、容量の限界が最大64TBとなることが多いのです。小規模のクラスターやパフォーマンス要求の低いシステムでこれらのSSDが利用可能な場合、128TBや256TBまで容量を拡張したいと考えるユーザーもいます。

ネットワークに接続されたシステムのSSDは最大速度では動作しないため、標準的なコンピューティングアプリケーションよりも消費電力は大幅に削減されます。さらに、速度と高い書き込みサイクルは最優先事項ではないため、従来の主流コンピューティングSSDよりもコストを削減するための設計上の妥協がなされています。

大容量で低コストのSSDがもたらすもの

結果的にストレージシステムは、ドライブとストレージサーバーの数の減少、エネルギー消費量とラック数の削減、信頼性の向上、耐用年数の延長、レイテンシー特性の改善、データ待機中のGPUアイドル時間の短縮が可能となります。そして、SSDとHDDを混在させたときと比較して、SSDのみを使用したときの方が管理はシンプルです。

今後の展望

大規模GPUクラスターやGPUaaSクラウドプロバイダーは、ストレージに大容量で低コストのSSDを選んでいます。このような初期の用途では、パフォーマンス、消費電力、容量においてSSDはHDDよりも優れていることから、SSDの高いコストは正当化されます。HDDが毎秒MBやTB単位で低速化する中で、今後数年間で、他の高性能のユースケースもSSDに移行することが予想されています。安くなるのは素晴らしいことです。しかし、ユーザーがパフォーマンス要件を満たすことができず、CPUやGPU、その他のアクセラレーターをアイドル状態にした場合、結果的に電力もシステムコストも高くつくことになります。

私たちは長年、ストレージとメモリの階層構造に取り組み、新技術を導入して絶えず更新を重ね、ピラミッドのブロックの間にある境界を調整してきました。大容量を必要とするストレージアプリケーションにおいて、パフォーマンス、消費電力、コストのバランスを重視した新しいタイプのSSDの役割が注目されていることを認識し、この度マイクロンは、このピラミッドの新しいブロックとなる大容量SSDをリリースしました。

図1:SSDがストレージとメモリの階層構造にどのように組み込まれているかを示すピラミッド図 図1:SSDがストレージとメモリの階層にどのように組み込まれているかを示すピラミッド図


マイクロンが提供する最新のデータセンターセグメントについての詳細は、こちらをご覧ください。Micron 6500 ION NVMe SSD

Currie Munce is a Senior Technology Advisor and Strategist for Micron’s Storage Business helping to define storage architecture and technology directions for the company.

Currie Munce