ストレージ分野は今、非常に面白い時期を迎えています。IT業界に、破壊的変化が訪れようとしているのです。この変革は、人工知能(AI)によるサーバーの設計・構築方法の変化と、私たちがコンピューターに何を求めるか、という点を軸に展開しています。業界でも一般でも、生成AIが話題を巻き起こしています。今年初めに登場したChatGPTは、コンピューターが自然言語による質問を理解でき、どのような話題でも会話を続けられ、人間のように詩や韻文を作れることを示したことで、人々の想像力をかき立てました。また、ユーザーが入力した単純な文章プロンプトを元にして、驚くほど美しい画像を作り出す様々な画像生成AIモデルも登場しています。
AIの急速な台頭により、より高帯域幅なメモリであるHBMへの需要が急増しています。HBMソリューションは、今や金以上に求められています。大規模言語モデル(LLM)は、より大きく複雑なモデルをサポートするために、CPU上にさらに大容量のメモリフットプリントを必要としており、需要を牽引しています。メモリ帯域幅と容量の重要性は広く認識されている一方、AIの成長を支援しているストレージの役割は忘れられがちです。
AIワークロードにおけるストレージの役割と重要性
ストレージは、2つの分野において重要な役割を果たします。1つめに、ローカルの高速ストレージは、GPUのHBMにトレーニングデータを供給するキャッシュとして機能します。
パフォーマンス要件が厳しいため、高性能SSDが使用されます。2つめの重要な役割は、大規模なデータレイクにすべてのトレーニングデータを保持することです。
ローカルキャッシュドライブ
LLMは、ウェブ、書籍、関連する辞書上の人間が生成した情報を学習します。ローカルキャッシュドライブ上のトレーニングデータに対するI/Oパターンは構造化されています。そうしたパターンは、主に次のバッチのデータをメモリにプリフェッチするための大規模なデータブロックの読み取りとなっています。そのため、従来のLLMでは通常、SSDのパフォーマンスはGPU処理のボトルネックとなりません。コンピュータービジョンやLLMとCVの混合モードなど他のAI・機械学習モデルでは、より高帯域幅が必要となり、ローカルキャッシュドライブに課題がもたらされます。
グラフニューラルネットワーク(GNN)は、製品推奨・ディープラーニング推奨モデルトレーニング(DLRM)、不正検出、ネットワーク侵入の検出に使用されることが多くあります。DLRMは、インターネット上で最大の売上を生み出すアルゴリズムと呼ばれることもあります。GNNのトレーニング用モデルは、データアクセスをよりランダムに、より小さなブロックサイズで行う傾向があります。これにより、ローカルキャッシュSSDのパフォーマンスが真に問われ、高価なGPUのアイドル状態を引き起こす可能性があります。パフォーマンスのボトルネックを緩和するには、新たなSSD機能が必要です。マイクロンは、業界のリーダーたちと積極的にソリューション開発に取り組んでおり、デンバーで開催されるSC23でその成果の一部を発表します。発表では、GPUとSSDが相互作用してI/O集中型の処理時間を最大100倍まで高速化する方法をデモンストレーションします。
AIデータレイク
大規模なデータレイクには、大容量のSSDが好ましいストレージメディアとなるでしょう。HDDは容量が大きくなるにつれて安く(TBあたりの価格)なりますが、速度(TBあたりのMB/秒)は遅くなります。20TBを超えるHDD容量では、大規模なAI・機械学習のGPUクラスターに必要な種類の帯域幅(TB/秒)を電力効率よく供給する大規模データレイクの性能が真の課題となります。一方で、SSDは十分なパフォーマンスを持ち、専用の形態では必要なパフォーマンスをHDDよりも低い電力(TBあたり8倍低いワット数)、さらにより低い電気エネルギー(TBあたり10倍低いkWh)で提供できます。電力消費を抑えることで、データセンターでより多くのGPUを追加することができます。現在、マイクロンは32TBの大容量データセンターSSDを数多くのAIデータレイクやオブジェクトストアに展開しています。個別で数GB/秒の帯域幅を提供できる15ワットSSDの容量は、将来的に250TBまでスケールアップされるでしょう。
AIによるNANDフラッシュストレージの需要への影響
前提として、すべての新しいAI・機械学習モデルが「学習」するためには、データ必要となります。IDCの推定によると、2005年以降、1年に生成されるデータ量が1年に購入されるストレージ量を上回っています。つまり、一部のデータは一時的なおのとならざるを得ません。ユーザーはデータの価値に基づき、データ保持のためにストレージを追加で購入する価値があるかを判断する必要があります。
カメラ、センサー、IoT、ジェットエンジン診断、パケットルーティング情報、スワイプなクリックによって、機械は人間が1日で生成できるデータ量の数桁多い規模でデータを生成しています。これまで人間が時間や能力の制約で分析できなかった機械生成データは、特にAI・機械学習にとって有用であり、価値ある情報を抽出するのに役立ちます。AI・機械学習の登場により、こうしたデータの保持価値が高まり、結果としてストレージへの需要は高まるでしょう。
このトレーニングデータは、AIデータレイクに保存されます。こうしたデータレイクは、クラスターあたりのGPU数が増えることに対応するため、通常よりも高いアクセス密度の特性を示し、同時に取り込みと前処理の高い混合をサポートします。データの再トレーニングも多く行われるため、「コールド」なデータはほとんどありません。このワークロードの特徴は、従来のHDDベースのオブジェクトストアよりも、大容量で電力効率が高いSSDに適しています。こうしたデータレイクは、自動運転やDLRMなどのコンピュータービジョンにおいて数百ペタバイトといった非常に大規模になることもあります。データレイクの容量と数が増加するにつれ、NANDフラッシュSSDの大きな成長機会が生まれるでしょう。
AIモデルが進化し拡大するにつれ、パフォーマンスの指数関数的な成長を維持するためにNANDフラッシュストレージの重要性がますます高まっていきます。