デザインツール
SSD

AIワークロードにとってストレージシステムのパフォーマンスが重要である理由

カリー・マンス | 2024年6月

AIワークロードにとってストレージシステムのパフォーマンスが重要である理由

データストレージの速度と効率に影響を与える主な要素を理解するためのガイド

データは現代のすべてのビジネスの生命線であり、データをどのように保存、アクセス、管理するかが、生産性、収益性、競争力に大きく影響します。人工知能(AI)の登場によって、あらゆる業界は大きく変化し、企業はイノベーションと成長を加速させるために、データの利用方法を再検討する必要に迫られています。しかし、AIのトレーニングおよび推論を実施するには、膨大なデータ、高い性能、スケーラビリティ、可用性が必要になるため、データ管理とストレージに関する固有の課題が生まれます。

すべてのストレージシステムが同じように作られているわけではないうえ、そうしたシステムのパフォーマンスは、多くの要素によって影響を受けます。このブログ記事では、AIに関するストレージシステムパフォーマンスに影響を与える主な要素について説明し、特に重要なトピックとして、これらの要素が、選択した基盤となるストレージメディアからどのような影響を受けるかをお伝えします。

AIワークロードの主要な特性

AIワークロードは、データ集約型、そして計算集約型です。つまり、大量のデータを高速かつ低レイテンシーで処理する必要があります。ストレージは、AIワークロードによる効率的そして効果的なデータへのアクセス、処理、保存を可能にするうえで、重要な役割を果たします。ストレージ要件に影響を与える一般的なAIワークロードの主要な特性は、次のようなものです。

  • データの種類:AIワークロードは、構造化データ、非構造化データ、半構造化データなどの異なるソースやフォーマットのデータに、オンプレミス、クラウド、エッジなどのさまざま場所からアクセスする必要があります。ストレージソリューションに求められるのは、高速かつ信頼できるデータアクセスと、異なる環境やプラットフォームをまたがった処理を可能にすることです。
  • データの速度:AIワークロードは、リアルタイムまたは準リアルタイムでデータを処理する必要があります。そのためストレージソリューションは、データの取り込み、処理、分析が実施された際に、高いスループット、低レイテンシー、一貫したパフォーマンスを提供する必要があります。
  • データの量:AIモデルが複雑化して精度が高まり、GPUクラスターの演算能力が向上するにともない、ストレージソリューションは、柔軟かつスケーラブルな容量とパフォーマンスを提供する必要があります。
  • データの信頼性と可用性:AIワークロードは、特にデータアクセスの中断に不寛容な大型GPUクラスターに接続されている場合、データの整合性、セキュリティ、そして極めて高い可用性を確保する必要があります。

ストレージシステムのパフォーマンスに影響を与える要素

ストレージシステムのパフォーマンスに影響を与えるのは、1つの指標ではなく、複数の要素の組み合わせです。これらの要素はデータ、アプリケーション、データセンターのインフラストラクチャーの特性によって変化します。極めて重要な要素のいくつかを、次に挙げます。

  • スループット:ストレージシステムが、ネットワークまたはホストとの間でデータを転送する速度です。スループットが高いほどパフォーマンスが向上しますが、それには帯域幅を増やし、データフローの密集とボトルネックを軽減する必要があります。スループットは通常、ネットワークの帯域幅またはストレージメディアの速度によって制限を受けます。
  • レイテンシー:ストレージシステムが、読み込み/書き込みの要求に応答するまでにかかる時間です。レイテンシーが短いほどパフォーマンスが向上しますが、それにはGPUのアイドル時間を短縮し、ユーザー入力に対するシステムの応答性を改善する必要があります。レイテンシーは本質的に、ソリッドステートドライブ(SSD)より、機械的なデバイス(HDDなど)のほうがはるかに高くなります。
  • スケーラビリティ:ストレージシステムが、データの量、速度、種類の変化に適応する能力です。企業のニーズと目標に合わせてストレージシステムを拡張および進化させるには、高いスケーラビリティが必要です。システムで格納、管理できるデータの量を増やすうえでの最大の課題は、ボトルネックやストレージデバイスの制限を受けずに、パフォーマンスのスケーリングを維持することです。
  • レジリエンス:ストレージシステムで、不具合、エラー、災害の発生時にデータの整合性と可用性を維持する能力です。信頼性が高いほどパフォーマンスが高くなりますが、それにはデータの破損、損失、回復の頻度と影響を低減する必要があります。

ストレージメディアの選択肢

データセンター向け永続的ストレージとして主に使用される2種類のデバイスは、ハードディスクドライブ(HDD)とソリッドステートドライブ(SSD)です。HDDは、磁気コーティングされた、回転するディスクプラッターにデータを保存する機械的なデバイスです。一方、SSDではソリッドステートのフラッシュメモリチップにデータが保存されます。HDDは、主なストレージデバイスとして数十年にわたって使用されてきました。1ビット当たりのコストは最も低く、電源オフ状態での長期耐久性に優れていますが、SDDより速度が遅く、信頼性も低くなります。SSDでは、HDDよりも高いスループット、低いレイテンシー、高い信頼性、高密度のパッケージオプションを実現できます。

テクノロジーの進歩と、コンピューティングの需要の高まりを受け、HDDはその機械的性質上、今後のパフォーマンス向上に対応していくことは難しいでしょう。システム設計上、HDDベースのストレージシステムのパフォーマンスを効果的に拡張するために導入できるオプションはいくつかあります。例えば、ホットデータとコールドデータを混合させる(ホットデータのパフォーマンスを、コールドデータで埋め合わせる)、データを複数のHDDスピンドルをまたがって並行共有する(スループットを高められるが、レイテンシーは改善できない)、HDDの容量をオーバープロビジョニングする(つまり、容量ではなくI/O性能を重視したプロビジョニングをする)、レイテンシーが極端に高い部分にSSDキャッシュレイヤーを追加する(スティーヴ・ウェルズが投稿した最近のブログHDDs and SSDs. What are the right questions?(HDDとSSDについて知っておくべきこと) | Micron Technology, Inc.をご覧ください)。こうしたシステムレベルのソリューションでは、スケーラビリティが制限されてしまい、コストが非常に大きくなります。これらのソリューションをどの程度拡張できるかは、その拡張方法で求められるパフォーマンスレベルによって異なります。HDDベースのシステムでは、今日のAIワークロードの多くに、パフォーマンスのスケーラビリティと電力効率の面で対応できません。

一方、SSDベースの大容量ストレージシステムは、さほど複雑でなく、より拡張しやすいソリューションであるため、多くの大規模なGPU中心型データセンターの高性能AIデータレイク向けストレージメディアとして、急速に進化しています。ドライブレベルで見た場合、1ビット当たりのコストを考えると、こうしたSSDはHDDよりも高価です。しかしシステムレベルで見た場合、次のような改善が可能であることを考えると、このようなSSDが組み込まれたシステムの運用コストはHDDよりも低くなります。

  • スループットの大幅な向上
  • 100倍以上のレイテンシーの改善率
  • ペタバイト当たりに必要なサーバー数とラック数の削減
  • 使用可能期間が延び、信頼性も向上
  • 一定のパフォーマンスレベルでより高いエネルギー効率を実現 

SSDの容量は、今後数年間で120TBに拡大すると見込まれています。SSDの容量が大きくなり、SSDとHDDの価格差が縮まると、動画編集や医療画像診断などの大きなデータセットの処理に平均以上のパフォーマンスやより低いレイテンシーが求められる他のワークロードに関して、SSDが魅力的な選択肢になる可能性があります。

まとめ

AIワークロードを実行するシステムでは、ストレージパフォーマンスは重大な設計基準です。ストレージパフォーマンスによって、システムパフォーマンス、スケーラビリティ、データの可用性、システム全体のコストや電力要件が影響を受けるからです。そのため、さまざまなストレージオプションの特長とメリットを理解したうえで、AIのニーズを満たす最適なストレージソリューションを選択することが重要です。最適なストレージソリューションを選べば、AIワークロードを最適化して、AI目標を達成することができます。

Currie Munce is a Senior Technology Advisor and Strategist for Micron’s Storage Business helping to define storage architecture and technology directions for the company.

Currie Munce