DisneyTM のアニメーション映画『ファインディング・ニモ』の有名なセリフに、「魚は友達、食べ物じゃない」というものがあります。SSDプロバイダたちは往々にして、HDDを友達ではなく食べ物だと思いがちです。ノートパソコンの場合はそれが正解です。データセンターストレージに対しては、SSDとHDDが「友達」になるチャンスが数多くあります。
データセンターでは、ビッグデータ分析、人工知能、クラウドコンピューティングなどの、データ集約型の需要を満たすことがますます困難になっています。これらのアプリケーションは高性能、スケーラビリティ、信頼性、コスト効率を備えたストレージインフラストラクチャが必須となります。しかし、従来のハードディスクドライブ(HDD)は、このようなワークロードの速度や能力の要件に追いつけなくなっており、SSDはいまだに高額すぎて、完全にHDDに取って代わることができません。データセンターはこのジレンマをどのように克服し、両方の最善を達成できるのでしょうか?
ひとつのソリューションは、SSDとHDDのテクノロジーの補完的な強さを活用することです。データキャッシングやパフォーマンスティアリングは、エンタープライズストレージシステムでお馴染みの概念です。高速で不揮発性の書き込みバッファが、低速のストレージ デバイスにストライピングする前に、書き込みを集約するために長い間使用されてきました。高いコストで高いレベルのパフォーマンスを提供するデータティアリングは、ほとんどの大きなストレージ実装で一般的です。歴史的に階層は、様々に異なる毎分回転数とディスクの直径を持つHDDによって定義されていました。現在、高性能階層はSSDを使用しています。例えば、IDC1 の報告によると、2023年度の相手先商標製造会社エンタープライズストレージシステムに対して、ハイブリッドストレージアレイ(HDD+SSD)に発送されたビット数は、HDDのみ、もしくはオールフラッシュアレイ(AFA)のビット数をほぼ2倍上回りました(AFAの前年比成長率は過去最高)。
スケーリングパフォーマンス
ストレージシステムに対しては、最も重要なパフォーマンス指標は能力で割ったデータスループットです(MB/秒 / TBと表記されることが多い)。ストレージデバイスの能力が大きくなるにつれ、帯域幅のMB/秒もスケールアップする必要があります。スケールアップしなければ、全体的なシステムパフォーマンスが低下します。ストレージシステム内で必要とされるパフォーマンスは、ワークロードとシステムハードウェアアーキテクチャによって異なります。典型的な大型データセンターワークロードの中には、必須パフォーマンス(MB/秒 / TB)が、大型BLOBオブジェクトストア向けの約2.5から、ビッグデータ分析向けの約5.0、AIモデルトレーニングを行うGPUクラスター向けの約20まで、異なるものもあります。
HDDでは、デバイスの物理学と力学で帯域幅が決まります。データアクセスを例外的に大きな(≥8MB)シーケンシャルデータの塊に制限することで、HDDの全体的スループットを増加することができます。つまり、データの場所に向かう記録を探すために費やす時間に対して、データ移送時間を最大化するのです。このメリットは、HDDの最大シーケンシャル帯域幅に限られます。通常、さまざまなサイズのホストワークロードを大きな塊に集約するために、入力での書き込みバッファリングと、レイテンシーの影響を受けやすい、または帯域幅の制約があるホスト読み取り用のデータのキャッシュが必要です。HDDに対する別のアプローチとしては、容量をオーバープロビジョニングして「ダーク能力」を作成することが挙げられます。パフォーマンスレベルを維持するためのこのアプローチは、HDDとサーバー/インフラストラクチャのコスト、およびデータセンターの電力要件が高額になります。
SSDとHDDのシナジー
SSDは高価ではあるものの、はるかに高いパフォーマンスを提供し、ホストアプリケーションの要件とHDDストレージ サブシステムを繋ぐ、キャッシュに最適なストレージデバイスとなります。ただし、HDDスループットでこのようなメリットを得るためには、データセンターは知的なデータ管理ソフトウェア、データ階層全体のデータを自動的かつ動的に割り当てられるアルゴリズム、データ特性・アクセスパターン・ビジネスの優先事項に基づいたキャッシュを適用しなくてはなりません。管理ソフトウェアを最適化し調整するために必要な、技術的な洗練度は、すべてのデータセンターが備えているとは限りません。ストレージの1つの階層を導入するだけですべてのパフォーマンスニーズを満たすことができるというのが、ハイブリッドやHDDのみのストレージアレイに比べて、オールフラッシュアレイが高い成長率を達成した主な理由です。
HDDのスループットを最大化するための、これらのキャッシングやティアリングの戦略は、現在すべてに機能しますが、HDD能力に対する最も要求の厳しいワークロードは最大20代TBです。HDD能力は今後30代または40代まで成長するため、ワークロードパフォーマンスのニーズを満たすことがますます難しくなるはずです。例えば、40TB HDDで5 MB/s / TBを必要とするビッグデータ分析アプリケーションを想像してみてください。そのHDDは帯域幅の200MB/秒を提供しなければなりません。3.5インチ 7200 RPMのHDDが、ディスクの外側から内側までその速度を一貫して維持できるように徹底することは、先進的なデータセンターでも非常に困難です。これらのシステムのSSDキャッシュの相対的なサイズとデータ管理の洗練度は上昇しなければならないため、SSD パフォーマンスの利点に対するHDD ストレージシステムの依存度はさらに大きくなるはずです。
コストとパフォーマンスのバランスを取る
SSDとHDDを「友達」として捉えることで、データセンターは、ストレージのコストの最適なバランスを達成しながら、データ集約型アプリケーションの多様かつ動的なニーズを満たすことができます。この関係性は、HDDの能力が大きくなるにつれ、時間を経て進化します。
SSD:
- ホットデータやレイテンシーに影響を受けやすいアプリケーションへの素早いアクセスを実現
- キャッシュや階層などの機能で、HDDからのデータ移送の帯域幅を増加できる
HDD: - よりコスト効率の良いストレージを提供($/TB)
- アーカイブやバックアップデータなどのコールドデータストレージアプリケーションに対して、優れた維持属性を備えている
長期的な見通し
ほとんどのデータセンターアプリケーションに最もコスト効率の良いストレージを提供しつつ、HDDの能力がどれぐらい大きく成長できるのかは限度があるはずです。ゆくゆくは、SSDのみのストレージが、コールドストレージを除くすべてのHDDベースソリューションよりも安価になるかもしれません。それについては、今後のブログでご覧いただきたいと思います。
1. IDC四半期エンタープライズストレージトラッカー、2023年第四四半期