マイクロンは、データセンターに向けて世界トップクラスのSSDを作成することに深くコミットしてきました。私たちは、これまで数千万というSSDをデータセンターに発送し、現在、232レイヤー NANDテクノロジーを備えた新SSDに切り替えています。世界トップクラスのSSDは、電力効率や高性能に加えて、設計上のレジリエンスも備えています。レジリエンスとは、データセンターのドライブを長年にわたって有益に使用できるという意味です。
高度なレジリエンスは、デバイスメーカーとホストメーカーとのコラボレーションにおいて、OCPストレージワークグループの議題のひとつとなってきました。OCPストレージワークグループは、データセンター-NVMe-仕様(以下「OCP SSD仕様」)の3つの主要リリースにわたって、縦型統合高レジリエンシーを定義し強化してきました。縦型統合レジリエンシーは、ホストとデバイスの両方が、高度なレジリエンスを持つストレージサブシステムを構成する要素となるというコンセプトです。
マイクロンのビジョンは、幅広く高いレジリエンシーのフリートを築くために必要な取り組みにおける「シフトレフト」です。デバグの時間を短縮して不具合のドライブを交換し、フリートの健全性を積極的にモニターする時間を割き、データを損失することなくリカバリーする能力を高めます。これから説明していくソリューションや、今後の強化に関するマイクロンの視点には、複数の要素があります。
SSDにおけるレジリエンシーの歴史
OCP仕様の初版を発行する前に、マイクロンは、シームレスな固有のリカバリーおよびセルフアニーリングを実現するよう尽力しました。これには、バッドブロックの除去、Redundant Array of Independent NAND(RAIN)と呼んでいる社内XORソリューションの導入、SATAまたはPCleバスのCRC検出および再送信などが含まれます。マイクロンは、そのようなイベントにSelf-Monitoring and Reporting Technology(SMART)情報を提供しました。私たちは、このSelf-Monitoring and Reporting Technology(SMART)データを収集・監視して、全体的なフリートの健全性を監視し潜在的な異常値を特定するたけでなく、ソリューションの前進を推進することに取り組みました。
ホストとデバイスの両方が高度にレジリエントなストレーサブシステムを構築する要素となる、縦型統合ソリューションに向けての最初の取り組みでは、レジリエンシーの強化を推進し、エラーリカバリー(ログページC1h)のコンセプトを導入したOCP仕様V1で初めて貢献されました。そうすることでデバイスが、社内のパニック状態をホストに通知し、ベンダーの固有なデバグ情報を引き出す方法や、リカバリー手順を行う方法をホストに指導することができます。V1仕様は複数のリカバリー措置をサポートしますが、仕様の他の部分(CRASH-4)はFORMATコマンドを提案しています。これは、デバイスの全データが消去され修復不能となるということであり、社内のパニック状態から回復する唯一の手段となります。Microsoftも、OCP仕様V1のエラー注入のコンセプト関係でリーダーシップを担っており、参加しているホストとデバイスの両方で堅牢な縦型統合テストを行うよう取り組んでいます。
V2仕様では、追加のC1hフィールドを提供することによって、リカバリー手順を強化しました。この仕様は、OCPストレージレイテンシー監視機能を初めて導入したものです。この機能は、ドライブが高いレイテンシー I/Oイベントを自己報告でき、ベンダー固有のデバグ情報を含めることもできます。これは、ホストI/Oレイテンシーログと比較して、問題の根本原因を解消し、ストレージデバイスの問題である場合は社内的なヒントを与え、是正措置をサポートします。
先ごろリリースされたV2.5仕様のエキサイティングな能力には、引き続き、より良い縦型レジリエンシー統合を提供するものがあります。標準化テレメトリは最大の要素であり、この改訂版に含まれる新しい能力の大部分です。以前の仕様改訂により、最終的には各ベンダーが独自の監視およびデバグ情報を追加することになり、ベンダー固有のログページの取得またはテレメトリの取得が必要になりました。理想的にはベンダーがバイナリファイル転送を要請するか、人間が読み込めるアウトプットを生成するためのベンダー固有のデコーダーツールを提供します。OCP SSD V2.5仕様の標準化テレメトリは、レポートする方法と、標準化デコーダーツールを用いてベンダー固有のデバグをデコードする方法を提供することで、この問題を解決しました。これにより、ホストによる特殊なデータキャプチャおよびデコード機能が不要になり、デバグ効率が即座に向上します。
標準化テレメトリプロジェクトでは、分散システムから重要な健康データをすべて収集するシンプルな方法を作成しました。これは、どのような苦情ストレージデバイスにも適応する単一I/Oコマンドを使用します。ホストは、最初のテレメトリデータ領域からのデータをキャプチャしデコードすることができます。このデータには、ホストとベンダーが協力するために必要な詳細がすべて含まれています。ホストとベンダーは不具合を起こしている、または不具合を起こそうとしているデバイスを特定し、今後に向けて、その健全性を監視するソリューションを改善することができます。
今後
MicrosoftのAyberk OzturkはFMS 2023で、縦型統合高レジリエンシーに関する、同社の将来のビジョンを発表しました。同社は、現在の仕様で求められているFORMATコマンドではなく、パニック回復の一部としてデータリカバリーを備えることを強く望んでいると表明しました。彼らは、ストレージデバイスがますます大規模になるにつれて、より多くのテナントが単一の直接接続ドライブを使用する可能性があり、パニック後には複数の仮想マシンを終了するのではなく、完全に(または部分的にでも)データリカバリーで回復することが望ましいと主張しました。そうすることでライブ マイグレーションの利用に関するコンセプトが促されると提案しました。そのようなソリューションの仕様を探ることが、2024年の良い目標です。
ビジョン
これまではアサートとパニックの報告であったものがリカバリーに変わりました。リカバリーであったものが検出に変わり、検出であったものが防止に変わっています。典型的なシフトレフトです。マイクロンは、引き続き、将来に向けて業界やOCPストレージと協力して取り組むことにコミットしています。
ご意見がありましたらマイクロンまでお問い合わせください。コラボレーションが大切です。一緒に取り組みましょう。