話は3年前にさかのぼります。新たにプロダクトマネジメントの役割に就いて1か月目のことでした。エンジニアから「ラフルさん、問題発生です。ある容量で、TBW仕様を満たせませんでした。お客様と話をして、仕様の変更を認めてもらえませんか?」と慌て気味に連絡がありました。
当初の私の反応はパニックでした。TBW(「総書き込みテラバイト数」というSSDの耐久性の指標)についての理解が浅かったので、当然、この件に関してお客様と長時間にわたる電話をする心の準備はできていませんでした。しかし、社内で打ち合わせをし、報告を聞くと、問題に関する理解が深まっただけでなく、問題に対して「夢中」になれたのです。問題について調査し、解決する時間を楽しんでいました。
その後の数週間で、私たちはお客様に解決策を提示することができました。問題となっていた製品は、Micron 3500 SSD(図1)です。問題を解決すると、この製品は今まで製造されたなかで最高のクライアントSSDの一つとして評価されました。実際、Tweak Townのジョン・コルター氏は「率直に言って、史上最高のOEM SSDである」と述べています。
Tweak Townによるレビュー - リンク
それ以来、ほとんどの世代の製品においてSSDの耐久性の再検討を行い、お客様のニーズを満たすためにトレードオフを行ってきました。
SSDの耐久性
私にとって、技術面を担当するプロダクトマネージャーとして働くなかで最も楽しいことの一つは、毎日新しいことを学べることです。そうしたトピックの一つがSSDの耐久性、つまり、SSDがどのくらい長持ちするかでした。
SSDの耐久性を示す指標はいくつかあります。エンタープライズSSD向けにはDWPD(1日あたりのドライブ書き込み数)を、クライアントSSD向けにはTBWを使用します。DWPDとは、SSDの容量に対して、1日でどの程度の割合までデータを書き込めるかを示す指標です。例として、1TBのエンタープライズSSDが0.3DWPDだとすると、ユーザーは保証期間が終了するまで、1日におよそ300GB(30%)のデータを書き込むことができます。TBWとは、ドライブが機能を停止するまでに書き込むことができるデータのテラバイト(1000ギガバイトに相当)数を示す指標です。各容量には、固有のTBW値があります(図2)。
図2からは、512GB SSDの機能停止までに最低でも300テラバイトまで書き込みができるということが分かります。300テラバイトがどれほどの量なのか、簡単な例で考えてみましょう。
毎日100GBの書き込みと上書きを3年間続けたとしても、ドライブの保証期間の終了までに到達するのは約107TBWにすぎません。この数値は、ドライブの定格耐久性の3分の1程度です。保証期間中に毎日100GBのデータを書き込むことを想像できますか? たいていの場合、1か月かけてもその数値に近づくことすらないでしょう。
ドライブにおけるTBW仕様は、以下の簡略化された式で決定されます。
ご覧のように、SSDの容量が大きくなるほど、TBWも大きくなります。これはプログラム/消去(P/E)値についても同様です。しかし、TBWは書き込み増幅率(WAF)と逆相関の関係にあります。WAFとは、SSD内でユーザーデータが何回書き直されて移動させられるかを簡単に示す指標です。WAFに影響を与える要因はいくつかありますが、最も重要なものはSSDに与えられるワークロードです。典型的なクライアントワークロードではその値は低く、WAFは3から4程度で推移します。
SSDの耐久性に関連するもう一つの指標に、MTBF(平均故障間隔)があります。MTBFは、ドライブが故障する平均間隔時間を測定するもので、絶対的な指標ではありません。SSDにおけるMTBFは計算が複雑で、SSDの個々のコンポーネントの信頼性に依存します。マイクロンのクライアントSSDのMTBFについては、通常200万時間とみなされています。この数値は、マイクロンのクライアントSSDが平均して約230年ごとに故障することを意味します。とても大きい間隔ですね。
各変数を掘り下げていくと、最終的なTBWが複数の要因のトレードオフになっていることがすぐに分かります。そうした要因には、SSDのパフォーマンス、NANDの欠陥、NANDのメディアタイプ(SLC、TLC、またはQLC)、SSDのワークロード、NANDのブロックサイズ、NANDの有効ブロック数、静的SLC P/Eサイクル数、スーパーブロックアーキテクチャーなどがあります。
私はこうした多様なトピックに精通した専門家ではないので、製品やお客様固有の課題を解決する際は、実際に知識を持つ専門のエンジニアリングチームを頼りにしています。私の役割は、問題の要所を正確につかむことです。そうすることで、解決した個々の問題から得られた知見が、将来的のお客様固有のニーズに対応するための選択肢として蓄積されていくのです。
将来に向けての選択肢
聞いたことがあるかもしれませんが、AI PCが登場し、ゲームチェンジャーとなりつつあります。私の同僚であり、マイクロンのストレージビジネスユニットでクライアントストレージ担当バイスプレジデント兼ゼネラルマネージャーを務めるプラサド・アルリが、「パソコンへのAI導入がもたらす今後の展開」というタイトルのブログでこの変革について詳しく書いています。
この新しい革命には多くの未知の要素があります。ワークロードとそれがSSDの耐久性に与える影響について再検討することもその一つです。プロダクトマネージャーとして、そうした未知の可能性に備える必要があります。私たちはこれまで複数の世代の製品について耐久性の問題を解決してきましたが、そのおかげで、PC上で複雑な視覚言語モデル(VLM)をローカルに実行する必要がある場合に、トレードオフによってSSDの耐久性を最大10倍まで向上させる方法について理解しています。以前にも述べたとおり、最高の瞬間はまだこれからであり、私たちは皆、未来に何が実現されるかを楽しみにしているところです。
耐久性のある教訓
プロジェクトマネジメントを始めたときは、製品の問題やお客様からの問題に直面するたびに実存的な危機に襲われていました。今では、そうした問題の一つひとつが私に目的意識や楽しみをもたらしてくれます。複雑な問題を解決することは、学びや革新を起こす機会となります。この3年間で、仕事においてたくさんの貴重な教訓が得られました。それが皆さんの役にも立てば幸いです。
- 冷静さを保つ - パニックになっても何も解決しない。
- すべての答えをあらかじめ知っていなくても大丈夫。
- 助けを求める - チームと協力し、チームを信頼する。
- 曖昧さや激動の状態に慣れる - 明確さを生み出す努力をする。
- 明らかに正解だと思われる解決策が、時に正しい道でないこともある。
- 解決策に対してだけでなく、問題を解決することに対して興味を持ち、夢中になる。
- 日々学ぶように努め、あらゆる問題を歓迎する。
- 学んだことを伝え、広めることが、組織としての成功につながる。
最後まで読んでくださった方は、Micron 3500のTBWの問題がどのように解決されたのか気になっているかもしれません。
私たちは、Micron G8 NANDにおいて新たな高みに到達するうえで、プロセスに複数の新しいイノベーションがあったことを把握していました。その新たな知見に基づき、非常に悲観的な欠陥予測を立てていたため、所与のTBW仕様に対して200万時間のMTBFを達成できない状況にあったのです。お客様と協力することで、必要なMTBF仕様はより低い数値であることが判明しました。そうして、私たちは遅延なく耐久性の要求を満たすことができました。最終的に、製品を出荷すると、欠陥率は予測を大幅に下回っていたため、当初の200万時間のMTBFという目標を懸念や妥協なしに達成することができていました。問題に対してオープンに向き合うことが、双方にとって利益となる解決策につながったのです。