無効な入力です。特殊文字はサポートされていません。
314兆桁の円周率を求めるために、本当に必要なものは何だったのか
StorageReviewが、円周率を314兆桁まで計算して世界記録を更新しました。しかし、この試みの本質は記録そのものにはありません。これは、あえて極限的なワークロードを設定することで、最新のサーバーストレージの限界性能を検証し、「単一のシステムにおいて、ペタバイト級のI/Oを数ヵ月間にわたり持続的に処理することは可能か」という実践的な命題に挑むことを目的としていました。
1台のDell™ PowerEdge™ R7725を使用して、110日以上にわたり連続的に計算を実行した結果、疑問への答えは肯定的であることが判明しました。そのための条件とは、単なる短時間のバースト処理ではなく、持続的なパフォーマンスと一貫性を確保するように構築されたストレージアーキテクチャーです。
一目でわかる概要
- I/Oの耐久テスト:3ヵ月以上にわたって読み取り/書き込みの混在する負荷を持続
- 1台のサーバーの内部に2.1PB超の使用可能フラッシュ容量
- 長時間のHPCおよびAIジョブに当てはまる教訓:結果を得るまでの時間を、一貫性によって保護すること
StorageReviewは、必要なストレージアーキテクチャーを構成するため、E3.Sのフォームファクタで使用可能容量60TBのMicron 6550 ION SSDを40基搭載したシステムを構築しました。これほど大規模な(ドライブ数でも、総容量でも)ストレージ構成となった「理由」を理解することは、この記録が実際のところ何を物語っているかを理解する上で重要です。
2ペタバイト超のフラッシュが必要だった理由
円周率をこれほどの規模で計算する目的は、最終的な答えを保存することではありません。出力それ自体は、そこに到達するために必要な作業用データと比べれば小さなものです。
314兆桁ともなると、y-cruncher(この記録を達成するために使用したアプリケーション)には、次のような処理に対応する巨大なスクラッチ領域が必要です。
- FFTを多用する数学演算用の大規模な一時配列
- 数週間分の進捗を保護するための、頻繁な完全状態チェックポイント
- 数ヵ月にわたる実行の正確性を保証するための検証データ
- 計算中に使用される多精度の中間値
これらの要件を満たすため、StorageReviewはシステム内部に2.1PB超の使用可能フラッシュ容量をプロビジョニングしました。
- 40基のマイクロン製SSDのうち34基は、y-cruncherのスクラッチ領域として割り当てられ、広帯域幅の作業用ティアを形成
- 残りの6基のSSDは、RAID10構成で円周率の最終的な計算結果を保存
ピーク時には、このワークロードは最大1.43PiBのストレージを同時に消費し、個々のチェックポイントのサイズは数百テラバイトに達しました。この容量は過剰プロビジョニングではなく、計算を安全かつ効率的に完遂するために必要な容量でした。
円周率計算における持続的なI/O特性
このプロジェクトは、ピークパフォーマンスを示すための短時間のベンチマーク実行ではありませんでした。円周率の計算は、3ヵ月以上にわたってストレージに継続的な負荷をかけ続けます。その間、ダウンタイムや復旧のための実質的な機会はまったくありませんでした。
このワークロードは、高度なHPC環境やAI環境に見られる、次のような特徴を示していました。
- 継続的に実行される広帯域幅の読み取り/書き込み動作
- 長時間にわたる連続的な大量の書き込みアクティビティ
- 予測可能なパフォーマンス要件、レイテンシーの急上昇に対する許容範囲は最小限
- ストレージの障害が、数週間分の作業を無駄にしてしまうという運用上のリスク
実行中、このシステムは常に稼働を続け、障害からの復旧が必要になる事態は一度も発生しませんでした。
これは重要なポイントです。というのは、多くの本番ワークロードは、ピークパフォーマンスの不足が原因で失敗するのではなく、時間の経過に伴う不安定さや、一貫性のなさが原因で失敗するからです。実行に長時間を要するジョブは、ストレージスタックに潜んでいる些細な弱点を増幅させます。
単一サーバーアーキテクチャー上の高密度NVMe™
従来、こうした特性のあるワークロードでは、十分な容量と集約的なI/Oを実現するため、分散型ストレージシステムやマルチノードクラスターの導入を余儀なくされてきました。
StorageReviewは、そうする代わりに、1台のサーバーシャーシ上ですべての計算を完遂しました。
1台のDell™ PowerEdge™ R7725に40基の大容量NVMe SSDを搭載したことで、本システムは以下の成果を達成しました。
- 外部ストレージアレイを必要としない、ペタバイト規模の容量
- 数ヵ月にわたるコンピューティングを維持できる集約帯域幅
- コンポーネント数と故障ドメインの少ない、簡素化された運用モデル
| コンポーネント | 仕様 |
| サーバープラットフォーム | Dell™ PowerEdge™ R7725 |
| プロセッサー | AMD EPYC™プロセッサー(デュアル) |
| システムメモリ | 大容量DDR5メモリ(数テラバイト級) |
| ストレージドライブ | 40 × Micron 6550 ION NVMe SSD |
| フラッシュメモリ総容量 | 2.4PB超 |
| 使用可能フラッシュ容量 | 約2.1PB |
| スクラッチストレージ割り当て量 | 34基のSSDをy-cruncherの作業データ専用に割り当て |
| 結果の保存 | 最終的な円周率の出力には6基のRAID 10 SSDを使用 |
| ストレージインターフェース | PCIe® Gen5 NVMe |
| オペレーティングシステム | Linux® |
| アプリケーション | y-cruncher(高精度計算プログラム) |
ここでお伝えしたいのは、あらゆるワークロードで1台のサーバーに数十ものドライブが必要になるということではありません。むしろ、この結果が示しているのは、最新の高密度NVMeストレージがアーキテクチャーの選択肢そのものに変化をもたらしているという点です。かつては複雑なスケールアウト構成を必要としていたワークロードも、場合によっては、スケールアップ設計で対応できるようになっているのです。
最新のHPCおよびAIワークロードとの関連性
このワークロードは特殊なものでしたが、処理実行時に観察されたストレージの挙動は、本番環境で求められる要件と密に類似するものでした。その例は以下のとおりです。
- テラバイト規模のチェックポイント作成が頻繁に行われ、ストレージパフォーマンスがトレーニング時間に直接影響を与える大規模なAIトレーニング
- ピークスループットよりも、レイテンシーが予測可能であることが重要となる推論パイプラインと特徴量ストア
- ジョブ実行に数週間から数ヵ月を要し、再起動には法外なコストがかかる科学シミュレーションおよびモデリング
- 大規模な作業用データセットを計算リソースの近くに保持する必要のある高度分析パイプライン
いずれの場合も、ストレージの一貫性と長期的な耐久性は、ジョブの完遂、システム利用率、運用リスクに直接影響を及ぼします。
この記録から得られる主な技術的教訓
今回の記録が意味することは、単に数学的な節目となる目標を達成しただけに留まりません。現代におけるストレージ中心のコンピューティングの、実用的な可能性をいくつも実証したのです。具体的には以下のとおりです。
- ペタバイト規模のスクラッチワークロードは、NVMeのみで完全に対応可能である
- 大容量SSDは、パフォーマンスの低下を招くことなく、過酷なI/O負荷に耐えられる
- かつてはクラスターが必須とされていたワークロードでも、今では単一ノードのアーキテクチャーで処理可能である
- パフォーマンスの一貫性と耐久性は、単純な帯域幅と同じくらい重要である
これらの所見は、高度なコンピューティングワークロードの実現可能性と効率性が、ストレージによって決まる度合いが高まっていることを示しています。
データセンター戦略およびインフラ計画への示唆
今回の取り組みは、技術的な節目となる目標を達成しただけでなく、今日のデータセンターにおいて、ストレージが運用成果とアーキテクチャー選択にますます大きく影響するようになったという事実を浮き彫りにしています。
ビジネス部門およびIT部門のリーダーにとっての最も重要なのは、ピークスループットではなく、大規模環境でも予測可能なパフォーマンスということになります。AIトレーニング、大規模アナリティクス、科学計算など、実行に長時間を要するワークロードでは、非効率性や障害が増幅されます。ストレージがボトルネックになっている状態では、高価な演算リソースが遊休状態となり、コストがかさみ、タイムラインが長期化します。
今回の記録は、大容量のNVMeによって、このバランスを変えられることを示しています。長期間の計算処理に必要なデータが、常に利用可能な状態に保たれ、それによって変動性が低下し、運用リスクが軽減されます。
インフラのアップグレードを計画する際の考慮事項
AIなどのデータ集約型ワークロードのアップグレードを計画するにあたり、重要度が高まっている評価基準がいくつかあります。
- バーストパフォーマンスよりも、持続的なスループット
短時間のベンチマークで、実際のワークロードが反映されることはめったにありません。数分間で達成されるピーク値よりも、読み取り/書き込みの負荷が混在する状況下で、数ヵ月にわたって維持される一貫性の方が重要です。 - サーバーあたりのパフォーマンス密度
ペタバイト規模の容量とI/Oを単一のシステムに統合する能力は、消費電力、設置スペース、ネットワーク、および管理負担に影響を与えます。 - レイテンシーの予測可能性とテール挙動
平均的なパフォーマンスだけでは全体像は見えてきません。レイテンシーに異常値があると、パイプラインの停止、チェックポイントの遅延、ジョブの失敗へと連鎖していく可能性があります。 - 定常的な負荷における耐久性と信頼性
実行に長時間を要するジョブは、短時間のテストでは見つからない弱点を露呈させます。利用率が定常状態に近づくと、ストレージがパフォーマンスとデータの完全性を維持しなければなりません。 - 運用面での簡素性
外部ストレージファブリックや大規模クラスターへの依存度が低くなることで、障害の影響範囲が狭まるとともに、実装や拡張が容易になります。
ストレージの選択とデータセンター戦略との調整
今回の記録から得られる大きな教訓の一つは、最新のNVMeストレージによって、複雑性をどの部分に置くかを再考できるようになった点です。状況によっては、より少ないノード数でストレージ密度を高めるスケールアップを行うことで、スケールアウトの必要性がなくなる場合があります。その結果、以下のようなメリットがもたらされます。
- サーバーおよび相互接続の数が減少
- 作業量あたりの電力消費量と冷却負荷の低減
- 自動化とライフサイクル管理の簡素化
- 実装と復旧に要する時間の短縮
これによって分散型アーキテクチャーの必要性がなくなるわけではありませんが、インフラチームが実際に利用できる設計上の選択肢が広がります。
AIおよびアナリティクス関連のワークロードの規模と実行時間が拡大し続ける状況の中で、ストレージの選定は、パフォーマンスだけでなく、コスト効率、耐障害性、組織の俊敏性にも、ますます大きく影響するようになると予測されます。
結論
314兆桁の円周率計算では、わずかなミスも許されませんでした。このシステムは110日以上にわたり定常的な負荷の下で動作し、パフォーマンス、耐久性、信頼性に少しでも弱点があれば露呈していたはずです。
ところが、どんな弱点も表面化することはありませんでした。
その代わりに、大容量のマイクロン製NVMe SSDが、持続的なパフォーマンス、動作の安定性、パフォーマンス密度を実現できることを実証する結果となりました。それは、インフラ設計の選択に実質的な変化をもたらすレベルでした。
今回学んだ教訓は、円周率の数値そのものではありません。非常に大規模かつ長期にわたるデータ集約型のワークロードを、予期せぬトラブルなしで支えるよう設計されたストレージによって、どんなことが可能になるのかを示す教訓です。マイクロンのストレージ専門家による詳しい説明は、「データセンターのインサイト」ページをご覧ください。