このブログはIDCのゲスト著者がMicron.comへの掲載向けに執筆したものです
1サイズですべてに対応するサーバーは存在しない
現在はデータ量*と速度が驚異的に増大しており、データセンターにとって負担となっています。かつては汎用の固定アーキテクチャーサーバーでほとんどのデータセンターワークロードのニーズに対応できていました。しかし、最新のワークロードは多様化しており、データの処理、移行、保存、分析の各能力に対する要件がさまざまであるため、従来のサーバーはそれぞれのニーズを柔軟に満たすことができません。
*IDCは、2023年から2028年にかけて、1日あたりのデータ生成量は年平均で24.4%増加すると予測しています1
このようなニーズに対応できる能力を提供し、パフォーマンス、電力消費、コスト(1ワット・1ドルあたりのパフォーマンス)の制約を満たすため、エンタープライズやクラウドデータセンターでは柔軟なホワイトボックスサーバーが広く採用されています。実際、ブランド名を冠さないホワイトボックスサーバーが、2023年に全世界のサーバー出荷全体の約45%を占めるほど増加しました。ホワイトボックスサーバーを採用してアーキテクチャーを構築する際、主に次の3つの手法を利用します。
- 人工知能(AI):データが存在する場所に高い情報処理機能を持たせ、より高性能なメモリ、ストレージ、ネットワーク、処理能力を備えることで、従来以上に効率的にデータを処理、移動、保存、分析できるようになります。AIは大規模なデータセットを分析して結果を出力するため、企業のインフラストラクチャーのどこで(エッジやコアなど)でどのデータが必要になるかを決定したり、ネットワークを監視して特定ユーザーの接続の可否を決定したりなど、大小さまざまな役割を果たします。AIはITおよびOTの運用においてさまざまな面で深く浸透しているため、十分に注意してシステムをチューニングし、適切な機能を提供しなければなりません。
- 異種コンピューティング:ワークロードのニーズに応じて、メモリ、ストレージ、処理、接続の各種テクノロジーを組み合わせてサーバーを構成します。たとえば、10年前のサーバーのGPUは固定シリコンダイに統合されていましたが、現在では専用メモリを持つ堅牢なディスクリートGPUを装備しているサーバーが多くなっています。10年前には存在しなかったAIサーバーが現在存在するのは、CPUのマルチコア化、ハイエンドGPU、特殊なカスタムチップ(ASIC)が組み合わさって、要求の厳しいAIのスループットに対応できるようになったためです。
- 分散コンピューティング:データが存在する場所にサーバーを移動し、メモリ、ストレージ、処理、接続の機能を調整することで、データの移動コストを最小限に抑え、データセンターとエンドユーザー間のレイテンシーを低減します。集中型コアデータセンターのサーバーは高負荷タスクを処理するため、強力なCPU、GPU、FPGAを必要とします。一方、エッジ(データが生成および利用される場所の近くにインフラストラクチャーやワークロードを配置するコンピューティングパラダイム)データセンターのサーバーは、リソースの制約の中でより特定分野のタスクを処理するため、電力効率の高いCPUやSoC、省電力メモリが求められます。データセンターは、大規模なコアデータセンターサーバーと、データを使用するユーザーの近くに戦略的に配置されたエッジサーバーを組み合わせたハイブリッドモデルとして、それぞれに適した場所に配置されます。
データセンターの可能性を活用
ホワイトボックスサーバーアーキテクチャーは柔軟性が高いため、サーバーがターゲットとするワークロードのパフォーマンス、消費電力、コストのニーズに応じてサーバー構成を大きく調整できます。現在のコンピューティング、メモリ、ストレージ、ネットワークといったテクノロジーは、わずか5年前と比較しても、スケーラビリティとコスト効率が圧倒的に向上しています。
コンピューティングにおいては、サーバー用マイクロプロセッサーのポートフォリオは現在、小規模で低負荷のワークロード向けの4コアから超高負荷ワークロード向けの144コアまでさまざまなコア数が揃っており、2025年には288コア製品が主流になるでしょう。さらに、サーバー用マイクロプロセッサーは、より大きなメモリや高いI/O能力に対応しています。PCIeを介して各種GPU、FPGA、カスタムASICなどを含む高性能アクセラレーター(その多くはAI用に設計され、特定ワークロードに合わせてプログラムされています)を接続できるため、マイクロプロセッサーの作業負荷が軽減し、サブシステム全体のパフォーマンスと電力供給のバランスが改善します。
この業界のサーバーのメインメモリは、DDR5へと急速に移行しています。DDR5メモリモジュールは容量が大きいだけでなく、ローカルに置くことができる情報(データバッファ)の量が増加する、メモリが独自に消費電力を管理するという特徴があります。アクセラレーターについては、高帯域幅メモリ(HBM)、具体的にはHBM3Eが今日の標準となっており、AIモデルのトレーニングなどの高負荷ワークロード向けに、大容量かつ低レイテンシーの専用の製品があります。
ストレージにおいては、AIによってSSDに保存されるデータ量がさらに増加すると予想されています。これに対応するため、システムアーキテクトは、より高速で大容量のNVMeTM対応ドライブをメモリとストレージ階層に導入し、データプロセッサーへのデータ転送を高速化しています。ストレージインフラストラクチャーでは、AIモデルのトレーニングに膨大な量の非構造化データおよび構造化データを使用するため、オブジェクトストレージとファイルストレージを組み合わせたストレージアーキテクチャーが必要となりました。その結果、どちらの形式で保存されたデータにも、データパイプラインがアクセスできるようになりました。
ネットワークは、コスト効率、およびパフォーマンス効率に優れたサーバーには不可欠です。AIインフラストラクチャーの開発初期段階では、GPUなどのデータ処理テクノロジーに多大な投資が行われてきましたが、AIモデルではサーバーのサブシステム間、サーバー間、データセンター間で膨大な量のデータが移動します。ネットワーク伝送時間を最小限に抑えるため**、ネットワークICはイーサネットにおいて最大1,600Gb/秒のスループットを実現しています。コンピューティングアーキテクチャーでは、オーバーサブスクリプションが発生する通常のイーサネットネットワーク、イーサネットまたはInfiniBandTMを使用したAI処理ネットワーク、ネットワークを拡張するPCIe®またはNVLinkTM対応のGPUバックエンドネットワークなど、ネットワークアーキテクチャーをセグメント化しています。
**データのネットワーク伝送に要する時間は、GPUとCPUがアイドル状態となる時間が最大60%に達する場合があります2
新たに生成AIが主要ワークロードとなることで極めて大きな影響が発生するため、AI対応インフラストラクチャーの導入が必要となっており、実際にそれを構築するという重要なステップが始まっています。2024年以降、企業は事業とスタッフの生産性を大幅に向上させるとともに、顧客のデジタルエクスペリエンスを刷新するための投資を行い、新しいAI対応ハードウェアおよびソフトウェアインフラストラクチャーの導入を加速させています。
ホワイトボックスサーバーがもたらす柔軟性は、UCIe™、CXL™、HBM3Eといった次世代テクノロジーを活用し、モジュール設計による高いスケーラビリティを備えた未来のデータセンターの基盤となっています。これにより、AIの普及による変革に対応するための、アーキテクチャの継続的な進化が可能となるのです。
1 IDC、「世界IDCグローバルデータ環境予測、2024~2028年:「AIが浸透するもデータ量の急増により処理が長時間化」Doc #US52076424、2024年5月
2 「ITインフラにおけるAI半導体とストレージコンポーネントの展望」IDC # US51851524、2024年2月
本記事で述べられている意見は、寄稿者個人の見解であり、Micron Technology, Inc.、同子会社、関連会社のものではありません。すべての情報は「現状有姿」の状態で提供され、マイクロンおよび著者は記載されている情報に関していかなる表明または保証も行いません。マイクロン製品は、販売された製品、該当するデータシートまたは仕様に記載された事項に基づいて保証されています。情報、製品および仕様は予告なく変更される場合があります。Micron、Micronのロゴは、Micron Technology, Inc.の商標または登録商標です。サードパーティの名称または商標は、それぞれの当事者によって所有されており、本記事での言及は、これらの当事者に対する推奨、後援、提携を意味するものではありません。