AMDとマイクロンのコラボレーションの目標は、クライアントとデータセンターのプラットフォーム全体でクラス最高のユーザーエクスペリエンスを実現することです。そのため両社はオースティンに共同サーバーラボを設置し、サーバーメモリの検証時間を短縮し、検証と立ち上げの全体にわたって共同ワークロードテストを実施しています。このブログでは、第4世代AMD EPYCTMプロセッサーとマイクロンのDDR5データセンター向けメモリを使用したHPCワークロードベンチマークの一般的な結果をいくつかご紹介します。これらの製品は現在出荷中です。
高性能コンピューティング(HPC)のワークロードは、歴史的に世界最速のスーパーコンピューターが担ってきた領域でした。ワークロードの多くは大規模なデータ集約型で、数百万の演算に分割して同時実行され、テラバイトのデータを使用します。そうした複雑なワークロードは、気象・気候シミュレーション、地震モデリング、化学・物理学・生物学的分析など、人類の最も難解な問題の解決に取り組むためのものです。
そのようなワークロードは、コンピュータアーキテクチャーの進歩に伴い、次第に高性能サーバーの大規模な「スケールアウト」クラスターでホストされるようになっています。そのような重要ワークロードのスケーラビリティ、低レイテンシー、パフォーマンスのニーズに対応するため、クラスターには最新かつ最高のコンピューティング、構造、メモリ、ストレージインフラストラクチャが必要となります。サーバーCPUのパフォーマンスとスループットが向上する一方で、ここ数年DDR4メモリによる帯域幅がボトルネックとなっていました。増え続けるハイパフォーマンスコアに供給するメモリ帯域が不足しているのです。
マイクロンのDDR5メモリとAMDの第4世代EPYCプロセッサーを搭載した新たなAMD Zen 4サーバーアーキテクチャーがこの状況を変えます。今ではサーバーCPUとメモリのバランスが大幅に改善され、最も要求の厳しいワークロードでもパフォーマンスと効率が向上しています。DDR5メモリは、オンプレミスであれクラウドであれ、組織が迅速にインサイトを得るのに役立ちます。業界標準のHPCワークロードベンチマークを利用して、最新のAMD Zen 4 96コアCPUを搭載したマイクロンのDDR5のテストで得た、プルーフポイントのいくつかをご覧ください。すべてのテスト結果で、パフォーマンスが2倍に向上しています。
STREAMを使用したマイクロンのDDR5と第4世代AMD EPYCプロセッサーでメモリ帯域幅を倍増
STREAM1 は、HPCコンピューターのメモリ帯域幅の測定に使用される、知名度の高いシンプルなベンチマークです。HPCシステムのピークメモリ帯域幅をキャプチャします。
このワークロード用のソフトウェアスタック
- Alma 9 Linuxカーネル5.14
- STREAM.f11-29-2021リリース
テスト環境
- 64コア / 3.7GHzのDDR4システム第3世代AMD EPYCプロセッサー、DDR4 3200 MHzシステム2には64GB RDIMMを搭載
- 96コア / 3.7GHzのDDR5システム第4世代AMD EPYCプロセッサー、DDR5 4800 MHzシステム3には64GB RDIMMを搭載
テスト結果
- シングルソケットDDR5システムで、378 GB/sのメモリ帯域幅が倍増
- この結果から、より大規模な人工知能/機械学習(AI/ML)プロジェクトの実行や、DDR5の増大メモリ帯域幅を利用したより多くのHPC計算ができることが分かります。
気象調査・予報(WRF)4速度がマイクロンのDDR5で倍増
このHPCワークロードコードは気象・気候コミュニティで使用され、気象アプリケーションでこのモデルが広く利用されています。通常、WRFは高浮動小数点処理、広メモリ帯域幅、低レイテンシーネットワークをサポートする従来のHPCアーキテクチャーで優れた性能を発揮します。この取組のために、2.5kmの方位分解能で米国本土(CONUS)が選ばれました。
このワークロード用のソフトウェアスタック
- Alma 9 Linuxカーネル5.14
- WRF 2.3.5/4.3.3
- オープンMPI v4.1.1
テスト環境
- 64コア / 3.7GHzのDDR4システム第3世代AMD EPYCプロセッサー、DDR4 3200 MHzシステム2には64GB RDIMMを搭載
- 96コア / 3.7GHzのDDR5システム第4世代AMD EPYCプロセッサー、DDR5 4800 MHzシステム3には64GB RDIMMを搭載
テスト結果
- マイクロンのDDR5と第4世代AMD EPYCプロセッサーを使用することで、実行速度が毎秒2.8533から、毎秒1.3567のタイムステップに向上しました。
- 実行時間の短縮は、気象予報官がより大きなデータセットを選択したり、より多数のモデルを実行できることを意味します。どちらの場合も予報の改善につながります。
マイクロンのDDR5を搭載したOpenFOAM5で実行速度が倍増
OpenFOAM は、開発時間とコストを節約するために、多様な業界で使われている数値流体力学 (CFD) 用のオープンソースHPCワークロードです。コンシューマー製品の設計から航空宇宙設計まで、アプリケーションにおける物理的な相互作用をシミュレートします。データセットに含まれるシミュレーションの1つが、オートバイの乱流シミュレーションです。このモデルでは、OpenFOAMはオートバイとライダー周辺の空気の気流を計算します。OpenFOAMは、ユーザーが指定したプロセス数に応じて計算を負荷分散し、プロセスごとにメッシュを分解して解析します。解析が完了すると、メッシュとソリューションは1つのドメインに再構成されます。
このワークロード用のソフトウェアスタック
- motorBikeメッシュサイズが600 x 240 x 240のOpenFOAM CFDソフトウェア(v8)
- Alma 9 Linuxカーネル5.14
- オープンMPI v4.1.1
テスト環境
- 64コア / 3.7GHzのDDR4システム第3世代AMD EPYCプロセッサー、DDR4 3200 MHzシステム2には64GB RDIMMを搭載
- 96コア / 3.7GHzのDDR5システム第4世代AMD EPYCプロセッサー、DDR5 4800 MHzシステム3には64GB RDIMMを搭載
テスト結果
マイクロンのテストでは、OpenFOAMの相対利得は2.4倍でした。これは大規模なオープンソース コミュニティを擁するHPCソフトウェアプラットフォームの上位5位に入ります。大学や研究開発センターで広く使われており、メモリ(帯域幅の拡大)とコアの高密度化などのCPUの両方の特徴を生かした高い並列化性が特徴です。
マイクロンのDDR5で分子力学6の実行速度が倍増
CP2Kは、固体生物系のシミュレーションなど、様々なアプリケーションに使用できるオープンソースの量子化学ツールです。CP2K は、GPWとGAPWの混合ガウス波と平面波のアプローチを使用したDFTなど、種々のモデリング手法に全体的なフレームワークを提供します。マイクロンが注目した例は、39立方オングストロームの箱に詰まった6144個の原子からなる水(H2O)(合計2048個の水分子)の線形スケーリング密度汎関数理論 (DFT) でした。
このワークロード用のソフトウェアスタック
- H2O-DFT-LS.NREP4とH2O-DFT-LS
- Alma 9 Linuxカーネル5.14
テスト環境
- 64コア / 3.7GHzのDDR4システム第3世代AMD EPYCプロセッサー、DDR4 3200 MHzシステム2には64GB RDIMMを搭載
- 96コア / 3.7GHzのDDR5システム第4世代AMD EPYCプロセッサー、DDR5 4800 MHzシステム3には64GB RDIMMを搭載
テスト結果
マイクロンのテストでは、分子動力学において2.1倍の相対的な向上が見られ、これはコアやメモリ帯域幅を増やすことで十分に拡張可能です。
サマリー
上記の結果は始まりに過ぎません。HPCワークロードの数例をご紹介しただけです。ハイパフォーマンス、高帯域幅メモリと、第4世代AMD EPYCプロセッサーなどの新型サーバープロセッサーが発揮する驚異的なパフォーマンスを効率的にマッチさせる能力は、HPCの顧客にとって重大な分岐点となります。これら新型プラットフォームでマイクロンのDDR5を使用して、エンタープライズデータセンターやクラウドオペレーターが、新レベルのパフォーマンスと効率を引き出す方法を示すプルーフポイントが、今後さらに増えると期待されます。それを今後数か月以内に皆さんにお知らせできることを楽しみにしています。マイクロンのDDR5とデータセンターのワークロードのメリットの詳細については、Micron.com/ddr5をご覧ください。
1. 25億ベクトルサイズのSTREAMベンチマーク設定でのSTREAMベンチマーク - AMDは1 CPUシステムで実行
2. AMD DDR4システムは64GB RDIMMをフル装備したDDR4-3200 MHzのAMD EPYC 7763 64コア
3. AMD DDR5システムは64GB RDIMMをフル装備したDDR5-4800 MHzのAMD EPYC 9654 96コア
4. 12.5km CONUSを利用したWRFは、ストレージI/Oもカウントしながら、実行速度がDDR4 システムで929秒、DDR5システムで287秒、上記の例は、毎秒2.8533と毎秒1.3567のタイムステップで実行するWRF 2.5km CONUSの例
5. OpenFOAMでは、以下の3つのバリエーションを実行
5a. 1004040 実行時間 = DDR4システムで1,144秒、DDR5システムで478秒
5b. 1084646 実行時間 = DDR4システムで1,633秒、DDR5システムで698秒
5c. 1305252 実行時間 = DDR4システムで2,522秒、DDR5システムで1,091秒
6. 分子力学のワークロードは、DDR4システムで2,519秒、DDR5システムで1,242秒