皆さんはなぜ、2倍のレプリケーションしかテストしないのでしょうか。
私のようなSSD技術者が通常、2倍のレプリケーションでCephをテストするのには理由があります。SSDはスピナーよりも信頼性が高い、2倍のほうがパフォーマンスが良い、などです。しかし、少なくとも3倍のレプリケーションが必須となる場合はどうしますか。それはマイクロンの超高速All NVMe Cephリファレンスアーキテクチャーのパフォーマンスにどう影響するでしょう? よくぞ尋ねてくださいました。
このブログは、マイクロンの最速NVMeドライブであるMicron 9200 MAX(6.4TB)を搭載した、新しいIntel® PurleyベースのCeph RAについての簡単なパフォーマンスレビューです。
マイクロンの新しいリファレンスアーキテクチャーは、Ceph Luminous (12.2.1)ベースのRed Hat Ceph Storage 3.0(RHCS 3.0)を使用しています。RAでのテストがFilestoreのパフォーマンスに限定されるのは、それが現在、RHCS 3.0が対応しているストレージエンジンであるためです。
2倍のレプリケーションと3倍のレプリケーションを比較すると、予想どおりのパフォーマンスです。4KBランダム書き込みのIOPSは約35%遅くなり、読み込みは全く変わらず、70/30のIOPSは約25%遅くなります。
ブロックワークロード |
2倍のレプリケーションのIOPS |
3倍のレプリケーションのIOPS |
2倍のレプリケーションの平均レイテンシー |
3倍のレプリケーションの平均レイテンシー |
4KBランダム読み込み |
200万 |
200万 |
1.6ミリ秒 |
1.6ミリ秒 |
4KBランダム書き込み |
363,000 |
237,000 |
5.3ミリ秒 |
8.1ミリ秒 |
4KB 70/30 R/W |
781,000 |
577,000 |
読み込み1.4ミリ秒/書き込み3.5ミリ秒 |
読み込み1.7ミリ秒/書き込み5.4ミリ秒 |
このソリューションは、ブロックパフォーマンスに最適化されています。LinuxでRADOSブロックドライバーを使用するランダムスモールブロックテストが、2ソケットストレージノードのプラチナレベル8168 Intel Purleyプロセッサーを限界まで高めます。
1ストレージノードあたり10台のドライブを搭載したこのアーキテクチャーでは232TBのストレージ容量が使用でき、1Uストレージノードを追加することで拡張可能です。
リファレンスデザイン - ハードウェア
テスト結果と分析
Cephのテスト方法
Cephは、1つのMicron 9200 MAX NVMe SSDあたり2つのオブジェクトストレージデーモン(OSD)で、FileStoreを使用して構成されています。それぞれのOSDには20GBのジャーナルを使用しました。1ストレージノードあたり10台のドライブ、1ドライブあたり2つのOSDの場合、Cephには合計80のOSDがあり、使用可能容量は232TBになります。
テストしたCephプールは8192個の配置グループで作成しました。Red Hat Ceph 3.0の2倍のレプリケートプールは、各75GBのRBDイメージを100個使用してテストし、7.5TBのデータを2倍のレプリケートプールで、合計15TBのデータになります。
Red Hat Ceph 3.0の3倍のレプリケートプールは、各50GBのRBDイメージを100個使用してテストし、5TBのデータを3倍のレプリケートプールで、合計15TBのデータになります。
4KBランダムブロックのパフォーマンスは、RADOSブロックドライバーに対してFIO合成負荷生成ツールを使用して測定しました。
RBD FIO 4KBランダム読み込みパフォーマンス
4KBランダム読み込みパフォーマンスは、2倍のレプリケートプールと3倍のレプリケートプールでほぼ同一です。
RBD FIO 4KBランダム書き込みパフォーマンス
IOPSのパフォーマンスは、3倍のレプリケーションだと2倍のレプリケートプールよりも最大35%低下します。平均レイテンシーは同程度に増加します。
4KB書き込みパフォーマンスは、60 FIOクライアントでIOPSとレイテンシーの最適な組み合わせに達し、2倍のレプリケートプールで363K IOPS、平均レイテンシー5.3ミリ秒、3倍で237K IOPS、平均レイテンシー8.1ミリ秒になります。この時点で、Cephストレージノードでの平均CPU使用率は90%を超えており、パフォーマンスを制限します。
RBD FIO 4KBランダム70%読み込み/30%書き込みパフォーマンス
70/30ランダムR/WワークロードのIOPSパフォーマンスは、2倍のレプリケートプールから3倍のレプリケートプールに移行すると25%低下します。読み込みレイテンシーはほぼ同じですが、3倍のレプリケートプールでわずかに増加します。書き込みレイテンシーは、3倍のレプリケートプールで50%以上大きくなります。
さらに詳しく知りたい方は
RHCS 3.0 + Intel Purleyプラットフォームのマイクロン9200 MAX NVMe SSDは超高速です。新しく公開したマイクロン/Red Hat/Supermicroリファレンスアーキテクチャーをご覧ください。OpenStack Summit 2018の私のセッションでは、マイクロンのRAとその他のCephのチューニングやパフォーマンスに関するトピックを紹介する予定です。詳細は後日お知らせします。ご期待ください。
マイクロンのテストや手法についてご質問のある方は、以下にコメントを残すか、ssd@micron.comまでメールでご連絡ください。