MLCommnsのウェブサイトによると、同社は、機械学習のイノベーションを加速し、社会への肯定的な影響を高めるために、2018年に開始しました。現在、MLCommonsは、6種類のベンチマーク一式を維持・開発し、今後の最新モデルの開発をサポートするよう、オープンデータベースを開発しています。MLPerf Storage Benchmark Suiteは、ベンチマークコレクションの最新作です。
MLCommonsストレージワーキンググループの一員として、私はベンチマークルールとプロセスを開発し、ベンチマークの結果が研究者、顧客、ベンダーにとって確実に有意義なものになるよう、ベンチマークルールとプロセスを開発しました。先ごろ、Micron 9400 SSDの結果を含む初めてのベンチマークルールを発行しました。
しかし、AIのワークロードに特化した、新規のベンチマークユーティリティがなぜ必要なのでしょうか?
AI学習システム用ストレージワークロードの特性分析は、MLPerf Storage Benchmark Suiteが解決を目指している2つの特有の課題に直面しています。AIアクセラレーターにコストがかかることと、利用可能なデータセットの規模が小さいことです。
まず最初に、AIアクセラレーターは高額で複雑なコンピュートシステムになる可能性があり、ほとんどのストレージベンダーは、ストレージソリューションに関する自社の製品のスケーラビリティを分析できるほどのAIシステムを備えていないことになります。
2番目の問題は、AI業界で一般的に使われているデータセットよりも、自由に使えるデータセットが小さいということです。MLCommonsとその参加者が利用できるデータセットは、150ギガバイトの大きさになる可能性がありますが、製造に使用しているデータセットは通常数10代か100代のテラバイトです。現代のサーバーは、DRAMが優に1〜2テラバイトになることがあり、最初のトレーニングエポックの後、DRAM内のデータを起動させた後に、システムメモリーの小さなベンチマークデータセットのキャッシュに影響します。しかし生産データセットはサイズが異なるため、同じ状況は起こらないと言えます。
MLPerfストレージは、標準的なCPUベースサーバーのアクセラレーターをエミュレートすることで、最初の問題に対処します。低レベルでは、MLPerfストレージは、一般的に使用されているワークロード(pytorch、tensorflowなど)と同じAIフレームワークを使用していますが、MLPerfはプラットフォームの計算の部分を「スリープタイム」でバイパスします。スリープタイムは、実際のAIアクセラレーターを用いたシステムの実際のワークロードを起動することで、実験的に見つかったものです。
エミュレートされたアクセラレーターと本物のアクセラレーターを比較すると、ワークロードが非常に似ていることが分かりました。
MLPerfストレージは、実際の生産データセットに似ているが、より大きく再現したデータセットを作成することで、2番目の問題に対処します。このベンチマークは、ファイルシステムやオブジェクトストレージの他、番号付きNumpyアレイ、TFRecordファイル、HDF5ファイルなどの複数データなど、様々なデータストレージテクノロジーをサポートします。
このような問題を解決するほか、John Mazzieによる過去のブログでは、AIトレーニングワークロードは多くの側面でより複雑で、ワークロードはバースト性があり、レイテンシー感度を備えていることを示しました。
MLPerf Storage Benchmark Suiteは、高額なAIアクセラレーターを必要とせず、現実のデータセットを代表するデータセットサイズに対応して、現実のAIトレーニングワークロードに即した形でストレージシステムを演習できる、優れた手段です。
マイクロン9400 NVMe SSD は、3D医療イメージングベンチマーク(Unet3D)の中の17x アクセラレーターをサポートします。つまり、1秒間に41サンプル、または、IOスループットの6.1GB/秒という意味になります。
簡単に起動でき、実際のAIトレーニング環境を代表するこのベンチマークを武器に、マイクロン データセンター ワークロード エンジニアリング チームは、ストレージ デバイスとソリューション全体のデータを提示して、アクセラレーターの使用率を高めるためのストレージの調整と設計方法を全員がよりよく理解できるようにします。