アクセラレータへの推論エンジン搭載によりAIを駆動
間違いなく言えることは、人工知能(AI)と機械学習(ML)が世界中のデータの利用方法を一変させる推進力になるということです。たとえば、MLは素粒子物理学、医学研究、ロボット工学などの分野で科学的発見を加速させています。また、CERN openlabは、宇宙を理解する上で役に立つ新しいML技術を高エネルギー物理学へ応用を試みる最先端の立場にあります。完全自動運転車の実現は遠い未来の話ではなくなり、現在では音声アシスタントからスマートマニュファクチャリングまで、AIとMLが幅広く導入されています。
一方で、MLは従来のコンピューティングアーキテクチャに大きな課題も提示しています。AIとMLのチカラを真に活用するには、高性能な高密度メモリと密結合した新しいコンピューティングアーキテクチャが必要です。この新しい分野では、大量の複雑なデータを高度なMLアルゴリズムでほぼリアルタイムに処理するために、高い精度と速度が求められ、そのためには高速メモリ帯域幅が必要になります。
科学、医学、産業界の研究者がAIとMLの力を活用するためには、新しいアプローチが必要です。メモリ帯域幅は、マイクロプロセッサのコアの増加に応じたスケールアップが行われてきませんでした。サーバーおよびプロセッサーの構成要素はクロック速度の限界に達しました。また、今日のデータ集約型科学アプリケーションはメモリに拘束されるようになりました。
ディープラーニングアクセラレータの登場
これらの問題に対処するためのイノベーションが起こりつつあります。最近はAIアプリケーションのハードウェアアクセラレータ用に設計された新しい魅力的なマイクロプロセッサが導入されるようになっています。マイクロンはディープラーニングアクセラレータ(DLA)シリーズの独自の製品ラインを開発しました。マイクロンのDLAは、高密度の高帯域幅メモリと密結合され、フィールドプログラマブルゲートアレイ(FPGA)の高速化と省電力を実現するように設計されたハードウェアとソフトウェア、および従来はハードウェア記述言語(HDL)で行われていたFPGAプログラミングが不要になるように基盤となるハードウェアから抽象化されたMLソフトウェア開発キット(SDK)の組み合わせです。
マイクロンはCERN openlabの研究者と協力して、大型ハドロン衝突型加速器の4つの主要な実験の1つである小型ミューオンソレノイド(CMS)の2つのプロジェクトにおいて、マイクロンのDLAであるMicron-852のテストを行っています。マイクロンのニューラルネットワークベースのメモリソリューションは実験のデータ収集システムでテストされます。
マイクロンのSB-852ディープラーニングアクセラレータ、PCIe x16 Gen3
高性能メモリを搭載した高性能アクセラレータ
膨大な量のデータを高速で処理する場合は、FPGAの高速化が不可欠です。マイクロンのSB-852アクセラレータはXilinx® Virtex Ultrascale+ FPGAによって実現されています。これにより、SB-852は科学や医療などの膨大な量のデータの消費に必要な処理能力を提供します。また、最大512GBのDDR4メモリを備えたSB-852を利用すれば、研究者は大規模なデータセットに対して推論をローカルで実行できるため、データをパーティション分割する必要性がなくなります。4チャネル構成で最大68GB/秒のメモリ帯域幅を実現するため、データを迅速に分析し、発見の糸口となる洞察を得ることが可能になります。
主要なディープラーニングプラットフォームと連携するFWDNXT推論エンジン
柔軟性の高いMLに対応するプリロード推論エンジン
マイクロンのDLAには本当に推論エンジンが組み込まれているのかという疑問を抱く方もいるかもしれませんが、FPGAは既に複数のタイプのニューラルネットワーク(CNN、RNN、LSTM)に対応する革新的なFWDNXTのML推論エンジンを用いてプログラミングされています。FWDNXTのML SDKを利用すれば、FPGAのプログラミングはPythonやC++でのプログラミングと同じくらい簡単です。残りの処理はすべてSDKが行ってくれるので、ニューラルネットワークを簡単に高速化できます。多くのメリットの中でも特筆すべきは、FPGAだけでなく、FWDNXTの革新的な推論エンジンからも低消費電力と高パフォーマンスのメリットが得られ、ニューラルネットワークモデルでほぼ100%の計算効率を実現するということです。
具体的に言うと、ML SDKはすべてのMLフレームワークをサポートしているため、データサイエンティストは任意のフレームワーク(TensorFlow、Pytorch、Caffe2など)でニューラルネットワークをトレーニングし、そのネットワークをオープン標準のニューラルネットワーク交換フォーマットであるONNXに出力できます。次に、SDKを使用して、その出力をマシンコードにコンパイルし、事前に読み込まれた推論エンジンで実行します。研究者は、GPUをターゲットとする場合のコードを数行変更するだけでマイクロンアクセラレータをターゲットにすることができます。
加速する未来
マイクロンはさまざまなアクセラレータボードとモジュールのDLAファミリ、および最大6つのモジュールに対応可能なモジュール用PCIeキャリアボードを提供しています。PCIeインターフェースとQSFPインターフェースの両方をサポートするボードも提供しています。多くの製品が低消費電力とスモールフォームファクタの特徴を備えているため、データセンターからネットワークのエッジにあるスマートデバイスに至るまでの高速かつ効率的な機械学習が可能になります。
詳しくはmicron.com/AIをご覧ください。また、最新情報は@MicronTechでフォローしてください。