AIの台頭がもたらすパソコン環境の変革とメモリとストレージへの影響
AIはどこにでも存在します。AIが稼働するのを耳にしたり見たりすることなしに、一日を過ごすことはできません。スマートアシスタントから自動運転車まで、AIは私たちと世界との関わり方を大きく変えています。けれども、パソコンはどうでしょうか? AIはパソコンをよりスマートに、より高速に、よりパーソナライズされたものにすることができるでしょうか。このブログでは、AIがパソコン環境をどのように変革しているのか、そしてそれがメモリとストレージにどのような意味があるのかについて探っていきます。CES 24(コンシューマーエレクトロニクスショー)では、すべての話題がAIに集中しました。ショーの報道の50%以上がAIに関するものでした。
AIは、人間が蓄積してきた膨大な量のラベル付けされていないテキストを使用して開発された大規模言語モデル(LLM)によって支えられています。人間さながらの応答を返す自然言語クエリは、何十億ものパラメータを持つニューラルネットワーク上で、場合によっては複数のネットワークがリンクされて構築され、コンテンツを生成します。LLMで最もよく知られている例としてはChatGPTやDall-Eがあり、ユーザーの入力に基づいてリアルで創造的なテキストや画像を生成できます。これらのLLMは目覚ましいものですが、実行するには多くの計算能力とデータが必要です。そのため、そのほとんどが、大規模なハードウェアインフラストラクチャとネットワーク帯域幅の要件を満たすクラウド環境でホストされています。
しかし、AIが有効化されるのはクラウドだけではありません。AIプロセスの一部をエッジ(ユーザー側のデバイス)に移行することでメリットが生まれる理由はたくさんあります。たとえば、エッジAIはレイテンシーの削減、プライバシーの改善、ネットワークコストの削減、オフライン機能の有効化を実現します。PCを使用して、クラウドに頼らずに、高品質のコンテンツの生成、写真や動画の編集、音声の文字変換、ノイズのフィルタリング、顔の認識などを実行できるようになることを想像してみてください。便利だと思いませんか?
なぜパソコンなのか?
もちろん、エッジAIのメリットを享受できるデバイスはパソコンだけではありません。スマートフォン、タブレット、スマートウォッチ、その他のデバイスもAIを活用することで、機能とパフォーマンスを向上させることができます。しかし、パソコンには、エッジAIに適したプラットフォームになるいくつかの独自の利点があります。まず、パソコンは画面が大きいので、より多くの情報を表示し、より良いユーザーエクスペリエンスを届けることができます。2番目に、パソコンには大容量のバッテリーが搭載されているため、長時間にわたり、高負荷のAIタスクに対応できます。3番目に、パソコンには強力な機能が備わっているため、より複雑で要求の厳しいAIモデルを処理できます。
チップメーカーやソフトウェア開発企業は、すでにこれらの利点に着目しています。インテル、AMD、クアルコム、メディアテック、エヌビディアなどの企業は、パソコンのCPUやチップセットに、ますます強力なニューラル処理エンジンや統合グラフィックスを組み込み、数十のTOPS(1秒あたり数兆回の演算)のAIパフォーマンスを実現しています。マイクロソフトもまた、CPUにWindows 11 OSを組み込み、このAIエンジンを活用し最適化したものを今年リリースすると表明しています。同社は現在Copilotを強く推進中ですので、特に驚くニュースではないでしょう。Copilotは、AIを使用して、ユーザーがコードを書き、エラーをデバッグし、改善を提案するのを支援する機能です。これらの大手企業の一部は、ISVと協力してAIに最適化されたアプリケーションを実現することに取り組んでいます。具体的には、強化されたビデオ会議エクスペリエンス、写真編集能力、音声からテキストへの変換、背景環境とノイズの抑制、顔認識のアプリケーションです。開発中のこれらのアプリケーションが人気を呼ぶことになるか、それともキラーアプリケーションが今後出現するかは、まだ推測の域を出ていません。しかし、重要な疑問は残ります。パソコンでAIモデルを効率的かつ効果的に実行するにはどうすればよいでしょうか? さらには、他の課題もあります。
AIがパソコンのハードウェア能力に与える影響とは
パソコンでAIモデルを実行する際の主な課題の1つに、モデルサイズがあります。AIモデル、特にLLMは、数十億から数兆のパラメータを持つことができます。これらのパラメータでは、格納と読み込みに大量のメモリとストレージが必要になります。たとえば、私たちの内部実験では、4ビット精度の700億パラメータのLlama2モデルは、自然言語生成のための最先端のLLMですが、読み込みと推論のために約42GBのメモリを必要とし、1.4トークン/秒の出力速度であることが示されました。これは、一般的なパソコンでは利用できない大量のメモリです。このことは本質的に、問題を明らかにし、将来の方向性を定めるものです。今後は、精度を維持しながら小型化を可能にする機能に特化したモデルが登場するでしょう。これから分岐が起きると予想されます。700億パラメータタイプの大型モデルは、大容量のメモリとストレージを備えた高品質のシステムで使用することが可能になり、チャット補完などの微調整されたアプリケーションを実行し、対話のユースケースに最適化される可能性があります。また、ローカルのオンデバイスのパーソナルアシスタントにも大きなパラメータモデルが必要な場合があります。10B未満のパラメータモデルは、主流のデバイスで使用することが可能になり、モデルをホストするために消費するインクリメンタルメモリが小さくなる(約2GB)と考えられ、テキスト補完、仕上げリスト、分類などの言語タスクなどのアプリケーションで使用できるようになるでしょう。
モデルサイズ、少なくともパソコンのメモリサイズは、明らかにメモリに影響します。帯域幅とエネルギー効率も同様に重要です。パソコン(特にモバイルタイプ)がDDRからLPDDRに移行すると、これらの両方の側面に貢献します。たとえば、LPDDR5Xは、DDR5と比較して、アクティブな使用時の消費電力が44~54%、セルフリフレッシュ時の消費電力が86%少なくなります。帯域幅については、DDR5の4.8Gb/秒に対してLPDDR5では6.4Gb/秒となります。これらはすべて、AIがパソコンで速やかに浸透した場合、LPDDR5への移行が迅速に行われることを示します。処理の一部をメモリに移動することでエネルギー効率を向上させることに関する研究開発が行われています。実現するとしても、長い時間がかかるでしょう。業界は、メモリにオフロードするために共通のプリミティブセットに収束する必要があり、それによって開発が必要なソフトウェアのスタックが決まります。特定のプリミティブセットが、すべてのアプリケーションに最適であるとは限りません。さて、現時点で、パソコンのメモリ内での処理では回答よりも質問の方が多いとします。
大きな問題は、スイートスポットAIモデルがどこに到達するかです。モデルのサイズが比較的大きい場合、メモリへの依存を減らし、モデルの一部をストレージにプッシュする方法はあるでしょうか? それが実現したなら、モデルのローテーションには、ストレージ帯域幅を増やすことで対応する必要があります。これにより、Gen5 対応PCIeストレージの主流パソコンへの普及が促進されるか、Gen6対応PCIeストレージの導入が加速される可能性があります。この同じトピック1についてAppleが最近発表した論文「LLM in a flash:限られたメモリでの効率的な大規模言語モデルの推論」(Alizadeh et al)は、利用可能なDRAM容量を超えるデバイス上で大規模言語モデル(LLM)を実行する方法を提案しています。著者たちは、モデルパラメータをフラッシュメモリに保存し、オンデマンドでDRAMに取り込むことを提案しています。また、データ転送量を最適化し、読み出しスループットを向上させて推論速度を大幅に向上させる方法も提案しています。この論文で、さまざまなフラッシュ読み込み戦略を評価するために使われる主な指標はレイテンシーであり、フラッシュから読み込むI/Oコスト、新しく読み込んだデータによるメモリ管理のオーバーヘッド、推論操作の計算コストという、3つの異なる要素に分けられます。要約すると、モデルパラメータをフラッシュメモリに格納し、DRAMにオンデマンドで取り込むことで、使用可能なDRAM容量を超えるLLMを効率的に実行するという課題に対するソリューションが提供されています。
AI機能は進化を続けます。まず、現在の組み込みNPUをCPUとディスクリートGPUに統合することから始まります。Kinara、Memryx、HailoのAIアクセラレーターカードは、パソコンのAIワークロードをオフロードするための代替の導入です。モデルが進化するもう一つの方法として、より小さく、特定の機能に最適化された機能固有のモデルが考えられます。このモデルは、ストレージからメモリにオンデマンドでローテーションする必要がありますが、ストレージへの影響は、大規模モデルを稼働するのと類似します。
ディスクリートNPUの利点は次のとおりです。
- 複雑なAIモデルやタスクを、CPUやGPUよりも低い消費電力と発熱で処理できる。
- 画像認識、生成AI、チャットボットなどのアプリケーションに、より高速でより正確なAIパフォーマンスを提供できる。
- 既存のCPUとGPUの能力を補完し、ユーザーの全体的なAIエクスペリエンスを向上できる。
レノボは、2024年6月に発売予定のThinkCentre Neo Ultraデスクトップで、これらのカードにより、現在のCPUやGPUソリューションよりも電力効率が高く、高性能なAI処理が実現すると述べています。2
メリットを表す数値としてTOPSのみを考慮するのは、誤解を招く可能性があります。結局、本当に重要なのは単位時間内の推論数、精度、エネルギー効率です。生成AIの場合、これは1秒あたりのトークン数、または数秒以内に完了できる安定した拡散などの数値に表れます。業界で許容できる方法でこれらを測定するには、ベンチマークの開発が必要になります。例を挙げると、私はCESで、CPUベンダーのすべてのブースを訪れ、ディスクリートNPUプレーヤーのデモンストレーションを体験しました。どのデモンストレーションも、何らかの側面で導入の優位性を主張していました。
パソコン分野へのAIの導入の分野は、確かに熱気に満ちています。パソコンのOEM各社は、この状況をパソコンの刷新であり、業界内でより価値の高いコンテンツの共有が増加するための起爆剤になると捉えています。インテルは、2025年までにPC TAM全体のほぼ30%に相当する1億台のパソコンを実現すると宣伝しています。どのような普及率になっても、コンシューマーとしては、2024年に何かが起きると期待できるのではないでしょうか。
参照リソース
- 1 2312.11514.pdf(arxiv.org)
- 2 KinaraとHaloに関するPC Worldの記事
- www.micron.com/AI