無効な入力です。特殊文字はサポートされていません。
大規模言語モデル(LLM)がAIの限界を押し広げるなか、高帯域幅メモリ(HBM)は、次世代LLMの鍵となる技術です。これにより、かつてないスピードで、文脈を理解しながら知的に推論するAIが実現されようとしています。
伝統的に、コンピューターシステムは決定論的で線形の処理モデルに基づいて設計されていました。
入力 → 計算 → 出力
しかし、近年の人工知能(AI)、特にLLMの成功には、発想の転換が必要でした。私たちはもはや、単純に処理して計算するだけの機械を扱っているのではありません。生成AIの出現により、ChatGPTに代表されるAI搭載チャットボットは、文脈を解釈し、新たな洞察を生み出すとともに、最新の情報に柔軟に適応し、さらには高度な推論まで行えるようになりました。まだ、アニメ『宇宙家族ジェットソン』に登場するアイコニックで愛すべきロボット家政婦の「ロージー」のような自我は持ち合わせていませんが、知的な会話を楽しめる頼もしいパートナーであることは確かです。
これらの知能的なシステムを動かす上でメモリがどのような役割を果たしているのか疑問に思われるかもしれません。LLMのパラメーター数が増大し、現在では数兆単位に達するようになるにつれて、メモリの重要性はいっそう高まっています。これは、推論やトレーニングの際に、こうした膨大なパラメーターセットをメモリ上に保持し、そこからすばやくアクセスできる必要があるためです。そして、HBMは、頻繁かつ大量のメモリアクセスを伴うこの膨大なデータ移動を処理するために特別に設計されています。過去10年間、マイクロンはこれらのモデルの急速な成長と成功に対応するためにメモリテクノロジーを進化させてきました。このブログでは、AIモデルを進化させ、より強力で有能で知能的なものにする上での高帯域幅メモリ、具体的にはマイクロンのHBM3Eの重要性について説明します。
ミリ秒単位の差が重要
LLMの急速な発展により、研究者や技術者は、計算システムが情報を処理し、移動する方法に関して根本的に考え直すという新たな課題に直面しています。コンピューターグラフィックスの登場によって、レンダリング速度の向上だけでなく、機械が視覚情報を認識して処理する方法を再定義するという考え方の転換が迫られたように、私たちは現在、AIでも同じような状況に立っています。AnthropicのClaude、GoogleのGemini、MetaのLlamaなどのLLMを主流のアプリケーションに統合するには、性能の漸進的な向上以上のものが求められます。人間と機械の間の動的で状況に応じたやり取りを支援できる新しいクラスのシステムが必要です。今日のハードウェアを設計する場合、技術者は遅延や電力効率などの従来の指標の最適化を超えた取り組みを行う必要があります。彼らが設計するシステムは、推論タスクの理解を強化し、即時学習を支援し、会話のようなやり取りの継続性を維持する必要があります。
AIを活用した対話では、数ミリ秒の違いが、調和のとれた人間のような体験と、断片的または苛々するような体験の違いを生む可能性があります。即時翻訳やAI副操縦士など、数千から場合によっては数百万単位に及ぶ同時ユーザーを支える高負荷データセンターのシナリオでは、HBM3Eのような次世代メモリのより高い帯域幅とより大きな容量が重要です。この技術により、システム応答の一貫性が確保され、高負荷時でも出力品質が維持され、すべてのユーザーにとって公平で忠実度の高い対話が可能になります。
HBM3EとAI推論
次世代のメモリハードウェアは、多くの場合、帯域幅と容量の向上が特徴であり、「より多く、より大きく、より速いほど良い」という理念が掲げられています。ただし、現代のAIシステム、特にLLMの文脈では、話はそう単純ではありません。HBM3Eを例に挙げると、データ転送速度の高速化(帯域幅の拡大)とメモリ容量の増加は、AI推論においてより多面的な影響を及ぼします。帯域幅と容量はメモリハードウェアにとって依然として重要な指標ですが、LLMの性能にはまったく異なる方法で影響を与えます。私たちの目標は、速度を上げてより速くしたり、容量を増やしてより多くのデータを保持できるようにしたりするというだけにとどまりません。より高い水準の知能、つまり情報を統合して推論する能力を実現するために、これらの指標を改善する必要があります。では、HBM3Eの仕様をいくつか見て、それらの高い値がAIモデルの文脈で実際に何を意味するのかを説明しましょう。
帯域幅が計算能力を決定する
HBM3Eはキューブあたり1.2テラバイト/秒(TB/s)を超える帯域幅を備えていますが、これは単に数字が大きいというだけではありません1。これは計算能力を表しています。この速度でデータを転送できるということは、AIモデルがこれまでにない速度で情報にアクセスし、処理と合成できることを意味します。これにより、遅延が大幅に短縮され、モデルの性能(システムの応答性と速さ)が向上します。
容量は推論の深さと複雑さを決定する
拡張された容量は、1キューブあたり24ギガバイト(GB)となり2、単なるストレージ容量の増加を超えた意味を持ちます。これはニューラルネットワークの認知能力を向上させ、より大規模なモデル容量によって知能機械がさらに複雑な課題を実行することを可能にします。メモリが主にストレージ機序として機能してきた従来のコンピューティングモデルとは異なり、現代のAIアーキテクチャーではメモリ容量そのものが認知の基盤となり、より深い理解や繊細な推論、さらには包括的で質の高い回答へと直結します。より大きなメモリ容量へのアクセスは、LLMの推論技能を複合的または乗算的に高めるものと考えることができます。
HBM3Eでは、数値的な改善を通じて性能を向上させるだけでなく、機械知能の認知能力を根本的に拡張するメモリも設計しています。より高い帯域幅と高い容量の組み合わせにより、LLMはユーザーとのやり取りを慎重かつ正確に行うことができます。そして技術的な水準では、この増加は、LLMがより大きなデータセット、1秒あたりのトークン数の増加、より長い入力シーケンス、FP16のようなより長いデータ形式を処理できることを意味します。基本的に、十分な帯域幅がなければ、これらの非常に有能なモデルでも関連情報に素早くアクセスするのは困難になります。莫大なメモリ容量がなければ、表面的な分析を超えて、文脈に即した包括的で深みのある応答を生み出すことができなくなってしまうのです。
実験結果
では、Meta Llama 2 70BとDeepSpeed ZeRO-Inferenceを使用した実際の試験結果3を見て、次世代HBMの革新的な可能性を示しましょう。
- 性能の向上。HBM3Eは推論性能を1.8倍に向上させ、メモリ帯域幅は4.8TB/sに達します4。
- 拡張性。この技術は2.5倍のバッチサイズを支援し、より多くのクライアントの同時処理を可能にします4、5。
- 精度と容量。拡張されたメモリ容量(144GB、前世代より80%増)により、より高精度なモデル操作が可能になります。
これらの結果は、次世代HBMなどの高度なメモリテクノロジーが、コンピューティング性能と電力効率の平衡を取りながら、LLMインフラの重要な課題にどのように対処できるかを示しています6。推論性能、容量、電力使用量の改善は、より知能的で強力なAIシステムへの潜在的な道筋を浮き彫りにします。今後、HBM技術の次世代では、迅速な計算スケーリングや、益々複雑化するモデルアーキテクチャーの支援など、多くの機能が実現されるでしょう。この技術を採用したデータセンターは、ユーザーに焦点を当てた、より高速で電力効率が高く、スケーラブルなAIサービスを提供できる立場に立つことになり、最終的には業界全体の進歩につながります。
詳細
- AI推論におけるHBM3Eの包括的な分析を詳しく知るには、マイクロンの技術概要「HBM3Eで大規模言語モデルの推論を高速化」をダウンロードしてください。
- 高帯域幅メモリ(HBM)技術の詳細については、マイクロンのHBM3E製品ページをご覧ください。
1 最新のAIアクセラレータは合計でおよそ8TB/sに達しますが、これはプラットフォームによって異なります。
2 前世代のHBMの16GB容量と比較。
3 DeepSpeed ZeRO-Inferenceを使用してMeta Llama 2 70Bの性能を分析し、HBM3Eを使用した構成とHBM3を使用した構成を比較しました。
4 4ビット整数(INT4)精度を使用して推論を実行しました。HBM3Eのより高い帯域幅により、このモデルはHBM3よりも約1.8倍のスループットを達成しました。
5 INT4量子化モデル実行に基づく結果。HBM3Eは、以前のHBM世代に比べて2.5倍のバッチサイズ(推論要求)の処理を可能にし、より多くのデータを同時に処理することで、単一のGPUでより多くのクライアントの同時利用を可能にします。
6 メモリ帯域幅に圧力を与えるために、最大帯域幅の使用を必要とする最悪のシナリオをシミュレートするように設計されたマイクロベンチマークであるBabelStreamを使用します。この手法により、消費電力を測定しながらピーク時のメモリ使用量を評価できます。100%の帯域幅使用率で動作させることにより、メモリによる消費電力を分離できます。私たちの結果では、競合製品のHBM3Eでは100%の帯域幅使用率で最大30%の消費電力増加が見られました。