デザインツール

入力が無効です。特殊文字には対応していません。

AI

視点の転換:計算から認知へ

エヴリン・グレベリンク、フェリッペ・ヴィエイラ・ザカリアス | 2025年4月

大規模言語モデル(LLM)がAIの限界を押し広げるなか、高帯域幅メモリ(HBM)は、次世代LLMの鍵となる技術です。これにより、かつてないスピードで、文脈を理解しながら知的に推論するAIが実現されようとしています。

従来のコンピュータシステムは、決定論的かつ直線的な処理モデルを前提に設計されていました。

入力 → 処理 → 出力


しかし近年、特にLLMの登場によりAIが成功を収めるようになったことで、パラダイムシフトが起こりました。今や私たちが相手にしているのは、単なる計算処理マシンではありません。生成AIの登場により、たとえばChatGPTのようなAIチャットボットは、文脈を解釈し、新たなインサイトを生み出し、新しい情報に適応し、そして推論するほどの高度な能力を備えるようになりました。もちろん、この能力はまだ「自我を持つ知性(sentience)」にまでは達していません。たとえば、アニメ『宇宙家族ジェットソン』に登場する家庭用ロボット「ロージー」のような存在ではありませんが、それでも非常に有能で知的な会話相手となり得ます。

ここで疑問に思われるかもしれません。こうしたインテリジェントシステムを動かすうえで、メモリはどのような役割を果たしているのでしょうか? LLMのパラメータ数が数兆規模に達しようとしている現在、メモリの重要性はますます高まっています。これら膨大なパラメータセットは、推論時やトレーニング時にメモリから高速で呼び出す必要があるためです。HBMは、こうした頻繁かつ大容量のデータ転送を処理するために特化して設計されたメモリ技術です。マイクロンはこの10年間、こうしたモデルの急速な進化と成功に対応するため、メモリテクノロジーの革新を進めてきました。このブログでは、高帯域幅メモリ、特にマイクロンのHBM3Eが、AIモデルの進化とそれに伴う高性能化、高知能化をどのように支えているのかを探っていきます。

AIとメモリハードウェアの10年のタイムライン

図1 メモリテクノロジーは、より大きなモデルサイズのニーズにどのように対応してきたのでしょうか

ミリ秒が勝負を分ける

LLMの目覚ましい進化により、情報の処理・転送のあり方を根本から見直すことが研究者やエンジニアに求められるようになりました。ちょうど、コンピュータグラフィックスの登場が「単なる描画速度の改善」だけでなく、「機械が視覚情報をどのように捉え、処理するか」という思考様式そのものを変えたのと同じです。現在、私たちはAI分野でも同様の転換点に立っています。AnthropicのClaude、GoogleのGemini、MetaのLlamaなど、さまざまなLLMが一般のアプリケーションに組み込まれるようになった今、求められるのは単なる性能向上ではありません。必要なのは、人間と機械との間のダイナミックかつ文脈に即した対話を支える、新しいクラスのシステムです。今日のハードウェア設計者は、単にレイテンシーや電力効率といった従来の指標を最適化するだけでなく、推論タスクにおける理解力の向上、リアルタイム学習への対応、対話形式のやりとりにおける一貫性の保持といった能力を備えたシステムを設計する必要があります。

AIを活用したやり取りにおいては、たった数ミリ秒の遅れが、スムーズで人間らしい体験と、断片的でストレスの多いやりとりとを分ける決定的な要因になり得ます。リアルタイム翻訳やAI Copilotなど、数千、あるいは数百万の同時ユーザーをサポートする高負荷データセンター環境では、HBM3Eのような次世代メモリのより高い帯域幅とより大きな容量が重要となります。こうしたテクノロジーは、システムの応答性を安定して維持し、高負荷時の出力品質を保ち、すべてのユーザーに対して公平かつ高精度なやりとりを提供するための基盤となるのです。

HBM3EおよびAI推論

次世代メモリハードウェアといえば、「より多く、より大きく、より速く」というモットーのもと、帯域幅と容量の向上が特徴とされてきました。しかし、現代のAIシステム、特にLLMにおいては、こうしたアプローチにはより繊細な視点が求められます。HBM3Eを例にとると、データ転送速度の高速化(帯域幅の拡大)とメモリの大容量化は、AIの推論性能に単純ではない影響を及ぼします。たしかに、帯域幅と容量はメモリハードウェアにおける重要な指標であることに変わりはありませんが、それらは異なる方法でLLMのパフォーマンスに影響を与えるのです。私たちの目標は、単に「スピードを上げるために速くする」「多くのデータを保持するために容量を増やす」ことではありません。情報を統合し、推論するというAIの知能レベルを高めるために、こうした指標を進化させる必要があるのです。では、HBM3Eの具体的な仕様を見ながら、これらの数値がAIモデルにおいて何を意味するのかを考えていきましょう。

帯域幅は「計算能力のポテンシャル」を決める

HBM3Eは、1.2テラバイト/秒(TB/秒)以上の帯域幅を備えていますが、これは単なる数字の大きさを意味しているのではありません1。この帯域幅は、AIが持つ計算能力のポテンシャルを表しています。これほどの速度でデータを転送できるということは、AIモデルが情報にかつてない速さでアクセスし、それを処理、統合できるということです。その結果、レイテンシーが劇的に短縮され、モデル全体のパフォーマンス、つまり応答の速さや滑らかさが向上するのです。

容量は「推論の深さと複雑さ」を決める 

HBM3Eの1キューブあたり24ギガバイト(GB)という拡張容量2は、単なる「記憶スペースの大きさ」以上の意味を持っています。これは、ニューラルネットワークの認知能力そのものを高める要素となります。より大きなモデル容量は、より複雑で高度なタスクを実行する力をAIに与えます。従来のコンピューティングモデルでは、メモリは主に「保存用」の役割を果たしていましたが、最新のAIアーキテクチャーでは、メモリ容量が「認知能力」の基盤となります。これが、より深い理解、微細な推論、そして包括的で洗練された回答を可能にするのです。言い換えれば、より大きなメモリ容量へのアクセスは、LLMの推論力を「掛け算で強化する」ようなものだといえるでしょう。

HBM3Eの登場により、私たちは単なる「数値性能の改善」にとどまらず、機械知能の認知能力そのものを拡張するためにメモリを設計しています。高帯域幅と大容量の組み合わせによって、LLMは、あなたとの対話において、より思慮深く、正確な応答を行えるようになります。そして技術的な観点から見ると、この帯域幅と容量の向上により、LLMはより大規模なデータセットを処理し、より多くのトークンを毎秒扱い、より長い入力シーケンスやFP16のような長いデータフォーマットにも対応できるようになります。本質的に言えば、十分な帯域幅がなければ、どれほど高性能なモデルであっても、必要な情報に迅速にアクセスすることが難しくなり、莫大なメモリ容量がなければ、表面的な分析を超えて、文脈に即した包括的で深みのある応答を生み出すことができなくなってしまうのです。

Micron HBM3E H200のスループットの向上を示す紫と白のグラフ

テスト結果

ここからは、MetaのLlama 2 70BモデルにDeepSpeed ZeRO-Inferenceを適用して行った実際のテスト結果をご紹介します。これにより、次世代HBMが持つ変革的なポテンシャルを具体的に確認できます。

  • パフォーマンス向上: HBM3Eを使用することで、推論パフォーマンスが1.8倍に向上。メモリ帯域幅は4.8TB/秒に達しました4
  • スケーラビリティ:バッチサイズの処理能力が2.5倍に増加し、より多くのクライアントからの同時処理が可能に45
  • 精度と容量:メモリ容量が144GBに拡張され(前世代比で80%増)、より高精度なモデル動作が可能になりました。

これらの結果は、次世代HBMのような高度なメモリテクノロジーが、LLMインフラにおける重要な課題――—計算性能と電力効率のバランス――—に対応できることを示しています6。推論パフォーマンス、容量、電力消費の改善は、より賢く、強力なAIシステムの実現に向けた可能性の道を切り拓きます。将来的には、さらに進化したHBMテクノロジーによって、高速な計算スケーリングや、ますます複雑になるモデルアーキテクチャーのサポートが可能になります。このテクノロジーを採用するデータセンターは、より高速で、電力効率が良く、スケーラブルなAIサービスをユーザー中心に提供できる体制を整えることができ、結果としてさまざまな産業領域における前進を加速させることでしょう。

詳しく知るには

  • マイクロンの技術概要『HBM3Eで大規模言語モデルの推論を高速化』をダウンロードして、HBM3EのAI推論に関する詳細な分析をご覧ください。
  • 高帯域幅メモリ(HBM)テクノロジーの詳細については、HBM3Eの製品ページをご覧ください。

1 TB/秒、1キューブ当たりの帯域幅。NVIDIAのBlackwell GPUでは8TB/秒の帯域幅が提供されていますが、これは使用されるAIプラットフォームによって異なります。

2 前世代HBM(HBM3)の16GB容量との比較。

3 Meta Llama 2 70BとDeepSpeed ZeRO-Inferenceのパフォーマンスを分析し、単一のNVIDIA HGX H200(HBM3E)とNVIDIA HGX H100(HBM3)をテストしました。

4 INT4量子化モデル実行に基づく結果。NVIDIA H200システムの(4.8TB/秒)のHBM3Eのより高いメモリ帯域幅と容量の両方を考慮すると、Llama 2 70Bの推論パフォーマンスは、前世代のHBMに比べて1.8倍向上しました。

5 INT4量子化モデル実行に基づく結果。HBM3Eは、前世代のHBMに比べ2.5倍のバッチサイズ(推論要求)の処理を可能にし、より多くのデータを同時に処理することで、単一のGPUでより多くの同時クライアントをサポートします。

6 メモリ帯域幅にストレスを与えるために、最大帯域幅の使用を必要とする最悪のシナリオをシミュレートするよう設計されたマイクロベンチマークであるBabelStreamを使用します。このアプローチにより、消費電力を測定しながら、ピーク時のメモリ使用量を評価することができます。100%の帯域幅使用率で動作させることにより、メモリによる電力消費を分離することができます。その結果、競合製品のHBM3Eが100%の帯域幅を使用した場合、消費電力が最大30%増加することが分かりました。

コンテンツ戦略マーケティングリーダー

Evelyn Grevelink

エブリンは、マイクロンテクノロジーのクラウドメモリビジネスユニット(CMBU)戦略マーケティングチームで、コンテンツ戦略を担当しています。クリエイティブかつ戦略的なストーリーテリングを通じて、エンジニアリングとマーケティングをつなぐ架け橋となることに情熱を注いでおり、専門は、大規模言語モデル、AI、最先端のメモリテクノロジーといった複雑な概念を伝えるための、説得力のある記事の執筆や説明図の作成です。カリフォルニア州立大学サクラメント校で物理学の学士号を取得しています。

システムパフォーマンスエンジニア

Felippe Vieira Zacarias

フェリッペはマイクロンテクノロジーのシステムパフォーマンスエンジニアです。データセンターワークロードエンジニアリングチームと連携し、データセンターのワークロードに合わせてメモリ階層を活用できるよう、システムの全体像を提供しています。広く知られたスーパーコンピューティングセンターで研究エンジニアとして勤務した経験があり、高性能コンピューティングとワークロード分析において幅広い専門知識を持っています。カタルーニャ工科大学でコンピューターアーキテクチャーの博士号を取得しています。