大規模言語モデルにおけるコンテキストウィンドウの重要な5つの基本概念

このブログでは、大規模言語モデルがコンテキストウィンドウ内で入力を処理する仕組みを理解するための重要な5つの基本概念をご紹介します。トークン化、シーケンス長、アテンションなどの基礎的な仕組みを、わかりやすい例や実践的なインサイトを交えて解説します。コンテキストがAIアプリケーション内のモデルの挙動にどのように影響するのかをより深く理解できるようにすることが、このブログの目的です。また、入力および出力シーケンス長の拡張が応答時間に与える影響を評価するために、システムの挙動を推定する分析モデルの結果も示します。この結果からは、出力が長くなるほどデコードに要する時間が大幅に増加することが明らかになり、スケールの大きい推論を効率的に支えるには、HBMのような高速メモリシステムが重要であることがわかります。これらの概念は、生成AIシステムを活用したり、プロンプトを設計したりするすべての人にとって、非常に有用な知識となるでしょう。

図1. 10万トークンのコンテキストウィンドウサイズ

コンテキストウィンドウと長さの違い

大規模言語モデルを扱う際には、コンテキストウィンドウ、コンテキスト長、シーケンス長といった用語の違いを理解することが重要です。これらはしばしば混同されがちですが、それぞれ明確に異なる概念を表しています。ここでは、それぞれの定義を整理して説明します。

コンテキストウィンドウとは、モデルが一度に処理できるトークンの最大数（容量）を指します。この中には、入力（プロンプト）と出力（モデルの応答）の両方が含まれます。たとえば、次の図の長方形が「10万トークンのコンテキストウィンドウ」に相当するとします。

図2. 75,000トークンの入力と25,000トークンの出力

コンテキスト長とは、そのウィンドウの中で実際に使用されているトークンの数を指します。つまり、現在の会話や処理で消費されているトークンの「実使用量」です。たとえば、モデルのコンテキストウィンドウが10万トークンで、入力に75,000トークンを使用した場合、残り25,000トークン分がモデルの応答に使える余地ということになります（入力を青、出力を緑で表示）。

シーケンス長とは、通常、ウィンドウの中で扱われる1つ（1連）の入力または出力の長さを指します。モデルの学習や推論において、個々のテキストセグメントの長さを追跡する際に使われる、より細かな測定単位です。

図3. 入力シーケンス長と出力シーケンス長

コンテキストウィンドウは、モデルが処理できる情報量の上限を決めるものですが、これはそのまま知能の高さを示すものではありません。ウィンドウが大きいほど多くの入力を扱えますが、出力の質は入力の構成や活用のしかたに大きく左右されます。ウィンドウが限界に達すると、モデルが一貫性を保てなくなり、ハルシネーションのような望ましくない結果を生むこともあります。

トークンは「単語」ではない

コンテキストウィンドウに上限（たとえば10万トークン）が設定されている場合、トークンはその中にどれだけ収まるかを測る単位になります。ここで重要なのは、トークンは単語と同じではないという点です。プロンプトに入力した文章はまず「トークナイザー」によってトークン単位に分割されます。1つの単語が複数のトークンに分かれることもあります。たとえば、「strawberry」は3トークン、「trifle」は2トークンに分割されますが、「cake」のように1トークンを構成する単語もあります。

この仕組みを確認するために、ジェーン・オースティンの小説『エマ（Emma）』の一節を例に見てみましょう。

“Seldom, very seldom, does complete truth belong to any human disclosure; seldom can it happen that something is not a little disguised or a little mistaken.”

この文章は26語で構成されていますが、Lunary.ai¹が提供するMistral言語モデルのトークナイザーで処理すると、36トークンになります。つまり、1トークンは約0.72語、すなわちおおよそ1語の4分の3程度に相当します。

^a このデータは、Project Gutenbergで公開されているアメリカおよびイギリス文学のプレーンテキスト版から取得したものです。トークン数は、Lunaryが提供するOpenAI公開トークナイザーを使用して算出しました¹。その結果、平均的なトークンと単語の比率は1トークン ≈ 0.75語であることが8つの文学作品を通じて確認されました。

比率には多少のばらつきがありますが、英語の場合は平均して1トークンあたり約0.75語に相当します。そのため、10万トークンのコンテキストウィンドウを持つモデルでも、必ずしも10万語のテキストが収まるわけではありません。実際には、約75,000語程度、もしくはそれ以下が上限となる場合が多く、テキストの内容によっても変動します。

推定_{トークン数} ≈ 単語数×1.33

このトークンと単語の比率をより大規模に検証するため、Project Gutenberg（75,000冊以上の無料電子書籍を収録するライブラリ）に掲載されている8つの著名な文学作品を用いて簡易分析を行いました。まず各作品の語数をカウントし、次にテキストをトークナイザーにかけてトークン数を算出。その結果、平均的な比率は1トークンあたり約0.75語であることが確認されました。

図4. 単語数とトークン数の比率

この比率を理解しておくと、AIとのやり取りをより効果的に行うことができます。ChatGPTやClaudeなど、ほとんどのAIプラットフォームはトークン単位の制約で動作しています。つまり、テキストを単語ではなくトークンとして処理するため、実際にどれくらいの内容をプロンプトや応答に収められるのかを誤解しやすいのです。多くの場合、利用量も単語数ではなくトークン数で測定されるため、トークンと単語の比率を理解しておくと、上限を意識して戦略的に入力を設計することができます。たとえば、モデルの入力上限が4,000トークンの場合、これはおおよそ3,000語程度に相当します。長文のドキュメントやデータセットを入力して、インサイト抽出や質問応答などを行う際には、この目安を知っておくと便利です。

コンテキストウィンドウ内ではアテンションが均等に分配されない

AIのハルシネーション（幻覚）は、単なる気まぐれな挙動であるとか、言語モデルにバグが多く信頼できない証拠だというように誤解されることがあります。しかし実際には、ハルシネーションはランダムに発生するのではなく、モデルが情報をどのように処理・優先付けしているかに起因することが多く、モデルの学習の質やアテンション（注意）の分配方法などが影響しています。GPTやClaudeのようなトランスフォーマーベースのモデルでは、アテンションとは「応答を生成する際に、コンテキスト内のどの部分が最も関連性が高いかを判断する仕組み」を指します。この概念を理解するには、騒がしいカクテルパーティーを思い浮かべてみるとよいでしょう。周囲が騒がしくても、誰かが自分の名前を呼ぶと、自然とその声に意識が向きます。

「フロド！こっちだ！」

でも、もし部屋のあちこちから4人が同時にあなたの名前を呼んだらどうなるでしょう？

「フロド！サムだよ！」

「フロド！早く来て！」

「フロド！こっちを見て！」

「フロド…ああ、愛しのフロド…」

すべての声は聞こえていますが、今度は注意が分散してしまいます。あなたは、聞き慣れた声や最も近くにいる人の声に、より多くの注意を向けるかもしれません。それぞれの声に少しずつ注意を向けますが、すべてに均等に注意を向けるわけではありません。パーフェクトな比喩ではありませんが、これは大規模言語モデルにおけるアテンションの仕組みをイメージする1つの方法です。モデルはコンテキストウィンドウ内のすべてのトークンに注意を向けますが、トークンによって重み付けは異なります。そのため、LLMにおけるアテンションはよく「重み付けされた」と表現されます。つまり、すべてのトークンが均等に扱われるわけではないということです。この注意の偏りは、モデルが情報をどのように優先付けるか、そしてときに焦点を失ったように見える理由を理解する鍵となります。

コンテキストが多ければ良い答えが得られるとは限らない

モデルはコンテキストウィンドウ内のすべてのトークンを参照できますが、すべてのトークンを同じ重みで処理しているわけではありません。ウィンドウが（たとえば10万トークンまで）埋まっていくにつれて、モデルのアテンションは次第に拡散し、すべてを追おうとするあまり応答の明確さが失われることがあります。

このような状態では、モデルが会話を制御できなくなり、応答が遅くなったり、一貫性が失われたり、初期の発話と後半の内容が混ざって混乱するような現象が起こることがあります。「思考が道を踏み外す」という意味のラテン語「hallucinat」に由来するハルシネーションは、まさにこの限界点付近でよく発生します。これはモデルの不具合ではなく、モデルが処理能力の上限に達していることを示すサインです。つまり、入力が長くなると、モデルが一貫性や関連性を維持することが難しくなるということです。

モデルの視点から見ると、以前のトークンも見えてはいるものの、ウィンドウが埋まり、アテンションが広く分散するにつれて、応答の精度が低下していきます。その結果、以前のプロンプトの情報を誤って別の箇所に結びつけたり、関連のない内容をもっともらしく融合させてしまったりすることがあります。ハルシネーションが生じる場合でも、モデルは嘘をついているわけではありません。むしろ、限られた注意資源の中で推測し、すでに曖昧になった断片的な情報から最も合理的な答えに到達しているのです。つまり、扱うには大きすぎる会話の中で整合性を保とうと最大限努力している状態といえます。このようにアテンションの仕組みを理解することで、コンテキストが多ければ必ず良い答えが得られるとは限らない理由を説明することができます²。

とはいえ、20万トークンを超え、現在では100万トークン規模に達するような長大なコンテキストウィンドウは、複雑な推論や動画処理のような新しい応用領域では実際に有用です。最新のモデルでは、より長いコンテキストを効果的に扱えるよう学習しています。アーキテクチャーと学習手法の改良が進んだことにより、入力全体にわたるアテンション管理が向上し、ハルシネーションの発生が抑制され、応答が改善しています。したがって、コンテキストが多いことが常に良い結果をもたらすわけではありませんが、最新世代のモデルは、会話が非常に長くなっても焦点を維持し、高精度な応答を返せるよう進化しています。

シーケンス長は応答時間に影響する

アテンションの仕組みを理解したうえで、次に注目すべきなのはシーケンス長が推論処理にどのような影響を与えるかという点です。ここで現実的な疑問が浮かびます。シーケンス長を変えると何が起こるでしょうか？

入力シーケンスの長さは、最初のトークンが出力されるまでの時間（TTFT：Time To First Token）に影響します。TTFTは、リクエストを入力してから最初の出力トークンを受け取るまでの時間を指し、特にGPUの性能に大きく関係します。これは、GPUが入力をどれだけ速く処理し、最初のトークンを生成する計算をどの程度迅速に行えるかを示す指標です。一方、出力シーケンスの長さを変化させると、トークン間のレイテンシー（ITL：Inter-Token Latency）、つまり、各トークンが生成される間の時間に影響します^b。このレイテンシーは主にメモリ使用量に関連しています。

この関係をより詳しく調べるために、一次解析モデル（First-Order Analytical Model）を用いて、LLMの推論中のエンドツーエンドレイテンシーを推定しました。テストでは、Llama 3 70Bを使用し、高帯域幅メモリ（HBM3E 12H、36GB×8構成）を備えた単一GPU上で動作させました。また、コンテキストウィンドウのサイズは128,000トークンに設定しています^c。

^b 推論に関する主要指標：TTFT（Time to First Token）：モデルが入力を受け取ってから、最初の出力トークンを生成し始めるまでの時間。いわゆるプレフィル性能を表す。ITL（Inter-Token Latency）：各トークン生成間の時間差。つまり、デコード性能を表す。エンドツーエンドレイテンシー：クエリを送信してから、完全な応答が返ってくるまでの総時間³。

^c ここで示すパフォーマンス推定値は、社内開発の解析モデルによるもので、推論挙動を近似的に評価するためのものです。この調査でモデル化したシステムでは、市販ハードウェアプラットフォームの一般的な特性を再現した想定上のGPU構成を前提にしています。特定の製品を代表するものではなく、本分析の技術的目的を支えるために選定された構成です。また、最適化されたソフトウェアやハードウェア構成を反映していないため、実際の結果とは異なる場合があります。

以下のグラフは、入力シーケンス長（ISL）および出力シーケンス長（OSL）の増加が、エンドツーエンドレイテンシー全体に与える影響を示しています。各測定値はバッチサイズ1（＝単一リクエスト）で取得されており、エネルギー消費も少なく抑えられています。

図5. 出力および入力のシーケンス長に対するユーザーごとのエンドツーエンドレイテンシー（秒）

重要なポイント

レイテンシーを測定する際に重要となるポイントの1つは、長いプロンプトを処理するよりも、長い応答を生成するほうがはるかに時間がかかるということです。モデルは入力全体を一度に読み取り理解できるため、プロンプトが長くても比較的高速に処理できます。一方で、応答の生成はトークン単位で行われ、各トークンがそれまでに生成されたすべてのトークンに依存します。これは自己回帰的プロセスであり、各トークンがそれ以前のトークンに基づいて構築されるため、より多くの時間を要します。たとえば、入力シーケンス長（ISL）を2,000トークンから125,000トークンに増やした場合、レイテンシーはおよそ2倍にしか増加しません。しかし、出力シーケンス長（OSL）を同じ範囲で拡大すると、レイテンシーは約68倍に増加します^d。この差が生じるのは、入力が長くなるとプレフィル計算量は増えるものの、複数のトークンを並列処理できるのに対し、デコード処理は逐次的（1トークンずつ）に進行するためです。これは時間がかかるうえに、要求されるメモリ帯域幅もかなり多くなります。

そのため、出力シーケンスが長くなるほどデコード時間が延び、GPUやメモリサブシステムがより長時間稼働し続けることになります。このような状況では、ハードウェアレベルでの電力効率が特に重要になります。たとえば、マイクロンのHBM3E^eのように、同等の高帯域幅メモリに比べてはるかに低消費電力で動作するメモリデバイスは、同じ推論タスクをより少ないエネルギー消費で完了できます。

^d本ブログで示した推定値は、最適化を行っていない解析モデルに基づくものであり、最大パフォーマンスを示すものではなく、全体的な傾向を示すものにすぎません。

^eマイクロンのHBM3Eは、市販されている同等の高帯域幅メモリ製品と比較して、消費電力を30%削減します。

ユーザーの立場から見ると、以上の知見はプロンプトの最適化や入力長の管理（不要な内容を削るなど）の重要性を示しています。リアルタイムアプリケーションを構築する場合、長めの入力を処理しても大きな問題は生じにくいものの、出力を簡潔に保つことで、システムの応答速度やパフォーマンスを維持しやすくなります。

コンテキスト長におけるメモリの重要な役割

推論レイテンシーは、シーケンス長だけでなく、入力の処理や出力の生成において、システムがどのように計算リソースとメモリの負荷を管理するかにも大きく依存します。近年登場した多くの大規模言語モデルは、100万トークンを超えるコンテキストウィンドウを備えており、これらの大規模コンテキストをフルに活用すると、メモリサブシステムへの負荷が増大します。その結果、ユーザーから見れば処理の遅延や実行時間の増加として現れる場合があります。今後登場する新しいメモリテクノロジーは、より高い帯域幅と大容量を提供することで、こうした大規模コンテキストウィンドウをサポートし、応答時間や全体的なスループット（1秒あたりの処理トークン数）を改善する見込みです。しかし、パフォーマンス向上にはエネルギー消費という新たな課題も伴います。推論ワークロードが数百万トークン規模へ拡大するにつれ、電力効率に優れたシステム設計の重要性がますます高まっています。長時間稼働するシステムはより多くの電力を必要とするため、帯域幅を維持しつつ消費電力を抑えたメモリデバイス設計がこの課題解決の鍵となります。たとえば、マイクロンのHBM3Eは、他の高帯域幅メモリ製品に比べてはるかに低い消費電力で動作し、数百万トークン規模の推論処理におけるAIのエネルギー消費削減に貢献します。HBM4やHBM4Eといった次世代メモリテクノロジーは、将来を見据え、より高いメモリ帯域幅と容量を実現しつつ、電力効率をさらに向上させるよう設計が進められています。これらの進化は、プロセステクノロジー（マイクロンが採用している1-gamma DRAM）の進歩に支えられており、少ないエネルギーコストでの高速なデータ転送を可能にします。また、これらのテクノロジーが成熟するにつれ、大規模AIシステムにおけるレイテンシーのさらなる低減やスループット、電力効率の向上が期待されます。

詳細

https://www.micron.com/educatorhub

https://www.micron.com/educatorhub/courses/what-does-it-mean-for-ai-to-know-something

https://www.micron.com/hbm3e

¹ https://lunary.ai/openai-tokenizer

² https://cs.stanford.edu/~nfliu/papers/lost-in-the-middle.arxiv2023.pdf

³ https://docs.nvidia.com/nim/benchmarking/llm/latest/metrics.html

テクニカル寄稿者

システムパフォーマンスエンジニア

Felippe Vieira Zacarias

フェリッペはマイクロンテクノロジーのシステムパフォーマンスエンジニアです。データセンターワークロードエンジニアリングチームと連携し、データセンターのワークロードに合わせてメモリ階層を活用できるよう、システムの全体像を提供しています。広く知られたスーパーコンピューティングセンターで研究エンジニアとして勤務した経験があり、高性能コンピューティングとワークロード分析において幅広い専門知識を持っています。カタルーニャ工科大学でコンピューターアーキテクチャーの博士号を取得しています。

エコシステム開発マネージャー

シャニヤ・チャーベイ

シャニヤは、マイクロンテクノロジーで、クラウドメモリやAIアプリケーション向けの高帯域幅メモリに関するエコシステム開発を担当しています。テクノロジーエコシステム全体で強固なパートナーシップを築くだけでなく、AIの技術知識、市場分析、データエンジニアリングの専門性を融合し、急速に進化するAIワークロードを予測して柔軟に対応できるようCMBUを牽引しています。コロラド大学ボルダー校で機械工学を専攻し、データサイエンスの修士号を取得したバックグラウンドを基盤に、緻密な技術分析、新たなAIアーキテクチャー、戦略的なベンダー協業が交差する領域で、優れた成果を上げています。

コンテンツ戦略マーケティングリーダー

Evelyn Grevelink

エブリンは、マイクロンテクノロジーのクラウドメモリビジネスユニット（CMBU）戦略マーケティングチームで、コンテンツ戦略を担当しています。クリエイティブかつ戦略的なストーリーテリングを通じて、エンジニアリングとマーケティングをつなぐ架け橋となることに情熱を注いでおり、専門は、大規模言語モデル、AI、最先端のメモリテクノロジーといった複雑な概念を伝えるための、説得力のある記事の執筆や説明図の作成です。カリフォルニア州立大学サクラメント校で物理学の学士号を取得しています。

製品概要

マイクロンのデータシートを検索、フィルタリングして、ダウンロードする

市場と産業の概要

AIデータセンター

パートナー概要

マイクロンテクノロジーの技術支援プログラム（TEP）の詳細を見て、登録する

セールスとサポートの概要

マイクロンのセールスサポートに問い合わせる

マイクロンについて

投資家向け情報の概要

マイクロンの投資家向けサイトを見る

最近の検索