デザインツール
アプリケーション

AIは障がいのある人の役にも立てる

マイクロンテクノロジー | 2023年9月

エリック・ブースの90歳になる祖母が訪ねてきたとき、彼女の聴力はひどく衰えており、補聴器をつけても人の話がなかなか理解できずにいました。話している人に近寄り、唇を読み取ろうとしながら、話の内容をつかむのに苦労する祖母の様子をエリックは見ていました。複数の人が話していると会話についていけないことも頻繁でした。

マイクロンでクラウドシニア事業開発マネージャーを務めていたエリックは、あるアイデアを思いつきました。祖母はスマートフォンを持っている。彼女の代わりに「聞かせる」のはどうだろう? エリックは祖母のノートアプリケーションを開き、マイクのボタンを押し、彼が話す言葉が画面上にテキストで書き起こされるのを見せました。

「祖母は大喜びで、満面の笑みを浮かべていましたよ。以前はできなかった会話に参加することができるようになりました。」 「このように、テクノロジーを使って、発話や言語や聴覚に障がいがある人たちの生活の質を改善させることができます。」

発話をテキストに書き起こすテクノロジーは単純に見えて容易に見過ごされそうですが、今日のレベルに進化するまでに何十年もかかった複雑なプロセスです。

急速に進歩するテクノロジー

最初の音声認識(SR)機器、オードリーが出現して長い年月が経ちます。ベル研究所は1962年にオードリーを導入しました。2メートルほどの高さがあるこのコンピューターは、1ケタの数字しか理解できません。テキストを表示する代わりに、話した数字に対応するライトが光りました。例えば「nine」(9)という語には9回点滅するというように。

数年前でさえ、音声認識テクノロジーはあまり使い勝手がよくありませんでした。しばしば不正確で、わずかな周囲の音さえも取り除くことができず、書き起こすのに時間がかかりました。音声認識が人の役に立つようになるには、まだ長い道のりが必要だったのです。

今日、音声認識は、AI、バーチャルアシスタントテクノロジー、5Gセルラーテクノロジー、メモリ、ストレージ、コンピュータープロセシングの進歩によって実現しています。このおかげで、信じられないほど多くのことが可能になりました。話したことのない言語でコミュニケーションをとったり、長時間の録音をほぼ瞬時に書き起こしたり、大気中に言葉を発するだけで望むものをほぼ何でも注文できて自宅まで届けてもらったりすることもできます。

今、生成AIがこのテクノロジーをさらに高めています。音声認識が音声を解析してテキスト化するのに対して、生成AIはテキストを処理してその意味を実際に理解します。何の語か?というだけでなく、その語の意味は何か? その語は質問なのか? そうだとすればその答は何か?

この種の機械学習で、ユーザーのプロンプトや対話に基づいて、テキスト、動画、画像、コンピューターコード、その他のコンテンツを生み出すことができます。生成AIを音声認識に重ねることで、学習が新たな段階へと高まり、このテクノロジーが発話や聴覚に障がいのある人たちをさらに手助けする可能性が広がります。

素早い音声認識は正常な発話パターンに従わない言語をそのまま取り込みますが、生成AIと自然言語処理(NLP)はそこから意味を汲み取り、適切に変換してくれます。このプロセスにより、包括的で、高度に個別化された言語療法が可能になります。

エリックは自分の娘が言語療法を受けたので、どれほどの時間と労力が求められるものなのか身をもって知っています。その経験から、エリックはアイダホ州のボイシ州立大学の博士課程に入学し、テクノロジーが言語に障がいのある子供たちを支援する方法について研究することにしました。

「言語療法では、セラピストが生徒に読むべきコンテンツを与え、ツールを使って発音や発声の達成度をスコア化していました」とエリックは説明する。「しかし、生成AIを使えば、プロセス全体を処理できるツールができる可能性があります。パターンを識別することに長けているので、例えば、ある生徒が一貫してO(オー)の発音を間違えているといったことを判別することができます。」

大規模言語モデル

つい最近まで、音声認識には大容量のメモリを搭載した大規模のサーバーが必要で、収集したデータはクラウドに送らなければなりませんでした。今では、音声認識は手元のスマートフォンに搭載されています。コンピューティングが高速化し、メモリが高速化し、かつてのデータセンタープロセスが今やスマートフォンの中に入っています。

ほどなく、生成AIプロセスも、スマートフォンなどのエンドポイント機器に搭載されるでしょう。なぜなら、AIモデルの学習プロセスは、より複雑なモデルをつくるだけでなく、スマートフォンやPCのようなエンドポイント機器で作動するように単純化することでもあるからです。このような大規模言語モデルが成長すると、クラウド環境以外で学習を行うことはできなくなります。しかし、一度学習し、それから単純化すれば、エンドポイント機器に移行することができます。

ここ数年、大規模言語モデルに目覚ましい進歩が見られます。

「このようなモデルは、生成AIチャットボットや高度な検索機能の鍵となります」とエリック。「大規模言語モデルには何兆ものパラメーターがあります。数年前は、1兆ものパラメーターなど想像もできませんでした。処理ができなかったのです。今日では、1兆がベースラインです。もちろん、モデルが大きくなるほど、インテリジェンス(知性)の度合いも増します。そしてこれこそが、コンピューティングとメモリーの需要を促進させているのです。」

自然言語処理と生成AIは、強固な大規模言語モデル学習を必要とし、パラメーターが多ければ多いほど、より多くのメモリが必要になります(図1参照)。

自然言語生成AIモデルのチャート/グラフ 図1

 

拡大するこのようなモデルに対して、転移学習が注目されるようになっています。これは、ある文脈で多くのデータを使ってモデルを学習させ、そのモデルのパラメーターを、より小さなデータセットで別の文脈用に調整するという考え方です。大きなデータセットが大人の発話で、小さなデータセットが子供の発話だとしましょう。転移学習は、両者について正確なモデルを提供します。大部分を大人の発話で学習させようとし、子供の発話を少し混ぜるといった程度であれば、正確性としてはほど遠いものになるでしょう。ある文脈で強固なデータセットを使ってデータを学習することと、それを別の文脈に移して比較的少ないデータで調整することとを組み合わせることで、非常に大きな効果が生まれます。エリックはこの進歩の成果を自身の論文『Evaluating and Improving Child-Directed Automatic Speech Recognition』に記しています。

ニューラルネットワークの事前学習も同じ考え方です。(ChatGPT™ の「P」はpre-training〈事前学習〉の頭文字です。) これもまた、あるタスクやデータセットでモデルを学習させ、そのパラメーターを使って別のタスクやデータセットで別のモデルを学習させることです。例えば、ChatGPTの場合、モデルは一般的な質問に答えられるようインターネット上の膨大な会話データで事前学習しており、それから与えられたプロンプトから受け取った追加の文脈に基づいて現在の会話に適応しています。これにより、モデルはゼロから始めるのでなく、先手を打つことができます。こうして少量のデータから堅牢なモデルができます。

今日、多くのAI研究者が生成AIに注目しています。それはChatGPTが話題になっているからだけでなく、医療やその他の産業に応用できる潜在性が大きいからです。

最も助けを必要とする人の役に立つ

米国言語聴覚士協会(American Speech-Language-Hearing Association)によれば、米国では100万人以上の子供たちが、発話または言語の障がいのために学校で専門家の援助を受けています。概ね8パーセントの子供たちが言葉の遅れや障がいを経験しているとエリックは言います。

「子供向けの言語療法テクノロジーのセットを一般市場で購入することはできません」とエリック。「存在しないのです。」 特に低収入家庭の子供たちのためにテクノロジーが必要だとエリックは言います。エリックによれば、子供たちのパフォーマンス評価には少なくとも2時間必要ですが、政府のプログラムでは30分の報酬しか出ないこともあると言います。

「セラピストの時間を奪う多くのことをコンピューターが行えば、セラピストはより長期的な計画を立てたり、セラピーセッションをより集中して行うことができます。」

学習障がいリソース財団(Learning Disabilities Resources Foundation)によれば、失読症など学習障がいのある子供たちにとっても、話された言葉をテキストに書き起こすことにはメリットがありえます。発話をテキスト化する機能を使ってエリックの祖母が会話に参加するのを助けたように、基盤となるこのAIテクノロジーには未開拓で想像もつかない使い方が数多くあります。

生成AIとSRをパワーアップする

今日、マイクロンは、より高密度でより高速のメモリとストレージを開発し、言語プロセスをクラウドでなくスマートフォンで行えるようにし、データ転送時間を短縮しています。

こうしたエンドポイント機器に電力を供給するため、マイクロンの低消費電力ダブルデータレート5X(LPDDR5X)メモリは、シームレスなユーザーエクスペリエンスのための電力効率とパフォーマンスのバランスを実現します。LPDDR5Xは、ピーク速度が毎秒8.533ギガビット(Gbps)と、前世代よりも最大33%高速になり、最速かつ最先端のモバイルメモリを提供します。LPDDR5Xの速度と帯域幅は、強力な生成AIを(文字通り)手にするために不可欠です。

生成AIによって、SRは人間の脳と同じようにますます素早く正確に動作するようになっています。しかし、その目標に到達するには、特に子供の発話、方言、聴覚や言語に障がいのある人の音声を処理するためには、まだ大きな壁が残っています。エリックが取り組んでいるようなプロジェクトは、生成AIテクノロジーがすべての人々の生活を豊かにする方法について根底から変えることができます。

しかし、生成AIはディープラーニングを使って、より自然な、より人間の発話に近い音声からテキストを生み出します。かつて、AIモデルは、多くのデータを取り込み、パターンを特定し、診断の観点から根底にある原因を突き止めるのに優れていました。今日、生成AIはテキストを「読み」、そのデータを使って人間のコミュニケーションから文脈を推測します。つまるところ、自分で「学習」しているのです。そのためには、即座に莫大な量のデータにアクセスし、吸い上げ、格納する膨大なメモリから適切な対応を判断する能力が必要とされます。マイクロンのテクノロジーで、このような進歩が実現できています。

マイクロンの高密度DDR5 DRAMモジュールとマルチテラバイトSSDストレージは、データセンターにおける生成AIモデルの学習に必要な速度と容量を可能にします。新発売のHBM3Eはパフォーマンスをさらに改善させ、1秒あたり1.2テラバイト以上の帯域幅で能力を50%増やし、数兆パラメータAIモデルの学習時間を30%以上短縮することができます。これらのテクノロジーがより高速化し、より正確になるにつれて、より多くの人々が「話し」、聞いてもらうことができるようになります。

「近い将来、生成AIとSRテクノロジーにおいて、画期的なパフォーマンスの飛躍が起きるでしょう」とエリックは予見します。「このテクノロジーが人々の生活を豊かにするのを見るのは、私にとって本当にすばらしいことです。」