デザインツール
企業情報

ゲノムシーケンシングを用いた医療のパーソナライズ

マイクロンテクノロジー | 2019年9月

科学と医療における次世代の発見

ライフサイエンス分野では、データ集約型アプリケーションの大きな成功事例がいくつか残っています。大規模なデータ分析のイノベーションにより、ヒトゲノムプロジェクトの促進を実現しました。国際研究者たちは、ヒトゲノムの全30億塩基対のシーケンシングを終えるため、13年の月日と27億ドルの資金を費やすとともに、多数のスーパーコンピューターを必要としました。2003年4月、国際研究者たちの手によって人類共通のDNAマップが完成しました。これは当時最大のビッグデータプロジェクトとなりました。

この素晴らしい功績によって、新しい医療である精密医療が生まれました。ゲノムシーケンシング事業では、膨大なデータの収集、保管、共有、移転、分析によってインサイトを導出するため、高速、シンプル、低コストのテクノロジーの開発を引き続き進めています。

このインサイトは素晴らしい成果をもたらしました。精密医療から精密がん治療が生まれました。精密がん治療では、医師や科学者が個々の患者のゲノム、ライフスタイル、環境に合わせて医療計画と治療をカスタマイズすることで、がんの苦しみをなくすか、少なくとも「既知のがんを撲滅すること」を目指します。

データ集約型の精密医療

精密医療はパーソナライズ医療とも呼ばれ、人工知能や機械学習アルゴリズムに大きく依存しており、膨大なデータを必要とする業界です。人間のゲノムには30億塩基対あり、完全なシーケンシングが行われると約6GBのストレージになります。処理では、オーバーサンプリングやカバレッジ(DNAの同じ場所を複数回処理して精度を高めること)によって、それらのデータセットを30~35倍にすることができます。また、アプリケーションによってはデータが800倍になることもあります。現在、サンプルは200GBにまで拡大しており、シーケンシングの中間データ処理によって700GBになる可能性があります。これは患者1人あたりの量です。

メモリ主体のアプリケーションに特化した高性能データ製品の開発企業「OmniTier」の共同創立者であり、CEOを務めるヘマント・タパール氏は、次のように述べています。「遺伝子パネルからエクソームシーケンシング、そして全ゲノムシーケンシングへの移行が起こっています。この移行が進むにつれて、処理しなければならないデータの量が増大していきます。」 その一方で、次のような高い将来性も秘めています。パーソナライズ医療は、個々のゲノムの標準からの点置換、挿入、欠失、構造変動など、より多くの遺伝的変異体の発見によって発展を遂げる可能性があります。

現在、データ主体・データ依存のアプリケーションが急激に増加しており、新しいメモリとストレージのテクノロジー、インターフェイス、ソフトウェアスタックが求められています。たとえば、研究者は全ゲノムシーケンシングのメリットをより多くの患者に伝え、研究開発を拡大しようと取り組んでいます。タパール氏は次のように述べています。「ここで重要な点は、大衆市場はスーパーコンピューターに頼ることができないということです。医療のような大衆市場の場合、効率性が極めて高い方法でデータセットを分析することが求められます。これが、『OmniTierが精密医療の取り組みをどう支援できるか』を重視した理由です。」

階層型メモリと既製サーバー

OmniTierは「de novo」アセンブリ技術を用いて完全なDNAシーケンシングを行うメモリ主体のコンピュータークラスターソリューション「CompStor Novos®」を発表し、ベータテストを開始しています。de novoとは、新規のゲノムシーケンシングを行うことを意味します。シーケンシング(複数のDNAフラグメントを組み立て、より長い配列をエミュレートすること)は、DNA分析の初期手順の1つです。DNAテンプレート(通常は上記のヒトゲノム配列)に従うのが標準的なアプローチです。ただし、このアプローチをとる場合、予測医療の調査で重要なデータである患者の個人ゲノムの変異がある箇所が見過ごされる可能性があります。de novoシーケンシングはテンプレートを使用しないため、構造変異体の検出で特にメリットがあります。

OmniTierはさらに、メモリのボトルネックが多数存在する現在のコンピューティングパラダイムの限界を乗り越える、ライフサイエンス向けのハードウェア・ソフトウェアソリューションも開発しています。ボトルネックによる速度低下は、アプリケーションのパフォーマンス低下、サーバー消費電力の上昇、必要なスペースの増大を引き起こします。それらやその他の非効率性によってコストが上昇し、システムの大量利用の実現を妨げる主な要因となります。

OmniTierシーケンシングダイアグラムの画像 OmniTierシーケンシングは、データセンターでもオンプレミスでも、VMwareクラウドで展開できます。

その代わり、CompStorアセンブリ実装では、OmniTier独自の階層型メモリアルゴリズムが用いられています。このソリューションでは、すべての情報が時間に関して等しく重要であると判断されないように実装を調整することで、研究者による素早く効率的な研究を促進します。その結果、さまざまな速度で情報へのアクセスが行われます。

OmniTierの斬新なアルゴリズムとデータフローにより、各データセンターサーバーのマルチスレッドのフローが最適化されます。CompStor Novosは、DRAMと(より安価で大容量な)NANDフラッシュNVMe™SSDという2層のメモリで構成されるサブシステムを使用して、DRAM大容量メモリサブシステムに匹敵するパフォーマンスを実現しています。OmniTierとマイクロンは直接連携してコラボレーションの機会を模索しています。マイクロンベンチャーズは、新しいコンピューティングアーキテクチャーと応用AI・機械学習ソリューションによる価値の創造を支援するため、OmniTierに出資しています。

CompStor Novosのアセンブリは、既存のアセンブリアルゴリズムよりも精度が高いうえ、10~20倍の速度を実現しています。また、OmniTierのアルゴリズムと機器を使用すると、ホストCPUのみを通じて動作させた場合と比較して、アプリケーションによってはエネルギー使用量を最大3倍削減できることが実験で示されました。タパール氏は次のように述べています。「研究者は、標準的なアセンブリよりも少ない時間とコストで、有機体のde novoゲノムアセンブリを実行できるようになりました。変異したDNAや疾患の診断までの時間が短縮されるので、患者と医療従事者の双方にとってメリットとなります。」

スーパーコンピューターに匹敵する速度

では、どのぐらいの速さでしょうか? ヒトゲノムプロジェクトはスーパーコンピューターで13年かかりました。OmniTierのCompStorアセンブリソリューションは、ゲノムシーケンシングにかかる時間を約8分に短縮します。同ソリューションでは、DRAMとNVMeのSSD階層型メモリを搭載し、両種のメモリに対する独自のアルゴリズムとデータフローを備えた、商用オフザシェルフ(COTS)サーバーを使用します。

8つのCompStorアセンブリサーバーノードでショートリードの次世代シーケンシングのデータを比較したテストでは、COTSサーバーで動作するヒトゲノムのde novoアセンブリは、高度なスーパーコンピューターによる従来のアセンブリに匹敵する速さでした。

精密医療の高速化

精密医療では、医療従事者による病気の治療を向上させ、患者の転帰を改善することを目指します。大衆向けのゲノムシーケンシングソリューションは、安価で、拡張性があり、オンプレミスまたはクラウドで展開できる必要があります。このソリューションの成功はメモリ次第です。タパール氏は次のように述べています。「私たちはハードウェアソリューションを使用していますが、実際にはメモリの観点から着手しています。SSDやハードディスクなどのさまざまなメモリテクノロジーやその他の代替テクノロジーに関する技術を活用して、それらの個々の問題を解決しています。」

医療とライフサイエンスに関する情報科学では高性能が求められます。とりわけ、ゲノム、環境、ライフスタイルに関する膨大なデータセットのクロスインデックスにより、最良の転帰をもたらす治療のパーソナライズを明確にする場合など、ニューラルネットワークがマルチオミクスモデルを処理しなければならない場合は特に当てはまります。タパール氏は次のように述べています。「スーパーコンピューターに匹敵するパフォーマンスを低コストで提供することで、診断や治療に取り組んでいる患者やそれを支援する研究者が全ゲノムシーケンシングを利用しやすくなります。」

精密医療の推進のため、マイクロンのメモリとストレージソリューションは、システム内のメモリを階層化してパフォーマンスを効率化するといった目的で使用されています。情報活用による生活向上の方法を変革するマイクロンの取り組みについては、Micron.com/Insightをご確認ください。