平成19年度 地球シミュレータ利用報告会

全ゲノム・全タンパク質配列の自己組織化マップを用いた大規模ポストゲノム解析

発表資料 (2.6MB)

1. プロジェクト名

全ゲノム・全タンパク質配列の自己組織化マップを用いた大規模ポストゲノム解析

A large-scale post-genome analysis using Self-Organizing Map for all genome and protein sequences

2. プロジェクト責任者名

池村 淑道

Toshimichi Ikemura

3. プロジェクトの目的

多様な地球環境で生息する微生物類の大半は培養することが困難なため、膨大なゲノム資源が未開拓に残されてきた。最近、世界各地の海洋を中心的な対象に、環境中の微生物集団から培養せずにゲノムDNA混合物を抽出し、断片ゲノム配列を大規模に解読し、有用遺伝子探索を行なう技術「メタゲノム解析法」が開発され、科学的のみならず産業的にも注目を集めている。このメタゲノム解析データからの知識発見に必須となる情報解析手法を、我々が開発した一括学習型自己組織化マップ法(BLSOM)を基礎にして確立し、産業を含む広範なバイオ分野の利用に供する。具体的には、「オリゴヌクレオチド頻度のBLSOMにより、ゲノム断片配列が生物系統を反映して分離(自己組織化)し」、また「オリゴペプチド頻度のBLSOMによりタンパク質が機能を反映して分離(自己組織化)する」との基礎知見を基盤として用いて、地球シミュレータではじめて達成できる大規模なポストゲノム解析を行なう。

4. 今年度当初の計画

  • 1)海洋(具体例としてはサルガッソ海やハワイ沖)を中心的な対象として米国を中心に強力に推進されている、難培養性微生物群集の大規模メタゲノム解析で得られた大量なゲノム断片配列から、新規性の高い有用遺伝子類を発掘し産業的・科学的に活用することを目的に、各断片配列の由来する生物系統をオリゴヌクレオチド頻度のBLSOMを用いて推定する。
  • 2)環境由来の難培養性微生物群集のメタゲノム解析の中心的な目標は、産業的に有用なタンパク質遺伝子を発掘することにある。メタゲノム解析で得られたに大量ゲノム断片配列から得られているタンパク質の候補類について、アミノ酸配列の相同性検索では機能が推定できていない例が、既に500万件程度は公的データベースに利用価値が低いままに集積している。オリゴペプチド頻度のBLSOMを用いて、これらの機能推定を行なう。

5. 今年度得られた成果、および達成度

成果

  • 1)環境中で生息する新規性の高い未知微生物ゲノムに由来する断片配列について、その由来ゲノムの生物系統を推定するためには、生物種が既知のゲノムに由来する断片配列のオリゴヌクレオチド頻度パターンに関して、予め特徴抽出を行なっておく必要がある。現時点で少なくとも10kb以上の断片ゲノム配列がデータベースに収録されている既知の生物種約3,000種、ならびにウイルス31,000、オルガネラ2,000ゲノム由来の全断片配列を対象に、5kbの断片化したゲノム配列中の4連塩基(テトラヌクレオチド)頻度に関するBLSOMを作成した。256(=44)次元空間の約600万件のデータに関するBLSOMであり、地球シミュレータを用いてはじめて達成できる大規模解析である。現時点で、公的データベースに登録されている、大半の生物種由来の断片配列を一枚のマップ上に分離(自己組織化)できた。この大規模BLSOMを用いて、サルガッソ海由来のゲノム断片配列の生物系統の推定を行い、既に約40万配列断片を約100属(genus)に帰属させ、公開を行なっている。
  • 2)環境中で生息する新規性の高いゲノム由来のタンパク質候補の機能をBLSOMで推定するためには、機能に関する情報が得られている既知の全タンパク質についてオリゴペプチド頻度パターンに関する大規模BLSOMを予め作成し、機能による分離(自己組織化)の程度を把握しておく必要がある。最初に、機能による高精度な分離を可能にする条件の検討を行なった。具体的には、機能が既知の約30万件のタンパク質を対象にした連続アミノ酸頻度のBLSOMを作成した。2連続アミノ酸頻度の場合は400(=202)の変数、3連続アミノ酸頻度では8,000(=203)の変数を対象にした解析であり、地球シミュレータを用いてはじめてこの高次元の大量データの計算が可能となる。この解析により、20種類のアミノ酸を物理化学的な性質の類似性を基礎に、11種類にグループ化した3連続アミノ酸頻度の1,331 (=113)変数のBLSOMで、タンパク質の機能に基づく高精度の分離(自己組織化)が実現することが判明した。地球シミュレータを用いれば、11種類にグループ化した3連続アミノ酸頻度については、現時点で公的データベースに収録された全タンパク質を対象にしても、一枚のBLSOM上に分類しておくことが可能となる。この大規模BLSOM上へ、研究所や大学や企業の研究者が着目している個々の新規タンパク質をマップすることで、新規タンパク質の機能が推定できる。このBLSOM上へのマッピング操作は、PCレベルの計算機で可能になるが、その目的のPC用のプログラムは既に開発を終えている。この方法を用いて、サルガッソ海由来の15,000件のタンパク質に関して機能推定を行なっており(論文作成中)、データベース化し公開を準備している。

機能未知のタンパク質の機能推定は、ゲノム配列の解読後のゲノム科学分野での最重要課題の一つであり、産業界からの期待も大きい。地球シミュレータを用いたBLSOM解析による機能推定は、少なくとも微生物由来のタンパク質に関しては、産業界の期待に応えられるレベルに達していると確信している。海洋研究開発機構の計算機システム計画・運用部とも連絡をとりながら、成果の産業利用の視点からの研究開発を行いたいと望んでいる。

達成度

オリゴヌクレオチド頻度のBLSOMによる、環境由来ゲノム断片配列の生物系統については、100%当初計画が達成できた。

オリゴペプチド頻度のBLSOMによる、タンパク質の機能推定法の確立については、割り当てられた計算時間を使い切ってしまい、当初計画の80%レベルまでしか達成できていない。オリゴペプチド頻度のBLSOMは、条件検討の基本部分がほぼ完成し、産業界からの要請に応えられるレベルに達してきているので、可能であれば若干の計算時間の追加を申請して、本年度内に完成したい。