平成20年度 地球シミュレータ利用報告会

全ゲノム・全タンパク質配列の自己組織化マップを用いた大規模ポストゲノム解析

発表資料 (1.4MB)

1. プロジェクト名

全ゲノム・全タンパク質配列の自己組織化マップを用いた大規模ポストゲノム解析

A large-scale post-genome analysis using Self-Organizing Map for all genome and protein sequences

2. プロジェクト責任者名

池村 淑道

Toshimichi Ikemura

3. プロジェクトの目的

多様な地球環境で生育する微生物類は培養することが困難なため、膨大なゲノム資源が未開拓に残されてきた。環境中の生物群集から培養せずにゲノムDNA混合物を抽出し、断片ゲノム配列を解読し、遺伝子探索を行なう技術「メタゲノム解析」が開発され、科学的のみならず産業的にも注目を集めている。着目環境に生息する生物種の全体像を把握する有力な方法であるが、新規性の高い遺伝子配列ほど、配列相同性検索が適用できず、どの生物系統に属している、どのような機能を持つ遺伝子配列なのかを推定できない。我々がゲノム解析用に改良してきた一括学習型自己組織化マップ法(BLSOM)は、断片ゲノム配列を生物種ごとに分離(自己組織化)する高い能力を持ち、この目的に最適な方法である。既知の生物種由来の全ゲノム断片配列を対象に、地球シミュレータを用いて大規模BLSOMを作成し公開すれば、各研究者が解読した環境由来遺伝子の新規配列をこの大規模BLSOM上にマップすることで、各研究者が生物系統や新規性を推定できる。ゲノム解析の研究者のみならず産業界からの期待も大きい。

広範囲のゲノムが解読された結果、アミノ酸一次配列の相同性検索では機能が推定できない、機能未知なタンパク質が大量に蓄積し、産業的にも未利用なまま残されてきた。アミノ酸の1次元配列の相同性検索に依存しない、新規なタンパク質の機能推定法が、科学的にも産業的にも求められている。BLSOMはこの目的にも最適な方法である。

4. 今年度当初の計画

  • 1) 現在、多様な環境(具体例としては海洋、土壌、ヒトやマウスの腸内など)由来の生物群集に対し、世界的に大規模なメタゲノム解析が行われている。難培養性微生物群集の大規模メタゲノム解析で得られた大量なゲノム断片配列に関しての系統推定を行い、新規性の高いゲノム由来の遺伝子配列の選別を行い、産業的・科学的に活用することを目的にBLSOM解析を実施する。
  • 2) 環境由来の難培養性微生物群集のメタゲノム解析の主要な目的は、産業的に有用なタンパク質遺伝子を発掘することにある。しかしながら、メタゲノム解析で取得された大量なゲノム断片配列から得られているタンパク質の候補類について、アミノ酸配列の相同性検索では機能が推定できていない例が、既に1700万件程度は集積し、公的データベースで利用価値が低いままに塩基配列だけが公開されている。オリゴペプチド頻度のBLSOMを用いて、これらの大量タンパク質の機能推定を行なう。

5. 今年度得られた成果、および達成度

成果

メタゲノム解析により得られている、環境中で生息する新規性の高い未知微生物ゲノムに由来するDNA断片配列を対象に、新規性の高いゲノムの選別を目的に、国際塩基配列データベースに登録されている全既知生物種と、メタゲノム解析により取得された大量ゲノム断片配列を混合して、BLSOM解析を実施した。具体的には、現時点で10kb以上の断片ゲノム配列がデータベースに収録されている既知の生物種約3,000種(150万件)とメタゲノム配列データ250万件を対象に、5kbの断片化したゲノム配列中の4連塩基(テトラヌクレオチド)頻度に関するBLSOMを作成した。このことで、公的データベースに登録されている大半の生物種由来の断片配列と、メタゲノム解析由来のDNA断片配列を一枚のマップ上に分離(自己組織化)できた。その結果、環境由来のメタゲノム断片配列に関して、既知生物種と共に分離(自己組織化)する部分と特定環境由来の配列群のみで独自にクラスターを形成している部分に分離(自己組織化)でき、環境特異的に存在するゲノムの存在とその生物系統群の概略の推定が可能となった。我が国でメタゲノム研究を行っている大半の実験グループからの依頼を受けて、新規配列に関するBLSOM解析を実施した(Genome Res. 2008: 並びに2件の論文作成中)。複数の企業からのBLSOM解析の打診も受けているが、企業からの依頼に関しては、センターの制度の基づく有料利用も可能に思える。

近年のDNA塩基配列解読技術の進展に伴い、これまでとはまったく異なった技術によるDNA塩基配列の解読が実施され、従来の方法の数十倍量の配列データが産出されるようになった。これらのデータは、現時点では塩基配列長が短く、これまでのBLSOM解析条件とは異なる条件の検討が必要となった。そこで、500bp程度の短い配列に対しても、生物種ごとの高精度な分離が得るのに最適な条件の検討を行った。ウイルス31,000ゲノムを対象データとして、検証を行った結果、解析パラメータのひとつである近傍関数をこれまでの減少率に対し10倍程度小さくすることによって、断片化サイズ500bp, 4連続塩基頻度の解析条件においても、これまでの断片化サイズ5kb, 4連続塩基BLSOMで得られたのとほぼ同等な分解能を得ることができた。今後、対象データを全ての既知生物種のデータを対象に解析を実施する予定であるが、このままでは、計算時間としてデータ量が10倍、計算時間も10倍の計100倍程度の計算時間が必要になる。メタゲノム研究を行っている実験グループや企業からの強い要望でもあり、解析条件の更なる検討やアルゴリズム上の改良を含めて、来年度も大規模計算を地球シミュレータにて実施したいと希望している。

2) 環境中で生息する新規性の高いゲノム由来のタンパク質遺伝子候補の機能をBLSOMで推定するためには、機能に関する情報が得られている既知の全タンパク質についてオリゴペプチド頻度パターンに関する大規模BLSOMを予め作成し、機能による分離(自己組織化)の程度を把握しておく必要がある。最初に、機能による高精度な分離を可能にする条件の検討を行なった。具体的には、機能が既知の大量タンパク質を対象にした連続アミノ酸頻度のBLSOMを作成した。2連続アミノ酸頻度の場合は400(=202)の変数、3連続アミノ酸頻度では8,000(=203)の変数を対象にした解析であり、地球シミュレータを用いて初めてこの高次元大量データの解析が可能となった。

具体的には、タンパク質を対象にした場合の最適な解析条件を得るために、原核生物を中心とした機能カテゴリーデータベースであるCOG (Cluster of Orthologous Group)の全カテゴリーを対象にして、2連続アミノ酸頻度(202 = 400)、 20のアミノ酸を物理化学的な類似性で11のカテゴリーに集約した上での3連アミノ酸頻度(113= 1331)、20のアミノ酸を物理化学的な類似性で6のカテゴリーに集約した上での4連アミノ酸頻度(64=1296)を変数とし、各タンパク質のアミノ酸配列の全長と、200アミノ酸のwindowを設けて50アミノ酸のstepで移動させた場合でBLSOM解析を実施した。この解析により、20種類のアミノ酸を物理化学的な性質の類似性を基礎に、11種類にグループ化した3連続アミノ酸頻度の1,331 変数のBLSOMで、タンパク質の機能に基づく高精度の分離(自己組織化)が実現することが判明した。地球シミュレータを用いれば、11種類にグループ化した3連続アミノ酸頻度については、現時点で公的データベースに収録された全タンパク質を対象にしても、一枚のBLSOM上に分類しておくことが可能となる。この大規模BLSOM上へ、研究所や大学や企業の研究者が着目している個々の新規タンパク質をマップすることで、新規タンパク質の機能が推定できる。このBLSOM上へのマッピング操作は、PCレベルの計算機で可能になるが、その目的のPC用のプログラムは既に開発を終えている。配列相同性検索や機能モチーフ検索を補完する、適用範囲の広いタンパク質の機能推定法としてBLSOM法が有用なことを示すことができた。

達成度

オリゴヌクレオチド頻度のBLSOMにより、環境由来ゲノム断片配列の生物系統については100%当初計画が達成できた。しかしながら、最近に新たなDNA塩基配列解読技術が開発されたことにより、これまでとは異なる解析条件の検証が早急に必要となった。基礎的な検証を実施できたが、大規模解析での検証は当初計画には組み入れておらず、平成20年度内には行うことができなかった。この点に関する技術開発は、我が国でメタゲノム研究を行っている実験グループや企業からの強い要望でもあり、来年度以降の重要課題と考えている。

オリゴペプチド頻度のBLSOMを用いた、タンパク質の機能推定法の確立について、複数の条件による比較・検討を実施できた。しかしながら、割り当てられた計算時間を使い切ってしまい、現時点で公的データベースに収録された全タンパク質を対象にしたBLSOM解析ができておらず、当初計画の80%レベルまでしか達成できていない。オリゴペプチド頻度のBLSOMに関しては、最適な解析条件が確定すれば、多くの研究者や企業からの利用(有料利用を含む)の申し出が想定される。この点に関しては来年度以降の主要な課題と考えている。