平成18年度地球シミュレータ研究プロジェクト利用報告会

プロジェクトテーマ : 全ゲノム・全タンパク質配列の自己組織化マップを用いた大規模ポストゲノム解析

PDF 発表資料 (888KB)

発表要旨

1. プロジェクトの目的

多様な地球環境で生育する微生物類は培養することが困難なため、膨大なゲノム資源が未開拓に残されてきた。科学的のみならず産業的にも注目を集めており、最近、環境中の生物集団から培養せずにゲノムDNA混合物を抽出し、断片ゲノム配列を解読し、新規有用遺伝子の探索を行なう技術が開発されている。多様な環境に生育する生物種の全体像の把握を可能にする有力な方法であるが、新規性の高い遺伝子配列ほど、配列相同性検索が適用できず、どの生物系統に由来している遺伝子配列なのかを推定できない。我々がゲノム解析用に改良してきた一括学習型のSOM(BL-SOM)は、断片ゲノム配列を生物種ごとに分離(自己組織化)する高い能力を持ち、この目的に最適な方法である。
   一括学習型SOMは、高効率のベクトル化とパラレル化が実現可能であり、地球シミュレータを用いた大規模解析に適している。既知の生物種由来の全ゲノム断片配列を対象に、地球シミュレータを用いて大規模BL-SOMを作成し公開して行けば、各研究者が解読した環境由来遺伝子の配列を、PCレベルの計算機でこの大規模BL-SOM上にマップすることで、各自で生物系統や新規性を推定できる。
   広範囲のゲノム配列が解読された結果、アミノ酸1次配列の相同性検索では機能が推定できない、機能未知なタンパク質が大量に蓄積し、産業的にも未利用なまま残されている。タンパク質の機能は、アミノ酸の1次元配列よりも機能部位の3次元上での立体配置が重要であり、類似した機能を持つタンパク質間でも、1次配列の有意な相同性が見出されない例が多い。アミノ酸の1次元配列の相同性検索に依存しない、新規なタンパク質の機能推定法が求められている。2連や3連続アミノ酸頻度のBL-SOMはこの目的に適した方法と考えられる。2連アミノ酸頻度は400次元、3連続アミノ酸頻度は8000次元の高次元データである。機能未知なタンパク質の機能推定には、現時点でデータベースに収録されている、約30万件の機能既知のタンパク質を予めBL-SOM解析しておく必要がある。2連続アミノ酸頻度は400の変量、3連続アミノ酸頻度は8000の変量を対象にした高次元データに関する大規模解析であり、地球シミュレータの大きい共有メモリーを用いて初めて現実的な実行が可能になる。科学的ならびに産業的に利用価値の高い成果が期待できる。


2. 今年度当初の計画

地球環境で生息する微生物ゲノム配列へのBL-SOMの利用に加えて、医薬学への適用を考慮して、今年度は真核と原核生物のゲノム配列のみならず、ウイルスやミトコンドリアや葉緑体やプラスミド等の現時点でデータベースに収録されている塩基配列の大部分を対象にして、主として4連 続塩基頻度に関する大規模BL-SOMを作成する。
   アミノ酸配列の相同性検索で機能が推定できていない、大量なタンパク質類の機能推定を可能にする情報学的手法の確立は、ゲノム配列解読後のバイオインフォマティクスの重要課題である。連続アミノ酸頻度のBL-SOMをその目的の基本技術として確立する。この技術開発の対象として、原核生物のタンパク質の内で約3000種類の機能既知のCOG (Clusters of Orthologous Groups of Proteins)に属する、約10万件のタンパク質をBL-SOM解析することにより、どの程度に機能を反映して分離するのかを検証し、また機能による高い分離能を実現する条件の検討を行う。


3. 今年度得られた成果

自然環境や体内環境で生息する新規性の高い生物集団から、培養せずに回収した混合ゲノム試料由来の断片ゲノム配列の系統推定には、広範囲の既知生物種のゲノム断片配列について予めBL-SOM解析をしておくことが必要になる。少なくとも10kbの塩基配列がデータベースに収録されている1,502種の原核生物, 40種の真核生物, 642のミトコンドリア、42の葉緑体, 1,065のウィルスゲノムについて、5 kbの断片配列の4連続塩基のBL-SOMを作成した。この大規模BL-SOMへ、環境由来の断片ゲノム配列類をマップすることで、それらの生物系統の推定が可能になった。環境由来の大量な断片ゲノム配列を対象にする場合には、それらと既知生物種由来の5kb断片配列を混合してBL-SOM解析することで、環境由来の個々の配列の新規性や正確な系統の推定が可能になった。
   タンパク質の連続アミノ酸頻度に関して複数の条件でBL-SOMを試みたところ、2連アミノ酸より3連アミノ酸頻度の方が機能による高い分離能を示した。3連アミノ酸の場合、203=8000次元のBL-SOMでは計算時間が多大になって、大量なタンパク質を対象にした大規模解析には適していない。20種類のアミノ酸を、物理化学的な性質の類似度をもとに11にグループ化して、113=1331次元の解析を行ったところ良い分離能が得られた。