平成23年度 地球シミュレータ利用報告会

全ゲノム・全タンパク質配列の自己組織化マップを用いた大規模ポストゲノム解析

発表資料 (1.4MB)

1. プロジェクト名

全ゲノム・全タンパク質配列の自己組織化マップを用いた大規模ポストゲノム解析

A Large-scale Post-genome Analysis Using Self-organizing Map for All Genome and Protein Sequences

2. プロジェクト責任者名

池村 淑道 (長浜バイオ大学・バイオサイエンス学部)

Toshimichi Ikemura

3. プロジェクトの目的

海洋を代表例とする、多様な地球環境で生育する微生物類は培養が困難なため膨大なゲノム資源が未開拓・未利用に残されてきた。環境中の生物群集から培養せずにゲノム混合物を回収し、断片ゲノム配列を解読し有用遺伝子を探索する「メタゲノム解析法」が開発され、注目を集めている。我々が開発した一括学習型自己組織化マップ法(BLSOM)は、断片ゲノム配列を生物種ごとに高精度に分離(自己組織化)する能力を持つ。解読済の全ゲノム配列を対象にして大規模BLSOMを作成・更新して行けば、メタゲノム解析で新たに得られる大量塩基配列をマップすることで、各環境中で生息する生物集団の全体像を正確に把握することが可能になり、併せて新規性の高い有用遺伝子類を発掘できる。多様性に富む海洋を対象にしたメタゲノム解析で威力を発揮する。
 広範囲のゲノムが解読された結果、アミノ酸配列の相同性検索では機能が推定できない、機能未知なタンパク質が大量に蓄積し、産業的にも未利用なままに残されてきた。BLSOMはこれらの大量なタンパク質類の機能推定を可能にする。

4. 今年度当初の計画

これまでの研究開発で、大規模ゲノム配列に対するBLSOM解析システムの基盤が確立し、大学を含む公的な研究機関からの環境ゲノム配列の系統推定解析の依頼に応えてきた。多様な環境試料を対象にしたメタゲノム解析は、公的研究機関のみならず、産業界からも注目を集めている。今年度時点でDNAデータベースに収録されている原核生物、真核生物、ウイルス等の全ゲノム配列データを用いた大規模BLSOMを、年間で少なくとも一回は更新を行う。
 広範囲のゲノムが解読された結果、アミノ酸配列の相同性検索では機能が推定できない、機能未知なタンパク質が大量に蓄積し、産業的にも未利用なままに残されてきた。膨大な機能未知タンパク質類の機能推定を行うための情報基盤として、公的データベースに登録された全てのタンパク質を対象に3~4連続アミノ酸頻度のBLSOMを作成し、年間で少なくとも一回は更新を行う。オリゴペプチドのBLSOMは産業利用としての応用範囲が広いので、機能未知な大量タンパク質についての大規模な機能推定を行う。
 最近、新型インフルエンザウイルスの流行が世界的に問題になっている。BLSOMがインフルエンザウイルスゲノム研究にも、新規な視点での情報提供が可能なことを見出した。BLSOMの医学分野での活用も目指す。

5. 研究計画に沿った利用状況

次世代シーケンサーの登場によるDNAシークエンサーの最近の飛躍的な高速化に伴い、ゲノム配列のデータベースへの蓄積が加速されている。さらには、海水や土壌等の様々な環境やヒト腸内などから取得される混合ゲノム試料を対象として、数百件のメタゲノム解析プロジェクトが世界的に進行しており、海洋はその主対象の一つである。環境中で生育する新規性の高い、未知の微生物由来の断片ゲノム配列の生物系統の推定を行うには、現時点で研究の進んだ全ての既知の生物種由来のゲノム配列で大規模BLSOMを作成しておく必要がある。多様な環境中に生息する生物種を検出するために、真核生物・原核生物・ウイルス・ミトコンドリア・葉緑体等の既知の全塩基配列を対象にした4連続塩基頻度の大規模BLSOMを行い、その更新を完了した。
 データベースへの蓄積の著しい、機能未知なタンパク質の機能推定を可能にする新技術として、昨年度までにオリゴペプチドのBLSOMを確立したが、この技術開発では、原核生物由来のタンパク質を対象にしてきた。タンパク質のこの機能推定法を医学的・産業的に利用するためには、ヒトを含む全生物種由来の現時点で知られている全タンパク質を対象にした大規模BLSOMを作成しておく必要がある。この目的のオリゴペプチドBLSOMの作成と更新を完了した。
 緊急性の高い医学分野への課題の応用を目指し、全既知ウイルス、ならびに、インフルエンザを対象にしたBLSOM解析の作成と更新を完了した。

6. 今年度得られた成果、 および達成度

成果

海洋を代表例とする多様な地球環境で生育する微生物類を対象にしたメタゲノム解析により取得され断片ゲノム配列には、原核生物のみならず、真核生物やウイルス由来の断片ゲノム配列も豊富に含まれている。これら断片ゲノム配列からの真核生物やウイルスを探索するために、断片化サイズ5kbでの4連続塩基頻度にて、既知真核生物412種(ゲノム配列断片数:618万件)、既知ウイルス30,000種(12万件)、原核生物1294属(488万件)、ミトコンドリア4,479種(2万件)、葉緑体225種(6千件)のゲノム配列断片1,120万件(56ギガ塩基)の全生物種を対象にした大規模BLSOM解析を行なった。
 また、上記解析で使用した真核生物、原核生物、ウイルスについて、各生物カテゴリに推定された配列群に対し、より詳細な系統推定を行うことを目的に、断片サイズ5kbでの4連続頻度でのBLSOM解析を行なった。
 既に8大学11グループ、6公的研究機関7グループ、4民間企業との共同研究を行っており、我が国で行われている大規模メタゲノム解析の大半で活用されている。世界の研究グループにとって必須の技術とするべく、本研究成果より得られた大規模BLSOM解析結果を用いたメタゲノム配列に対する系統推定を行うためのソフトウェアの開発を完了し、今年度中に公開予定である。
 機能未知なタンパク質の機能推定を可能にする新技術として、開発したオリゴペプチドのBLSOM 解析として、真核・原核生物由来のタンパク質1,000万件を対象にタンパク質の2~4連続アミノ酸頻度に基づくBLSOM解析と更新を行い、メタゲノム配列中からの有用遺伝子探索のための基盤情報として活用している。
 全ウイルス、ならびにインフルエンザウイルスのBLSOM解析で、インフルエンザウイルス塩基配列の変化する方向の予測が可能との知見(DNA Research 2011)が得られ、インフルエンザを含む、緊急性の高い医学分野の課題へ応用可能なことを示した。

達成度

(年度当初の研究計画を全て達成した場合を100%として数値で示してください。複数の目標があった場合は、それぞれについて達成度を数値で示してください。)

当初予定していた解析の大半が実施できており、95%の達成率である。

7. 計算機資源の利用状況

計算機資源の利用状況

2012年1月5日時点で、利用割り当てノード時間(13,000ノード時間)のうち、約86%である11,117ノード時間を利用しており、計画的に利用できている。年度末までに割り当て頂いた時間の残りを利用する予定である。

チューニングによる成果

(ベクトル化、並列化チューニング等、計算機資源を有効利用するために行ったこととその効果を記載してください。)

前年度までに、ES2上でのチューニングを終えており、本年度は、より大規模なゲノム配列・タンパク質配列データに対する解析を計画的に実施することができた。

計画的に利用できていない場合、その理由

該当なし。

8. 新聞、雑誌での掲載記事

該当なし。