平成21年度 地球シミュレータ利用報告会

全ゲノム・全タンパク質配列の自己組織化マップを用いた大規模ポストゲノム解析

発表資料 (1.7MB)

1. プロジェクト名

全ゲノム・全タンパク質配列の自己組織化マップを用いた大規模ポストゲノム解析

A large-scale post-genome analysis using Self-Organizing Map for all genome and protein sequences

2. プロジェクト責任者名

池村 淑道 (長浜バイオ大学・バイオサイエンス学部)

Toshimichi Ikemura

3. プロジェクトの目的

海洋を代表例とする、多様な地球環境で生育する微生物類は培養が困難なため膨大なゲノム資源が未開拓・未利用に残されてきた。環境中の生物群集から培養せずにゲノム混合物を回収し、断片ゲノム配列を解読し有用遺伝子を探索する「メタゲノム解析法」が開発され、科学的・産業的に注目を集めている。我々が開発した一括学習型自己組織化マップ法(BLSOM)は、断片ゲノム配列を生物種ごとに高精度に分離(自己組織化)する能力を持つ。既知の全生物種由来のゲノム断片配列を対象に大規模BLSOMを予め作成し、メタゲノム解析で得られる大量塩基配列をそこへマップすることで、各環境中で生息する、ウイルスを含む生物集団の全体像が把握可能になる。

広範囲のゲノムが解読された結果、アミノ酸配列の相同性検索では機能が推定できない、機能未知なタンパク質が大量に蓄積し、産業的にも未利用なまま残されてきた。オリゴペプチド頻度のBLSOMにより、これらの大量なタンパク質類の機能推定を可能にする。

4. 今年度当初の計画

昨年度までの研究開発で、大規模BLSOM解析システムの基盤が確立し、大学を含む公的な研究機関からの環境ゲノム配列の系統推定解析の依頼に応えてきた。多様な環境試料を対象にしたメタゲノム解析は、公的研究機関のみならず、産業界からも注目を集めている。今年度は、産業利用をも視点に入れた研究開発を行う。今年度時点でDNAデータベースに収録されている原核生物、真核生物、ウイルス等の全ゲノム配列データを用いて大規模BLSOMを作成し、年間で少なくとも一回は更新を行う。

我々の開発したBLSOMは、4連や5連塩基といった連続塩基(オリゴヌクレオチド)の出現頻度に着目することで、生物種に関する情報を計算機に与えなくても、断片ゲノム配列の大半を生物種別に高精度に分類(自己組織化)可能にした。環境微生物群集由来の混合ゲノム試料を対象にしたメタゲノム研究を行っている実験グループが解読した大量な環境由来の新規ゲノム断片配列類を、ESで作成した大規模BLSOM上へマップし、環境由来の各配列の生物系統や新規性を推定する。環境微生物に由来する新規性の高い遺伝子類を産業的に活用するための基盤ゲノム情報を提供すると同時に、全地球レベルでの微生物群集の多様性を俯瞰可能にする。

 広範囲のゲノムが解読された結果、アミノ酸配列の相同性検索では機能が推定できない、機能未知なタンパク質が大量に蓄積し、産業的にも未利用なままに残されてきた。それらの大量なタンパク質の機能推定は、ポストゲノム研究の最重要課題の一つである。配列相同性検索にはよらずに、連続アミノ酸(オリゴペプチド)の出現頻度に着目したBLSOMを用いて、大量なタンパク質類の機能を推定する新規手法を、昨年度までの研究開発で確立した。オリゴペプチドのBLSOMは産業利用としての応用範囲が広い。公的データベースに登録された全てのタンパク質を対象に3~4連続アミノ酸頻度のBLSOMを作成し、年間で少なくとも一回は更新を行うと同時に、機能未知な大量タンパク質についての機能推定を行う。

5. 研究計画に沿った利用状況度

DNAシークエンサーの最近の飛躍的な高速化に伴い、ゲノム配列のデータベースへの蓄積が加速されている。さらには、海水や土壌等の様々な環境やヒト腸内などから取得される混合ゲノム試料を対象として、100を超えるメタゲノム解析プロジェクトが世界的に進行している。環境中で生育する新規性の高い、未知の微生物由来の断片ゲノム配列の生物系統の推定を行うには、現時点で研究の進んだ全ての既知の生物種由来のゲノム配列で大規模BLSOMを作成しておく必要がある。この目的の4連塩基頻度の大規模BLSOMについて、本年度の更新を完了した。

 データベースへの蓄積の著しい、機能未知なタンパク質の機能推定を可能にする新技術として、昨年度までにオリゴペプチドのBLSOMを確立したが、この技術開発では、原核生物由来のタンパク質を対象にしてきた。タンパク質のこの機能推定法を医学的・産業的に利用するためには、ヒトを含む全生物種由来の現時点で知られている全タンパク質を対象にした大規模BLSOMを作成しておく必要がある。この目的のオリゴペプチドBLSOMの作成を完了した。

6. 今年度得られた成果、および達成度

成果

現時点でゲノム塩基配列の解読がなされている、真核生物・原核生物・オルガネラ・ウイルス由来の、総計で約40,000種類のゲノム配列を対象に、4連続塩基頻度の大規模BLSOMを作成した。この大規模BLSOMの利用については、公的研究機関だけでなく、民間企業からの利用の打診を受け、外国企業も興味を示している。なお、ESで作成した大規模BLSOMの環境由来微生物のゲノム解析への利用に関して、米国 NSFの「Cyber-enabled Discovery and Innovation initiative」に関するMeetingの主催者側レポート中に、我々のグループがJournal of the Earth Simulator, Volume 6, October 2006, 17–23.で発表した図の一部を掲載したいとの依頼があった。ESを用いた大規模BLSOM解析の成果が、世界的にも認められ、科学的・産業的な利用に繋がってきている。ウイルスゲノム配列類にも、BLSOMは高い分離能を持っているので、本年度の当初から世界的に流行を開始した新型インフルエンザを具体的な対象に、新規感染症の問題解決の支援を目指したBLSOM解析を開始した。予想を遥かに超える成果が得られたので、現在論文を作成中である。

オリゴペプチドのBLSOMを用いたタンパク質の機能推定については、年度の後半に論文発表を行った段階であり、外国の研究グループからの利用に関する打診はあるが、産業利用に関する打診はない。我々は、BLSOMによるタンパク質の機能推定法の医学・産業における有用性を強く感じている。オリゴヌクレオチドのBLSOMを用いた系統推定については、実験グループからの依頼に基づく成果を次々に論文発表することで、産業界での関心を高めることが出来た。オリゴペプチドのBLSOMもこの方針で、産業界での関心を高めて行くことを目指している。

達成度

 90%程度の達成率である。ESの機種更新に伴う、我々の側での変更作業に予想以上に手間取り、年度の後半からの利用になってしまった。その点を反省している。変更の問題が解消できた時点からは、スムーズに研究計画を遂行できた。

8. 研究成果一覧 (投稿中の論文、予定講演の場合はその旨記載のこと)

a. 原著論文 (査読あり)

  • 1. 管理番号: 00003677
    タイトル:A novel bioinformatics strategy for function prediction of poorly-characterized protein genes obtained from metagenome analyses
    発表先(掲載誌名/会議名):DNA Research
    区分(発表形態):原著論文(査読有り)
    出版/発表日:200910
    登録日:2010/1/6
    更新日:2010/1/6
  • 2. 管理番号: 00003680
    タイトル:A Large-Scale Genomics Studies Conducted with Batch-Learning SOM Utilizing High-Performance Supercomputers
    発表先(掲載誌名/会議名): Bio-Inspired Systems: Computational and Ambient Intelligence
    区分(発表形態):原著論文(査読有り)
    出版/発表日:200906
    登録日:2010/1/6
    更新日:2010/1/6
  • 3. 管理番号: 00003678
    タイトル:Batch-Learning Self-Organizing Map for Predicting Functions of Poorly-Characterized Proteins Massively Accumulated
    発表先(掲載誌名/会議名): Advances in Self-Organizing Maps
    区分(発表形態):原著論文(査読有り)
    出版/発表日:200906
    登録日:2010/1/6
    更新日:2010/1/6
  • 4. 管理番号: 00003681
    タイトル:Novel Bioinformatics for inter- and intraspecies comparison of genome signatures in plant genomes
    発表先(掲載誌名/会議名): Plant Biotechnology, 26, 469-477
    区分(発表形態):原著論文(査読有り)
    出版/発表日:200912
    登録日:2010/1/7
    更新日:2010/1/7
  • 5. 岩崎裕貴、池村淑道、伊藤正恵、阿部貴志、"オリゴヌクレオチド組成を用いた一括学習型自己組織化地図法によるA型インフルエンザウイルスの俯瞰的な特徴解明", 第18回バイオ情報学研究会、印刷中.

b. 原著論文 (査読なし、および雑誌等寄稿)

  • 1. 阿部貴志,上原啓史,金谷重彦,池村淑道,"環境由来大量DNA配列を利用した難培養性生物群の系統推定のための新規情報学手法", マリンメタゲノムの有効利用(松永是,竹山春子 監修), シーエムシー出版,p228-239, (2009).

c. 学会等発表 (ポスターセッションの場合はその旨記載)

  • 1. Takashi Abe, Shigehiko Kanaya, Toshimichi Ikemura, "Unveiling microbial diversity of uncultured environmental microbe mixtures on the basis of Batch Learning Self-Organizing Map (BLSOM)", Xth SCAR International Biology Symposium, (Hokkaido Univ., Sapporo), July 26-31, 2009. (Poster)
  • 2. Takashi Abe, Shigehiko Kanaya, Toshimichi Ikemura, "Unveiling microbial diversity of uncultured environmental microbe mixtures and functions of metagenome sequences using Batch Learning Self-Organizing Map (BLSOM)", International Symposium on Marine Genomics 2009 (Okinawa, Japan), Dec 15-18, 2009. (Oral)
  • 3. 岩崎裕貴、阿部貴志、伊藤正恵、和田健之助、池村淑道 "全インフルエンザAウィルスを対象にした新規情報学的手法による俯瞰的可視化とそこからの知識発見",日本遺伝学会 第81回大会, 2009年9月18日 (長野), (口頭).
  • 4. 岩崎裕貴、池村淑道、伊藤正恵、阿部貴志 "オリゴヌクレオチド組成を用いた一括学習型自己組織化地図法によるA型インフルエンザウイルスの俯瞰的な特徴解明", 第18回バイオ情報学研究会、2009年9月17日、(北海道), (口頭).
  • 5. 阿部貴志、金谷重彦、池村淑道 "データベースに蓄積の著しい機能未知のタンパク質類の機能推定のための一括学習型自己組織化マップ法", 第32回日本分子生物学会年会, 2009年12月10日 (横浜),(ポスタ).
  • 6. 岩崎裕貴、阿部貴志、伊藤正恵、和田健之介、池村淑道 "A型インフルエンザウイルスの全ゲノム配列を対象とした一括学習型自己組織化マップ法(BL-SOM)による効率的な知識発見とその応用",2009年12月11日 (横浜),(ポスタ).

d. 講演

  • 1. 池村淑道 “遺伝子とゲノム暗号に関する実験と情報解析を総合した進化学研究”、 日本進化学会賞(木村賞)受賞講演、第11回日本進化学会大会、2009年9月(札幌)

e. 新聞、雑誌での掲載記事

  • 1. Nature Digest 7月号 pp32 – 33 (2009) “メタゲノム解析で海洋資源を生かす(竹山 春子)“の記事に 我々のBLSOMの研究が掲載されている。
  • 2. USA NSF Meeting “Cyber-enabled Discovery and Innovation Initiative”のOrganizer Reportに我々のBLSOMの研究が掲載予定である。