平成24年度 地球シミュレータ利用報告会

全ゲノム・全タンパク質配列の自己組織化マップを用いた大規模ポストゲノム解析

発表資料 (832KB)

1. プロジェクト名

全ゲノム・全タンパク質配列の自己組織化マップを用いた大規模ポストゲノム解析

A Large-scale Post-genome Analysis Using Self-Organizing Map for All Genome and Protein Sequences

2. プロジェクト責任者名

池村 淑道 (長浜バイオ大学・バイオサイエンス学部)

Toshimichi Ikemura

3. プロジェクトの目的

海洋を代表例とする、多様な地球環境で生育する微生物類は培養が困難なため膨大なゲノム資源が未開拓・未利用に残されてきた。環境中の生物群集から培養せずにゲノム混合物を回収し、断片ゲノム配列を解読し有用遺伝子を探索する「メタゲノム解析法」が開発され、注目を集めている。我々が開発した一括学習型自己組織化マップ法(BLSOM)は、断片ゲノム配列を生物種ごとに高精度に分離(自己組織化)する能力を持つ。解読済の全ゲノム配列を対象にして大規模BLSOMを作成・更新して行けば、メタゲノム解析で新たに得られる大量塩基配列をマップすることで、各環境中で生息する生物集団の全体像を正確に把握することが可能になり、併せて新規性の高い有用遺伝子類を発掘できる。多様性に富む海洋を対象にしたメタゲノム解析で威力を発揮する。
広範囲のゲノムが解読された結果、アミノ酸配列の相同性検索では機能が推定できない、機能未知なタンパク質が大量に蓄積し、産業的にも未利用なままに残されてきた。BLSOMはこれらの大量なタンパク質類の機能推定を可能にする。

4. 今年度当初の計画

これまでの研究開発で、大規模ゲノム配列に対するBLSOM解析システムの基盤が確立し、大学を含む公的な研究機関からの環境ゲノム配列の系統推定解析の依頼に応えてきた。多様な環境試料を対象にしたメタゲノム解析は、公的研究機関のみならず、産業界からも注目を集めている。今年度時点でDNAデータベースに収録されている原核生物、真核生物、ウイルス等の全ゲノム配列データを用いた大規模BLSOMを、年間で少なくとも一回は更新を行う。
広範囲のゲノムが解読された結果、アミノ酸配列の相同性検索では機能が推定できない、機能未知なタンパク質が大量に蓄積し、産業的にも未利用なままに残されてきた。膨大な機能未知タンパク質類の機能推定を行うための情報基盤として、公的データベースに登録された全てのタンパク質を対象に3~4連続アミノ酸頻度のBLSOMを作成し、年間で少なくとも一回は更新を行う。オリゴペプチドのBLSOMは産業利用としての応用範囲が広いので、機能未知な大量タンパク質についての大規模な機能推定を行う。

5. 研究計画に沿った利用状況

次世代シーケンサーの登場によるDNAシークエンサーの最近の飛躍的な高速化に伴い、ゲノム配列のデータベースへの蓄積が加速されている。さらには、海水や土壌等の様々な環境やヒト腸内などから取得される混合ゲノム試料を対象として、数百件のメタゲノム解析プロジェクトが世界的に進行しており、海洋はその主対象の一つである。環境中で生育する新規性の高い、未知の微生物由来の断片ゲノム配列の生物系統の推定を行うには、現時点で研究の進んだ全ての既知の生物種由来のゲノム配列で大規模BLSOMを作成しておく必要がある。大規模なBLSOMマップの更新を行いつつ、作成したBLSOMマップを用いてメタゲノム配列に対する系統推定を行うためのソフトウェアの公開を行い、ESでの研究成果の普及を図った。さらに、国内外の共同研究者との共同研究にて本ソフトウェアを利用した研究成果の発表を行った。
 データベースへの蓄積の著しい、機能未知なタンパク質の機能推定を可能にする新技術として、昨年度までにオリゴペプチドのBLSOMを確立したが、この技術開発では、原核生物由来のタンパク質を対象にしてきた。タンパク質のこの機能推定法の産業的利用を目指し、植物の2次代謝物推定に着目し、現時点で知られている植物の全タンパク質を対象にした大規模BLSOMの作成を行った。

6. 今年度得られた成果、 および達成度

成果

オリゴヌクレオチド頻度の大規模BLSOMの年次更新とそれを用いたメタゲノム解析

実験グループとの共同研究としてマダニ腸内細菌叢の探索を行い、微生物生態学分野のトップジャーナルの一つに発表を行った。マダニは様々な病原性ウイルス、細菌、原虫を保有することが知られており、ヒトや動物を吸血することでその伝播に関わる。特に1991年以降に報告されたマダニ媒介性Rickettsia属細菌によるヒトの新興感染症は12例にも上がり、さらに2011年には中国でヒトへの病原性が極めて高い新規ブニヤウイルスがマダニから検出されるなど、未知の病原体が潜んでいる可能性がある。マダニ媒介性病原体のほとんどは、ヒトや動物の病原体として認識される以前にマダニから検出されている。マダニが保有する微生物叢を網羅的に解析することは、未知の病原体の存在を明らかにできるとともに、新興のマダニ媒介性感染症の先回り対策として有効な手段と考えられる。この医学的重要性から、北海道大学の人獣共通感染症研究所が中心となり、次世代シーケンサーを用いたメタゲノムの実験的な解析を行ない、我々のグループがBLSOMを用いた系統推定を行った。
 野外採集ならびに実験室継代コロニーのマダニ7種より取得された300塩基以上のメタゲノム配列を用いてBLSOMによる系統推定を行った。具体的には、本年度に更新した全生物種を対象にした大規模BLSOMマップを用いてメタゲノム配列をマッピングしたところ、大半が原核生物に推定されていたが、真核生物に推定された配列のほとんどはマダニに由来すると予想された。原核生物由来と推定された配列を全原核生物を対象にしたBLSOMへマッピングし、原核生物のPhylumレベルを推定した結果、それぞれのマダニ種で異なる構成比が得られた。全体の傾向として、FirmicutesとGamma-proteobacteriaに属する細菌由来の配列が全体の約半数を占めた。Rickettsia等が属するAlpha-proteobacteriaはほとんどすべてのマダニ種でみられた。一方で、これまでマダニで報告の無かったChlamydiaeに属する配列の割合が多いマダニ種が見られた。これらについては特異的プライマーを用いて16S rDNAの配列決定も行い、その存在を確認できた。
メタゲノム解析による微生物叢の網羅的解明は、環境試料中の有用微生物や遺伝子の探索のみならず、自然界に存在する未知の病原体あるいは潜在的に病原性を持つ新規性の高い微生物を見つけ出す事が可能であり、新規感染症の原因微生物探索を含む医学・医療分野にも活かすことが可能な事が示された。本研究成果は、微生物生態学分野のトップジャーナルの一つであるISME Journalに採録が決定している(Nakao et al. in press)。

オリゴペプチド頻度のBLSOMを用いた植物2次代謝関連酵素類の特徴抽出

配列相同性検索では機能が推定出来ないタンパク質の配列が、利用価値が低いままに大量にデータベースに集積している。配列相同性検索に依存しない情報学的手法の確立が重要である。前年度までのESの研究で、オリゴペプチド頻度を対象にしたBLSOMを用いることで、タンパク質類が機能を反映した分離(自己組織化)を起こすことを見出し、論文として発表して来た。この成果を用いて、植物由来の2次代謝関連酵素タンパク質の特徴抽出を目的に、公開されている全植物と原核生物由来のタンパク質アミノ酸配列(721,266配列)を対象に、200アミノ酸ごとに断片化した配列(断片配列数:1,752,300)の2連続アミノ酸組成(400次元)に基づくBLSOM解析を行った。植物由来の2次代謝関連酵素タンパク質として、医薬や食品に関連した産業的に有用性の高い、テルペン・アルカノイド・フラボノイド・イソフラボノイドに着目し、作成したBLSOMマップへ各々のアミノ酸配列をマップしたところ、酵素タンパク質ごとにクラスターが形成されており、機能に特化したペプチド組成を持つことが明らかとなった。また、BLSOM上でマップされた格子点のばらつきを見ることで、2次代謝関連酵素の機能としての多様度を知ることが可能となった。また、機能ごとにクラスターが形成されていた領域には、既知未知な植物由来タンパク質も多く含まれており、それらが2次代謝関連酵素としての機能を持つ可能性が高いと考えられる。
 本手法を用いることで、大量に蓄積されるタンパク質アミノ酸配列群に対し、機能既知タンパク質類の特徴抽出、ならびに、機能未知タンパク質への機能推定をシステマティックに行うことが可能であり、産業的・医薬学的に有用な機能を持つタンパク質類への応用が可能である。本研究成果は、植物生理学分野のトップジャーナルの一つであるPlant and Cell Physiologyに採録が決定している(Ikeda et al. in press)。

達成度

(年度当初の研究計画を全て達成した場合を100% / 複数の目標があった場合は、それぞれについて達成度を数値で記載)

当初予定していた解析の大半が実施できており、90%の達成率である。

7. 計算機資源の利用状況

計算機資源の利用状況

2012年12月21日時点で、利用割り当てノード時間(13,000ノード時間)のうち、約77%である10,057ノード時間を利用しており、計画的に利用できている。年度末までに割り当て頂いた時間の残りを利用する予定である。

チューニングによる成果

(ベクトル化、 並列化チューニング等、 計算機資源を有効利用するために行ったこととその効果を記載)

これまでに、ES2上でのチューニングを終えており、本年度は、より大規模なゲノム配列・タンパク質配列データに対する解析を計画的に実施することができた。

計画的に利用できていない場合、その理由

該当なし。

8. 新聞、雑誌での掲載記事

該当なし。