全ゲノム・全タンパク質配列の自己組織化マップを用いた大規模ポストゲノム解析
A large-scale post-genome analysis using Self-Organizing Map for all genome and protein sequences
池村 淑道 (長浜バイオ大学・バイオサイエンス学部)
Toshimichi Ikemura
海洋を代表例とする, 多様な地球環境で生育する微生物類は培養が困難なため膨大なゲノム資源が未開拓・未利用に残されてきた. 環境中の生物群集から培養せずにゲノム混合物を回収し, 断片ゲノム配列を解読し有用遺伝子を探索し, 併せて生物生態系の概要を把握するための「メタゲノム解析法」が開発され, 科学的・産業的に注目を集めている. 我々が開発した一括学習型自己組織化マップ法(BLSOM)は, 断片ゲノム配列を生物種ごとに高精度に分離(自己組織化)する能力を持つ. 解読済みの全ゲノム配列を対象にして大規模BLSOMの作成と更新を行う. メタゲノム解析で新たに得られる大量塩基配列を作成した大規模BLSOMにマップすることで, 各環境中で生息するウイルスを含む生物集団の全体像を正確に把握することが可能になり, 併せて新規性の高い有用遺伝子類を発掘できる. ウイルスやウイルス様粒子は, 海洋に大量に存在することが判明し, 海洋の生態系の理解に重要であることが提唱されている. ウイルス類はrRNAの遺伝子を持たないが, BLSOMはこれらウイルスの系統推定にも強力な解析手段を提供できるので, 環境中のウイルスの全貌を俯瞰し, 特徴抽出するための基本システムを開発する.
広範囲のゲノムが解読された結果, アミノ酸配列の相同性検索では機能が推定できない, 機能未知なタンパク質が大量に蓄積し, 産業的にも未利用なままに残されてきた. それらの大量なタンパク質の機能推定は, ポストゲノム研究の最重要課題の一つである. 配列相同性検索にはよらずに, 連続アミノ酸(オリゴペプチド)の出現頻度に着目したBLSOMを用いて, 大量なタンパク質類の機能を推定する新規手法を, これまでの研究開発で確立した.
膨大な機能未知タンパク質類の機能推定を行うために, 公的データベースに登録されている既知のタンパク質を対象にした連続アミノ酸頻度に基づくBLSOMの作成と更新を行う.
これまでの研究開発で, 大規模BLSOM解析システムの基盤が確立し, 大学を含む公的な研究機関からの環境ゲノム配列の系統推定解析の依頼に応えてきた. 多様な環境試料を対象にしたメタゲノム解析は, 公的研究機関のみならず, 産業界からも注目を集めている. 今年度時点でDNAデータベースに収録されている原核生物, 真核生物, ウイルス等の全ゲノム配列データを用いた大規模BLSOMを, 年間で少なくとも一回は更新を行う.
広範囲のゲノムが解読された結果, アミノ酸配列の相同性検索では機能が推定できない, 機能未知なタンパク質が大量に蓄積し, 産業的にも未利用なままに残されてきた. 膨大な機能未知タンパク質類の機能推定を行うための情報基盤として, 公的データベースに登録された全てのタンパク質を対象に3~4連続アミノ酸頻度のBLSOMを作成し, 年間で少なくとも一回は更新を行う. オリゴペプチドのBLSOMは産業利用としての応用範囲が広いので, 機能未知な大量タンパク質についての大規模な機能推定を行う.
次世代シーケンサーの登場によるDNAシークエンサーの最近の飛躍的な高速化に伴い, ゲノム配列のデータベースへの蓄積が加速されている. さらには, 海水や土壌等の様々な環境やヒト腸内などから取得される混合ゲノム試料を対象として, 数百件のメタゲノム解析プロジェクトが世界的に進行しており, 海洋はその主対象の一つである. 環境中で生育する新規性の高い, 未知の微生物由来の断片ゲノム配列の生物系統の推定を行うには, 現時点で研究の進んだ全ての既知の生物種由来のゲノム配列で大規模BLSOMを作成しておく必要がある. これまでは, 主に微生物由来の断片ゲノム配列を探索する目的で原核生物を中心とした解析を実施してきたが, 環境中に生息する真核生物やウイルスなどを検出するために, 真核生物, ならびにウイルスを対象にした4連塩基頻度の大規模BLSOMを行い, その更新を完了した.
データベースへの蓄積の著しい, 機能未知なタンパク質の機能推定を可能にする新技術として, 昨年度までにオリゴペプチドのBLSOMを確立したが, この技術開発では, 原核生物由来のタンパク質を対象にしてきた. タンパク質のこの機能推定法を医学的・産業的に利用するためには, ヒトを含む全生物種由来の現時点で知られている全タンパク質を対象にした大規模BLSOMを作成しておく必要がある. この目的のオリゴペプチドBLSOMの作成と更新を完了した.
海洋を代表例とする多様な地球環境で生育する微生物類を対象にしたメタゲノム解析により取得され断片ゲノム配列には, 原核生物のみならず, 真核生物やウイルス由来の断片ゲノム配列も豊富に含まれている. これら断片ゲノム配列からの真核生物やウイルスを探索するために, 既知真核生物101種を対象に断片化サイズ5kb(約180万件), ならびに, 既知ウイルス約42,957種を対象に断片化250塩基での4連続塩基に基づくBLSOM解析を行った. ウイルスにおいては, 250塩基と短い配列長においても比較的精度高く分離可能な解析条件が開発できた. 250塩基のように短い配列用のBLSOMを開発した理由は, 次世代シーケンサーの解読する配列が, 現時点では比較的に短いので, この開発が必要であった.
また, 原核生物についても, 現在公開されている既知原核生物4,297種を対象に, 断片化サイズ5kb(約180万件)での4連続塩基でのBLSOM解析と更新を行った. より短いメタゲノム配列に対して系統推定を実施可能とすることを目的に, 参照するBLSOMの解析条件の検証として, 断片化サイズ1kb(1800万件)での3連続塩基, ならびに4連続塩基でのBLSOM解析を行った. 得られた結果を元に, 現在, 系統推定の精度を更に向上させるためのアルゴリズムの改良を実施している.
機能未知なタンパク質の機能推定を可能にする新技術として, 開発したオリゴペプチドのBLSOM 解析として, 真核・原核生物由来のタンパク質650万件を対象にタンパク質の2~4連続アミノ酸頻度に基づくBLSOM解析と更新を行い, メタゲノム配列中からの有用遺伝子探索のための基盤情報として活用している.
※年度当初の研究計画を全て達成した場合を100%として数値で示してください. 複数の目標があった場合は, それぞれについて達成度を数値で示してください.
当初予定していた解析の大半が実施できており, 95%の達成率である.
※計画的に計算機資源を利用できているか, 状況を記載してください.
2011年1月7日時点で, 利用割り当てノード時間(13,000ノード時間)のうち, 約80%である9981ノード時間を利用しており, 計画的に利用できている. 年度末までに割り当て頂いた時間の残りを利用する予定である.
※ベクトル化, 並列化チューニング等, 計算機資源を有効利用するために行ったこととその効果を記載してください.
前年度までに, ES2上でのチューニングを終えており, 本年度は, より大規模なゲノム配列・タンパク質配列データに対する解析を計画的に実施することができた.