全ゲノム・全タンパク質配列の自己組織化マップを用いた大規模ポストゲノム解析
A large-scale post-genome analysis using Self-Organizing Map for all genome and protein sequences
池村 淑道 (長浜バイオ大学・バイオサイエンス学部)
Toshimichi Ikemura
海洋を代表例とする、多様な地球環境で生育する微生物類は培養が困難なため膨大なゲノム資源が未開拓・未利用に残されてきた。環境中の生物群集から培養せずにゲノム混合物を回収し、断片ゲノム配列を解読し有用遺伝子を探索する「メタゲノム解析法」が開発され、科学的・産業的に注目を集めている。我々が開発した一括学習型自己組織化マップ法(BLSOM)は、断片ゲノム配列を生物種ごとに高精度に分離(自己組織化)する能力を持つ。既知の全生物種由来のゲノム断片配列を対象に大規模BLSOMを予め作成し、メタゲノム解析で得られる大量塩基配列をそこへマップすることで、各環境中で生息する、ウイルスを含む生物集団の全体像が把握可能になる。
広範囲のゲノムが解読された結果、アミノ酸配列の相同性検索では機能が推定できない、機能未知なタンパク質が大量に蓄積し、産業的にも未利用なまま残されてきた。オリゴペプチド頻度のBLSOMにより、これらの大量なタンパク質類の機能推定を可能にする。
昨年度までの研究開発で、大規模BLSOM解析システムの基盤が確立し、大学を含む公的な研究機関からの環境ゲノム配列の系統推定解析の依頼に応えてきた。多様な環境試料を対象にしたメタゲノム解析は、公的研究機関のみならず、産業界からも注目を集めている。今年度は、産業利用をも視点に入れた研究開発を行う。今年度時点でDNAデータベースに収録されている原核生物、真核生物、ウイルス等の全ゲノム配列データを用いて大規模BLSOMを作成し、年間で少なくとも一回は更新を行う。
我々の開発したBLSOMは、4連や5連塩基といった連続塩基(オリゴヌクレオチド)の出現頻度に着目することで、生物種に関する情報を計算機に与えなくても、断片ゲノム配列の大半を生物種別に高精度に分類(自己組織化)可能にした。環境微生物群集由来の混合ゲノム試料を対象にしたメタゲノム研究を行っている実験グループが解読した大量な環境由来の新規ゲノム断片配列類を、ESで作成した大規模BLSOM上へマップし、環境由来の各配列の生物系統や新規性を推定する。環境微生物に由来する新規性の高い遺伝子類を産業的に活用するための基盤ゲノム情報を提供すると同時に、全地球レベルでの微生物群集の多様性を俯瞰可能にする。
広範囲のゲノムが解読された結果、アミノ酸配列の相同性検索では機能が推定できない、機能未知なタンパク質が大量に蓄積し、産業的にも未利用なままに残されてきた。それらの大量なタンパク質の機能推定は、ポストゲノム研究の最重要課題の一つである。配列相同性検索にはよらずに、連続アミノ酸(オリゴペプチド)の出現頻度に着目したBLSOMを用いて、大量なタンパク質類の機能を推定する新規手法を、昨年度までの研究開発で確立した。オリゴペプチドのBLSOMは産業利用としての応用範囲が広い。公的データベースに登録された全てのタンパク質を対象に3~4連続アミノ酸頻度のBLSOMを作成し、年間で少なくとも一回は更新を行うと同時に、機能未知な大量タンパク質についての機能推定を行う。
DNAシークエンサーの最近の飛躍的な高速化に伴い、ゲノム配列のデータベースへの蓄積が加速されている。さらには、海水や土壌等の様々な環境やヒト腸内などから取得される混合ゲノム試料を対象として、100を超えるメタゲノム解析プロジェクトが世界的に進行している。環境中で生育する新規性の高い、未知の微生物由来の断片ゲノム配列の生物系統の推定を行うには、現時点で研究の進んだ全ての既知の生物種由来のゲノム配列で大規模BLSOMを作成しておく必要がある。この目的の4連塩基頻度の大規模BLSOMについて、本年度の更新を完了した。
データベースへの蓄積の著しい、機能未知なタンパク質の機能推定を可能にする新技術として、昨年度までにオリゴペプチドのBLSOMを確立したが、この技術開発では、原核生物由来のタンパク質を対象にしてきた。タンパク質のこの機能推定法を医学的・産業的に利用するためには、ヒトを含む全生物種由来の現時点で知られている全タンパク質を対象にした大規模BLSOMを作成しておく必要がある。この目的のオリゴペプチドBLSOMの作成を完了した。
現時点でゲノム塩基配列の解読がなされている、真核生物・原核生物・オルガネラ・ウイルス由来の、総計で約40,000種類のゲノム配列を対象に、4連続塩基頻度の大規模BLSOMを作成した。この大規模BLSOMの利用については、公的研究機関だけでなく、民間企業からの利用の打診を受け、外国企業も興味を示している。なお、ESで作成した大規模BLSOMの環境由来微生物のゲノム解析への利用に関して、米国 NSFの「Cyber-enabled Discovery and Innovation initiative」に関するMeetingの主催者側レポート中に、我々のグループがJournal of the Earth Simulator, Volume 6, October 2006, 17–23.で発表した図の一部を掲載したいとの依頼があった。ESを用いた大規模BLSOM解析の成果が、世界的にも認められ、科学的・産業的な利用に繋がってきている。ウイルスゲノム配列類にも、BLSOMは高い分離能を持っているので、本年度の当初から世界的に流行を開始した新型インフルエンザを具体的な対象に、新規感染症の問題解決の支援を目指したBLSOM解析を開始した。予想を遥かに超える成果が得られたので、現在論文を作成中である。
オリゴペプチドのBLSOMを用いたタンパク質の機能推定については、年度の後半に論文発表を行った段階であり、外国の研究グループからの利用に関する打診はあるが、産業利用に関する打診はない。我々は、BLSOMによるタンパク質の機能推定法の医学・産業における有用性を強く感じている。オリゴヌクレオチドのBLSOMを用いた系統推定については、実験グループからの依頼に基づく成果を次々に論文発表することで、産業界での関心を高めることが出来た。オリゴペプチドのBLSOMもこの方針で、産業界での関心を高めて行くことを目指している。
90%程度の達成率である。ESの機種更新に伴う、我々の側での変更作業に予想以上に手間取り、年度の後半からの利用になってしまった。その点を反省している。変更の問題が解消できた時点からは、スムーズに研究計画を遂行できた。