■発表要旨
1.プロジェクトの目的
現在までに解読された全ゲノム配列を対象に、ATGCで構成される連文字 (例えば4連や5連文字)の出現頻度を対象にSOM解析を行い、ゲノム配列に潜む新規な性質を解明する。ここで用いるSOMは、我々がゲノム情報解析用に開発した、batch learning型である。このSOM法を用いて、タンパクのアミノ酸配列の連文字も行い、タンパク機能の新規な推定法を確立する。
2.今年度当初の計画
現在までに解読された全ゲノム配列を対象に、8連文字頻度までのSOM解析を行う。現在までに配列が決定された全タンパク質を対象に、2連と3連文字のSOM解析を行う。
3.今年度得られた成果、および達成度
<成果>
極限環境を含む多様な自然環境で生育する微生物類については、培養が困難な例が大半を占めている。自然環境でなくても、我々の体内においてすら多様な難培養性の微生物の存在が確認されている。実験室で培養が困難な微生物類については、通常の実験的な研究が行えず産業的にも利用されずにきた。新規性の高い有用遺伝子類を豊富に保有すると考えられ、膨大なゲノム資源が未開拓に残されている。塩基配列解読の高速化と低価格化に伴い、これらの未開拓資源を利用する目的で、培養なしに環境生物群のゲノムDNAの混合物を抽出し、大量な断片配列をクローン化し、配列決定を行う方法が開発されている。これらの大量な塩基配列から新規性の高い生物のゲノム配列を効率的に選別し、生物学的ならびに産業的に貴重な遺伝子配列を発掘する研究が注目を集めている。人の体内環境を対象にした場合には、医学的に重要な新規な難培養性微生物類の特定が可能と考えられ、新規感染症の研究において重要と考えられる。しかしながら、従来からのバイオインフォマティクスでは、大量な断片塩基配列の集合のみでは、各配列が由来する生物系統やその種類、それらの新規性等を推定することは困難であった。理由は、従来の系統推定法は、多種類の生物種の相同な配列間での距離を基礎にしているが、産業的や科学的に興味深い新規性の高いゲノム配列・遺伝子配列については、相同配列が得られていない。我々が研究開発を進めてきたSOMは、断片配列の連続塩基の出現頻度のみで系統分類ができる「教師なしのアルゴリズム」であり、相同配列のセットや配列間のアラインメントが不必要である。新規性の高い配列類の生物系統の推定には最適な方法となる。具体的には、現在までに解読された既知の全バクテリアゲノム配列を対象に、4と5連塩基頻度でSOMを作成しておき、地球環境や体内環境に由来する難培養性微生物集団の大量断片配列類を、そのSOM上へマップすることで、生物系統を推定し新規性の高い配列を網羅的に特定できた。
<達成度>
上記のゲノム配列解析用のSOMの基本アルゴリズムの開発は、国立遺伝学研究所のスーパーコンピュータを用いて行ってきた。SOMは多大の計算時間を必要とする。特に、上記の地球環境に由来する未知ゲノムの探索については、人類が現時点で知っている全ゲノム配列でSOMを作成しておく必要がある。国立遺伝学研究所のスーパーコンピュータを用い場合、4連塩基頻度(256次元データ)で原核生物のゲノムに限っても、1月程度の規模の計算を要していた。生物学的に興味深い5連塩基頻度(1024次元データ)や6連塩基頻度(4096次元データ)を対象にし、真核生物まで含めると数ヶ月でも十分でなく、不可能とあきらめていた。地球シミュレータの使用の許可を得て、予備的な準備を完了して年度の後半から本格的な解析を開始した段階であるが、予想を遥かに超える成果が得られている。国立遺伝学研究所のスーパーコンピュータで算出していた速度に比べて、100程度の速度が実現しており、既知の全ゲノム配列を対象にしたSOMの作成が可能になってきている。SOMの作成自体には大規模計算を要するが、各研究者が解読した配列群をそのSOM上へマップして系統推定を行い、新規性の度合いを知るには、PCレベルの計算機で十分である。地球シミュレータで作成したSOMを世界的に公開すれば、世界的に特徴ある先導的で応用範囲の広いゲノム解析法を確立したことになり、またその基盤情報を継続的に更新を加えながら発信できる。
地球シミュレータの使用許可を与えて頂いたことに、深く感謝している。