■発表要旨
1.プロジェクトの目的
次世代の重要分野として、バイオテクノロジーが注目される中
1)生体機能の発現メカニズムを、分子レベルで明らかにする、
2)それらの知見・技術を、創薬など産業上の活用に結びつける、ための分子シミュレーション技術構築とプログラム開発を行い、
有効性を示すための実証計算を行う。具体的には、空間的および時間的スケールの異なる生体物質の様々な機能やダイナミクスの解明を、当面の目的とする。
本プロジェクトは、以下の4つのサブテーマで構成されている。
- サブテーマ1:「蛋白質の高次構造変化のリアルなシミュレーション」(弘前大学 斎藤稔)
- サブテーマ2:「第一原理からのタンパク質の折り畳みシミュレーション」(名古屋大学 岡本祐幸)
- サブテーマ3:「分子動力学シミュレーションを用いた大規模生体超分子系の機能解析」
(日本原子力研究所 石田恒) - サブテーマ4:「全ゲノム配列と全タンパク質配列の自己組織化地図作成と進化シミュレーション」
(総合研究大学院大学 池村淑道)
1. プロジェクトの目的
ヘモグロビンは1カ所に酸素を吸着すると、高次構造(4次構造)が変化して、残りの3カ所に酸素が吸着しやすくなる。ヘモグロビンは、この構造変化によって効率よく酸素を運ぶことができる。酸素吸着の前後の構造は、実験によって明らかにされたが、その変化の過程は未だに観測されていない。このサブグループの目的は、ヘモグロビンの4次構造の変化の過程をコンピュータシミュレーションによって追いかけ可視化するのが目的である。
2. 今年度当初の計画
地球シミュレータ上で高速化した独自のプログラムCOSMOS90を使って、ヘモグロビンの本格的なシミュレーションを実施する。まず、(1)ヘモグロビンについてリアルなシミュレーションを行うために、生体の環境に近い条件でセットアップを行う。シミュレーションの初期構造と力場パラメタを準備する。それらの妥当性をテストするために、短いシミュレーションを数回行う。(2)ネットワークから大量のジョブを投入して長時間のシミュレーションを行う。
3. 今年度得られた成果、および達成度
<成果>
今年度の計画(上記の(1)、(2))の進捗状況は、それぞれ以下のようである。
(1)水中のヘモグロビンについて、初期構造と力場パラメタをセットアップして、それらの妥当性を調べた。短時間のシミュレーションを数回行うことによって、妥当な初期構造と力場パラメタを決定した。
(2)シミュレーションは安定に推移しており、トラブルなく長時間のシミュレーションが可能になっている。現在の段階で、ヘモグロビンの2次構造や3次構造の一部分が変化しているが、まだ4次構造の変化は見られない。2次構造や3次構造の変化は、結晶構造解析から得られた初期構造を水中でシミュレーションしているために起こっている。したがって、リアルな構造変化をシミュレーションしていると判断できる。更に、長時間のシミュレーションを継続する。
<達成度>
17年度前半の目的は達成した。17年度後半の目的は、まだ実施の途中である。したがって、17年度の目的の達成度は、現在のところ約40%である。達成度が低い理由は、今年度の前半にヘモグロビンの初期構造と力場パラメタのセットアップに予想外の時間がかかったためである。後半は、ネットワークから大量のジョブが投入できるようになったために、遅れを挽回できると考えている。プロジェクトの研究計画全体では約80%の達成度である。
1. プロジェクトの目的
強力なシミュレーション手法である拡張アンサンブル法を用いて、アミノ酸数50個余りのタンパク質の水中の折りたたみシミュレーションに世界で初めて成功することを目指す。原子レベルの詳細を取り入れたシミュレーションではこの問題は、未だに大変な難問とされている。具体的には、拡張アンサンブル法として、我々が独自に開発し、世界中で現在広く使われているレプリカ交換分子動力学法(REMD)及びその更なる改良版であるマルチカノニカルレプリカ交換法(MUCAREM)を用いる。
2. 今年度当初の計画
昨年度は、アミノ酸数56個のprotein Gの系(水分子を含めて、全原子数約5万個)のレプリカ交換分子動力学(REMD)シミュレーションを地球シミュレータ112ノードを使って成功させた。本年度は、更に強力な拡張アンサンブル法である、マルチカノニカルレプリカ交換法(MUCAREM)に基づくシミュレーションを地球シミュレータ112ノードで実行する。
3. 今年度得られた成果、および達成度
<成果>
protein GのREMDシミュレーションを続けたが、REMDでは十分なパワーがないため、計算時間が足りず、αへリックスやβシート構造は部分的に得られたものの、自然の構造までの折り畳みはできなかった。しかし、その結果からMUCAREMシミュレーションのための重み決定を行い、それに成功した。これから年度末までには、残された配分時間で、MUCAREMシミュレーションを実行したい。
<達成度> 70 %
サブテーマ3:「分子動力学シミュレーションを用いた大規模生体超分子系の機能解析」
(日本原子力研究所 石田恒)
1. プロジェクトの目的
独自に開発中の大規模生体超分子複合体系の分子動力学プログラムコードSCUBA(旧名PABIOS)を用いて、既存プログラムでは実行不可能であった約百万原子からなる生体超分子系の分子動力学シミュレーションを地球シミュレータ上で実行し、相同組換えによるDNA修復機能のメカニズム解明を目指す。
2. 今年度当初の計画
SCUBAを地球シミュレータ上で並列化チューニング及びベクトル化チューニングし、並列ベクトル計算機上で計算能率を高める。そして相同組換えに重要なRuvA-Holliday分岐DNAのシミュレーションを実行し、相同組換えの解析をする。更にRuvA-RuvB-Holliday分岐DNAの大規模シミュレーションを開始する。
3. 今年度得られた成果、および達成度
<成果>
SCUBAは高い並列化効率を実現する3次元空間分割法を採用し、分子動力学シミュレーションにおいて最も計算負荷の高い長距離相互作用についてはParticle-Particle Particle-Mesh (PPPM)法を、またCPUのロードバランスを最適に保つために各CPUが担当する3次元空間分割セル数を計算中に変更できる動的ロードバランスを搭載した計算性能の優れたシミュレーションシステムである。
今年度は、このSCUBAを用いて(RuvA-Holliday分岐DNA複合体の系、約11万原子)を実行し、相同組換えの解析をした。その結果、DNAが相同組換えする際の自由エネルギー障壁は10から15kcal/molであることがわかった。また、相同組換えの際、RuvAの分岐点中心に位置する酸性アミノ酸がDNAを安定化する役割があることがわかった。
更には、より大規模な分子動力学シミュレーションを実行するために、SCUBAの並列化チューニングを推し進めた。その結果、平成17年12月現在、地球シミュレータ上で45ノードを用いたベンチマークテスト(RuvA-RuvB-Holliday分岐DNA複合体の系、約55万原子)においてSCUBAは並列化効率50%以上、ベクトル化率95%以上を達成することに成功した。現在、この大規模シミュレーションを実行中である。
<達成度>
1.RuvA-Holliday分岐DNA複合体の系(約11万原子)の分子動力学シミュレーション実行:90%
2.大規模生体超分子複合体系の分子動力学プログラムコードSCUBA(旧名PABIOS):80%
3.RuvA-RuvB-Holliday分岐DNA複合体の系(約55万原子)の分子動力学シミュレーション実行:25%
サブテーマ4:「全ゲノム配列と全タンパク質配列の自己組織化地図作成と進化シミュレーション」
(総合研究大学院大学 池村淑道)
1. プロジェクトの目的
多様な地球環境由来の難培養性微生物のゲノムは、新規性の高い遺伝子を含む可能性が高く産業的に関心を集めており、ヒトの体内環境の難培養性微生物については、医薬学的にも注目を集めている。我々が開発してきたゲノム配列解析用の一括学習型SOMは新規性の高い配列の系統分類を可能にする、革新的なバイオインフォーマティクスである。既知の全ゲノム配列を対象にしたSOMを作成して、基盤ゲノム情報を大規模に集積して行けば、この分野で我国が先導的な役割を果たせる。
2. 今年度当初の計画
環境に由来する混合ゲノム研究に基盤ゲノム情報を提供する目的で、公的DNAデータベースに登録されている全ゲノム配列を対象に、5kbと10kbと100kb断片化配列に関する2~6連続塩基頻度でSOMを作成する。本年度は、原核と真核生物に加えて、ウイルス、プラスミド、ミトコンドリアと葉緑体ゲノムを加えた大規模なSOMを作成する。
タンパク質配列の連続アミノ酸頻度に関するSOMは、タンパク質の構成部品の頻度に着目した特徴抽出が可能となる。通常の相同性検索では有意な相同性が見出されていない機能未知のタンパク質が、連続アミノ酸部品の使用頻度において、機能既知のどのタンパク質と関連付けられるのかを特定する技術は、タンパク質の機能推定において新規な手法を提供できる。本年度は、公的データベースに登録されている全タンパク質配列を対象にして、2~3連続アミノ酸頻度のSOMを作成する。
3. 今年度得られた成果、および達成度
<成果>
原核と真核生物に加えて、ウイルス、プラスミド、ミトコンドリアと葉緑体ゲノムを含む全DNA配列に由来する5kbと10kbならびに100kb断片化配列について、3~5連続塩基頻度の大規模SOMを作成した。5kb-SOM上へ、公的データベースに収録されている、環境の混合ゲノム由来の大量断片配列(総計で約1.5Gb)をマップすることで、これらの断片配列の系統推定をおこなった。さらに、この混合ゲノム由来の大量断片配列と上記の既知ゲノム配列と合わせてSOM解析を行なうことでも、混合ゲノム由来の断片配列の系統推定と新規性の判定をおこなった。
タンパク質配列については、2連続アミノ酸頻度のSOM解析を行なっているが、まだ3連続アミノ酸頻度の解析は開始していない。
<達成度>
現時点では、ゲノムDNAに関するSOM解析は80%程度まで達成しているが、タンパク質の配列については50%レベルの達成率である。但し、年度内には、ゲノムDNAについてはほぼ100%に、タンパク質の配列については80%レベルまで達成すると思える。
以上で得られた本年度の成果は、既に2報を国際誌に発表し、2報を国際学会での抄録誌に発表している。