平成15年度地球シミュレータ共同プロジェクト利用報告会

利用責任者名 : 郷 信広 (バイオシミュレーション研究者の会)

共同プロジェクトテーマ : バイオシミュレーション

PDF 発表資料 (469KB)

サブテーマ1:「 密度汎関数法による超大型タンパク質の全電子計算 」

サブテーマ2:「蛋白質の高次構造変化のリアルなシミュレーション」

サブテーマ3:「第一原理からのタンパク質の折り畳みシミュレーション」

サブテーマ4:「正常プリオンタンパク質から異常プリオンタンパク質への構造転移プロセスの解明に関する研究」

サブテーマ5:「分子動力学シミュレーションを用いた大規模生体超分子系の機能解析」

発表要旨

1.プロジェクトの目的

今回のプロジェクトはバイオシミュレーションの分野全体の発展を視野に入れたプロジェクトである。全体プロジェクトは5つのサブテーマで構成されている。サブテーマ1は量子的な取り扱いによる第一原理計算に基づく電子状態計算の精密計算であり、サブテーマ2-5はダイナミクスを取り扱う分子動力学シミュレーションである。またサブテーマ2-5は研究対象の空間スケールが比較的小さいが時間スケールの大きいシミュレーション、時間スケールはやや短いが空間スケールの大きいシミュレーションなど、取り扱う系の空間的および時間的スケールの異なる生体物質の様々な機能やダイナミクスの解明を目指している。これらのサブテーマはバイオシミュレーション分野を広くカバーしており、これらのサブテーマの研究を推進することにより、バイオシミュレーション研究分野全体が進歩していくことができる。

参考(サブテーマごとの研究目的)

サブテーマ1: 本サブグループは密度汎関数法によるタンパク質の量子化学計算ソフトウエア ProteinDFを開発した。本サブグループの目的はこのProteinDFを地球シミュレータ(ES)に適用し、H14~H16年度の3年計画で1,000残基規模の超大型タンパク質量子化学計算を実行することである。

サブテーマ2: 近年、蛋白質分子のリアルなシミュレーションができるようになってきたが、システムサイズが大きいために、いまだに構造の形成と変化についてのシミュレーションは実現していない.この共同プロジェクトテーマの目的は、申請者が独自に開発したプログラム COSMOS90と地球シミュレータによって、これを実現することである.まず第一に、蛋白質の構造変化のうちで、最も重要な現象の一つ「ヘモグロビンのアロステリック効果」のシミュレーションを行う.

サブテーマ3: 1960年代初頭のアンフィンゼンの実験以来、タンパク質の自然の立体構造は、アミノ酸配列の情報及び周りの溶媒環境のみで決まっており、自由エネルギーの最小状態に対応すると広く信じられている。しかし、系にエネルギー極小状態が無数に存在するために、一定温度のモンテカルロ法や分子動力学法等による従来のシミュレーションでは、それら極小状態の近傍に留まってしまって、立体構造予測シミュレーションが絶望的に難しくなる。本研究の目的はこの困難を拡張アンサンブル法を適用することによって克服し、水分子をあらわに取り入れた分子シミュレーションによって、小タンパク質の折り畳みに成功することである。

サブテーマ4: 生体内に元来存在するプリオンタンパク質 PrP(C)が異常構造PrP(Sc)に転移することで、狂牛病やクロイツフェルト・ヤコブ病などの所謂プリオン病の原因となると言われている。本研究では、計算生物学の一手法である分子動力学シミュレーションを用いることにより、PrP(C)からPrP(Sc)への構造転移のプロセスを明らかにし、その治療法への足がかりとなるような知見を得ることを目指す。タンパク質単分子と水多分子のような従前のシミュレーションではなく、地球シミュレータが提供する計算能力により複数のプリオン分子の系のシミュレーションを行うことで、世界に先駆けてPrP(C)からPrP(Sc)への構造転移プロセスの解明を目指す。

サブテーマ5: 独自に開発中の大規模生体超分子複合体系の分子動力学プログラムコード PABIOSを用いて、既存プログラムでは実行不可能であった数百万原子からなる生体超分子系の分子動力学シミュレーションを地球シミュレータ上で実行し、相同組換えによるDNA修復機能のメカニズム解明を目指す。

2.今年度当初の計画

サブテーマ1 : H14 年度に C++ でコーディングされた ProteinDF の ES への移植が終了したので、 H15 年度では ProteinDF チューニング作業ならびに 200 ~ 300 残基タンパク質の全電子計算を実行する。

サブテーマ2 : 平成14年度第4四半期において、当初の予定通りに、 COSMOS90を地球シミュレータに移植することに成功した.現在、8ノードで正常に動作している.COSMOS90は、すでにVPP-Fortranによる並列化がなされていたが、地球シミュレータに移植するために、コードを全面的にMPIによって書きあらためた.

平成15年度前半;高速化のための更なるチューニング:現在は、ノード内プロセッサも含めて、 MPIによって並列化している.並列化による加速性能は、まだ、ハードウエアの最高性能を引き出すに至っていない.今後、プロセッサ間のデータ通信の無駄を省いて高速化を行う.

平成15年度後半;シミュレーションのセットアップ:シミュレーションを行うために、水溶液中のヘモグロビンのセットアップを行う.セットアップとは、フォースフィールド(力場)の準備と初期構造の構築などである.フォースフィールドの信頼性の検証や初期構造の妥当性をテストする.

サブテーマ3 : 申請者らが独自に開発した MUCAREM(及びREMUCA)のプログラムを地球シミュレータに移植するとともに、最大限のチューニングを行うと共に、アミノ酸数50個程度の小タンパク質の折りたたみシミュレーションに挑戦する。

サブテーマ4 :1.プリオンの複数分子系のモデル構築 2.分子動力学シミュレーションプログラム( AMBER,MolTreC )のベクトル化率向上・並列化調整 3.様々な配置パラメータによる計算ジョブの投入 4.結果トラジェクトリ解析・並列化計算の評価等

2.の目処が付き次第、構築したプリオンの複数分子系のモデルの大規模計算を行っていくが、最終的な成果公開は平成 16 年度に行う予定である。

サブテーマ5 : PABIOSを地球シミュレータ上で並列化チューニング及びベクトル化チューニングし、並列ベクトル計算機上で計算能率を高める。そして相同組換えに重要なRuvA-Holliday分岐DNAのシミュレーションを実行する。更にRuvAB-Holliday分岐DNAの大規模シミュレーションの準備を進める。

 

3.今年度得られた成果、および達成度

サブテーマ1:

1.1. ProteinDF チューニング作業

1.1.1. ES 用並列ライブラリへの変換(達成率 100% )

ProteinDF は MPMD 方式で複数の並列処理を行っている。 ES への移植は MPI-2 で容易に達成できると考えていたが、残念なことに ES の MPI-2 は実装の違いにより、動的に生成したプロセスを消滅させる処理をユーザが管理できず複雑な処理は不可能であった。最終的には、動的プロセス生成を使わずに MPMD を実現するようソースを大幅に変更して ES への移植を達成した。

1.1.2. I/O の変換(達成率 50% )

ES での多ノード計算では分散ディスク環境と NFS による統一ディスク環境が選べる。 ProteinDF は後者でコーディングされているが、この環境では I/O 時間が異常にかかることが発覚した。そのため、分散ディスク環境へと移行している。

1.1.3. 並列化チューニング(達成率 80% )

1.2 の様々な分子サイズにおけるベンチマーク計算を行いながら、チューニングを進めている。ワークステーションクラスタで 99% の並列効率を達成していたルーチンが、 ES では効率が落ちてしまう原因が主に 1.1.1 の方針変更と 1.1.2 にあることを突き止め、改変を行っている。

1.1.4. ベクトル化チューニング(達成率 50% )

1.2 の様々な分子サイズにおけるベンチマーク計算を行いながら、チューニングを進めている。指定時間内にプロファイルを取れる計算サイズが 1 ~ 3 残基に限られており、ベクトル化チューニングの達成度はまだ低い。現ソースよりも全体で数倍速くなる予定。

1.2. ベンチマークデータ取り

1.2.1. 数残基ペプチド全電子計算(達成率 100% )

データ取得済み。

1.2.2. 31 残基タンパク質全電子計算(達成率 100% )

データ取得済み。

1.2.3. 100 残基規模タンパク質全電子計算(達成率 50% )

計算準備中。 1 月中に終了する予定。

1.3. 200 ~ 300 残基規模タンパク質計算(達成率 0% )

1.2 が終了次第、計算を始める。 2 ~ 3 月の予定。

サブテーマ2 : COSMOS90を地球シミュレータにインストールしてスピードを計測した結果を、表1(power point)に示す.表には、AMBER をSR2201で実行した結果、COSMOS90をVPP5000で実行した結果も比較のために示している.まず、COSMOS90によって地球シミュレータのベクトルプロセッサ自身の性能がどの程度引き出されているかを明らかにするために、ノード内の単一のプロセッサで実行した.実行スピードは、ベクトルで0.185 sec/step であり、スカラーで1.607 sec/stepであった.すなわち、ベクトル化による加速は8.7倍であった.したがって、COSMOS90は、地球シミュレータのベクトルプロセッサのピーク性能(8 Gflops:スカラー性能1 Gflopsの8倍)を十分に引き出していると言える.

次に、 COSMOS90が地球シミュレータの1ノードの性能をどの程度引き出しているかを調べるために、8個のプロセッサからなる単一のノードで実行した.実行スピード(0.026 sec/step)は、VPP5000に対する地球シミュレータの単一ノードのピーク性能(9.6 Gflopsに対して64 Gflops)から予測した結果(0.029 sec/step)とよく一致した(文献1,2).次に、COSMOS90を地球シミュレータの8ノード(64プロセッサ)で実行して、スピードを計測した.実行スピードは0.0056 sec/stepであり、VPPと地球シミュレータのハードウエアの性能差から期待したスピード(0.005 sec/step、JSPP2003における予測(文献1,2))を達成することができた.

達成された実行スピード 0.0056 sec/stepは、海外の同様のソフトウエアと比べても十分に高速である.以下のホームページ(http://www.scripps.edu/brooks/Benchmarks/)には、蛋白質の分子動力学シミュレーションソフトのベンチマークが掲載されている(power point表2).これによれば、最高速は、NAMD2.4をピッツバーグスーパーコンピュータセンターのLemieux (128プロセッサ) で実行した結果である.水中のDHFR蛋白質(23558原子)で0.023 sec/stepである.我々が今回計測した系のサイズ(16034原子)に換算すると、0.016 sec/stepであり、我々の結果(0.0056 sec/step)よりも遅い.我々の計測結果は、蛋白質のシミュレーションの実行スピードとしては、十分に高速であるといえる.したがって、今年度上半期の当初の目的は達成された.

文献1. 斎藤稔、佐谷野健二、“最新のベクトル型並列計算機による蛋白質のシミュレーションの高速化”、 JSPP2002, pp.179-180, (2002).

文献2. 斎藤稔、佐谷野健二、“地球シミュレータによる蛋白質の高速シミュレーション”、 SACSIS2003, pp.169-170, (2003), Swopp2003, pp.31-34, (2003).

サブテーマ3: アミノ酸数 56個の小タンパク質である Protein G において、まず、MUCAREMやREMUCAより利用が簡便な、レプリカ交換分子動力学法(REMD)によるシミュレーションプログラムを地球シミュレータ用にチューニングした。5月末の段階で、ほぼチューニングを終えて、ノード数増加の申請をして、大規模計算を実行する準備をしていたが、地球シミュレータを利用しても、思いの外計算時間がかかるために、急遽、より高速な分子シミュレーションプログラムへの差し替えをして、チューニングをやり直すことにした。このチューニングに手間取り、最近、やっと終了したところである(ベクトル化率96%、並列化率99.6%を達成)。これから、年度末に向けて、ノード数増加の申請とともに、大規模計算に挑戦したい。

サブテーマ4: 既に1.2.についてはある程度の成果が得られつつある。1.については NMR や X 線結晶解析で構造未知な領域についてもモデリングを行い、プリオンタンパク質単分子と複数の水分子で構成される系についてテスト的な実行を PC 上で行っている。地球シミュレータセンターに提出した当初計画にあるように、本年度は利用するプログラムのベクトル化・並列化率の向上を目指すと共に地球シミュレータならでは大規模系の構築を行ってきており、プログラムの効率化が進んできたことから 12 月 1 日よりプリオン単分子と複数の水分子で構成された系について初期速度を変えたジョブの実行を 10 通り実行する予定であり、 1 月末~ 3 月初旬までに複数のプリオンタンパク質による系を構築する予定である。系の構築を予定より早く行う事が出来れば、複数のプリオンタンパク質を用いた大規模計算を前倒しして行い、単分子の時とダイナミクスや分子内・分子間相互作用との違いなどを明らかにしていく。また、さらに効率向上を図るために、今年度内はジョブを実行しながらも、計画1.2.の作業を繰り返し行い、地球シミュレータにより最適なチューニングを行っていく。

サブテーマ5: 分子動力学シミュレーションにおいては長距離静電相互作用計算が最も計算負荷が高い。そこで PABIOSでは空間領域分割による並列化を意識して長距離静電相互作用計算には空間セルcutoffを用いた方法とParticle-Particle Particle-Mesh (PPPM)法を用いた2つの方法について並列化及びベクトル化チューニングを行った。平成15年12月現在、RuvA-Holliday分岐DNA複合体の系(原子数:166,177原子)において、空間セルcutoff法を用いたベンチマークテスト(10ノード使用)で並列化効率89.6%、ベクトル化率95.4%を達成し、またPPPM法を用いたベンチマークテスト(10ノード使用)でも並列化効率68.7%(10ノード)、ベクトル化率95.4%を達成した。これらの結果からPABIOS がRuvA-Holliday分岐DNA複合体のシミュレーションの実行性能を十分に引き出すことができることが示された。そして更なる大規模なRuvAB-Holliday分岐DNAの系(約200万原子)に対してもPABIOSが十分計算性能を出せる見通しを立てることができた。