様々な環境に生息する微生物コミュニティーのゲノムを網羅的に解析するメタゲノム解析は、ここ10数年の間に単なる16S rRNA遺伝子に基づく種の多様性解析から機能的多様性解析に大きくシフトしました。また、近年の目覚ましいゲノム・メタゲノム配列解析技術の向上により、微生物を分離・培養することなく優占種のゲノムを完全解読できるようになりました。
このような背景から、ゲノムやメタゲノム配列から微生物の生き様や環境中における微生物機能の推定が次の研究ステップの重要な鍵を握ることになります。このステップに大きく貢献するため、JAMSTECはゲノム・メタゲノム配列から微生物(群)が有する機能ポテンシャルを評価することが可能なGenomapleシステムを開発しました[1]。
Genomapleシステムは、2018年9月からJAMSTECのDAシステムに搭載したものを一般公開し、2021年のセキュリティインシデントによる公開中断までの2年半の運用で、46カ国から約400名のユーザーによって月平均200件の利用実績がありました。
今般、多くの研究者から支持されているGenomapleを、地球シミュレータ(ES4)へ移植し、更なる活用を促すシンGenomapleプロジェクトを、付加価値情報創生部門の数理科学・先端技術研究開発センター 計算科学・工学グループにて2021年の晩秋から開始し2023年7月10日に移植を完了し再公開いたしました。
プロジェクトでは、マルチアーキテクチャシステムである地球シミュレータ(ES4)の特性を活かし、GPUを活用することでデータ処理を高速化し、同時処理データ数も増加させる取り組みを行いました。具体的には、DAシステムと比較して約2倍の高速化を実現し、これまで300万配列が限度だった処理データ数も1000万配列まで増加しました。また、シンGenomapleでは二要素認証システムなどを導入し、セキュリティーを大幅に強化しました。これにより、ES4の高速演算性能をWeb経由で容易に活用することが可能になりました。さらに、システムに投入された各クエリー配列がどのような代謝・生物機能に関与するのかを、より分かりやすく整理し、ユーザーがそれらの関連データファイルをダウンロードできるようにしました。また計算結果の表示を改良し、ユーザーのデータ解析環境を大幅に向上させました。さらに、既知の不具合についても各種修正しました。
メタゲノム解析を主要な解析手法とした論文が年々増加していることから、今後もGenomapleシステムが様々な研究に貢献することが期待されます。Genomapleシステムの開発に際して、解析原理と解析システムの自動化、解析例とシステムの高速化に関する3論文[2–4]を発表しており、これらの論文はGoogle Scholarで約170回と数多く引用されています。
機能が向上したシンGenomapleシステムの再開により、バイオサイエンスにおいて、このような付加価値情報創生システムを活用した学術成果の創出がますます促進されると期待されます。
最後に、本プロジェクトの遂行は、付加価値情報創生部門 数理科学・先端技術研究開発センター 計算科学・工学グループの石渡氏、髙見氏、山岸氏の多大なる貢献があってこそ成し遂げられたものであり、また同部門 地球情報科学技術センター 計算機システム技術運用グループの中川氏をはじめ、関係者皆様には多大なるご協力頂きました。ここに感謝の意を表します。
[1] https://www.jamstec.go.jp/j/about/press_release/20180926/
[2] W. Arai et al. (2018) MAPLE 2.3.0: An improved system for evaluating the functionomes of genomes and metagenomes. Biosci. Biotech. Biochem. 82 (9) 1515-1517 (改良)
[3] H. Takami et al. (2016) An automated system for evaluation of the potential functionome: MAPLE version 2.1.0. DNA Res. 23, 467-475 (システム自動化と解析例)
[4] H. Takami et al. (2012) Evaluation method for potential functionome harbored in genome and metagenome. BMC Genomics 13, 699 (解析原理)