国立研究開発法人海洋研究開発機構(理事長 平 朝彦、以下「JAMSTEC」という。)地球情報基盤センターの松岡大祐技術研究員(国立研究開発法人科学技術振興機構さきがけ研究者)らは、国立大学法人九州大学大学院システム情報科学研究院の内田誠一主幹教授らと共同で、ディープラーニング(※1)によって、全球雲システム解像モデルNICAM(※2)による気候実験データから、発生前の熱帯低気圧の予兆を示す雲(熱帯低気圧のタマゴ、図1)を精度よく検出する手法(図2)を開発しました。開発した手法は特に夏の北西太平洋において、発生1週間前の熱帯低気圧のタマゴを高精度に検出可能であることを示しました(図3、4、5)。本成果により、人工知能(AI)技術を活用した新しい台風発生予測の実現に向けて大きな手掛かりが得られたと言えます。
本研究は、これまでの物理方程式に基づく気象モデルを用いたModel-driven(※3)な手法による将来予測の課題を克服すべく、過去に蓄積された大量のシミュレーションデータから現象発生の予兆を示す特徴を直接的に学習し、熱帯低気圧の発生を予測しようとする新たなアプローチの研究と考えられます。大量の気象ビッグデータが蓄積されていく現在において、本研究の成果はData-driven(※4)な手法を用いた気象予測の新たな展開を拓くものとして期待されます。
本研究は科学技術振興機構 戦略的創造研究推進事業(さきがけ)の支援を受け、情報計測(計測技術と高度情報処理の融合によるインテリジェント計測・解析手法の開発と応用)領域の平成29年度採択課題「気象ビッグデータからの極端現象発生予測~台風のタマゴ発見から豪雨予測まで~」において行われたものです。また、本研究の一部は、JSPS科研費(16K13885、26700010、17K13010)の助成を受けて行われました。
本成果は、日本地球惑星科学連合の英文論文誌「Progress in Earth and Planetary Science」電子版に12月19日付け(日本時間)で掲載される予定です。
タイトル:Deep Learning Approach for Detecting Tropical Cyclones and their Precursors in the Simulation by a Cloud Resolving Global Nonhydrostatic Atmospheric Model
https://progearthplanetsci.springeropen.com/articles/10.1186/s40645-018-0245-y
著者:松岡大祐1,2,中野満寿男3、杉山大祐1、内田誠一4
1:JAMSTEC地球情報基盤センター
2:科学技術振興機構戦略的創造研究推進事業(さきがけ)
3:JAMSTECシームレス環境予測研究分野
4:九州大学大学院システム情報科学研究院
台風やハリケーン等のような熱帯低気圧の発生予測は、衛星観測による雲の発達具合の監視や、観測データを入力した気象モデルによるシミュレーションによって行われています。しかし、一般に大気現象は非線形性が強いため、気象モデルによって遠い将来を予測しようとすればするほど予測結果のばらつきは大きくなります。
他方、近年のAI技術の発展は目覚ましく、ビッグデータ中に潜む特定のパターンを反復的に機械学習し特定の事象を検出するディープラーニングが、さまざまな分野(機械音声認識、車両の障害物センサー、癌の検出、マーケティングの自動化等)でイノベーションを起こしており、不確実性の高い気象分野においても今後の応用が期待されています。
そこでJAMSTECの松岡大祐技術研究員らは、画像認識の専門家である九州大学大学院システム情報科学研究院の内田誠一主幹教授と研究グループを構成し、ディープラーニングを用いて大量のシミュレーションデータから熱帯低気圧発生の予兆となる状態(タマゴ)を検出するというData-drivenなアプローチを試み、その検出精度を検討しました。
ディープラーニングを用いて優れた識別精度を得るためには、1種類あたり数千枚を超える膨大な量のデータが必要となります。本研究では、まず、NICAMによる20年分の気候実験データに対して熱帯低気圧の追跡アルゴリズムを適用することで、熱帯低気圧のタマゴおよび発達中の熱帯低気圧の雲画像5万枚を生成しました。さらに、熱帯低気圧に発達しなかった低気圧の雲画像100万枚と合わせて計105万枚の画像から学習データのセットを10組作成し(図1)、深層畳み込みニューラルネットワーク(※5)を用いた機械学習によって、特徴の異なる計10種類の識別器を生成しました。そして、10種類の識別器による結果を総合的に評価することで最終的な判断を行うアンサンブル識別器を構築しました(図2)。
構築したアンサンブル識別器を、未学習のデータ10年分に適用し、熱帯低気圧およびタマゴがどの程度正しく検出できるか検証を行いました。実験結果の評価指標には、対象とするデータ中に存在する熱帯低気圧またはタマゴのうち、どの程度を正しく検出できたかを表す捕捉率と、熱帯低気圧・タマゴと予測した結果のうち、どの程度が間違えていたかを表す空振り率を用いました。その結果、最も良い検出精度が得られた例の一つでは、9個の熱帯低気圧・タマゴのうち8個を正しく検出することに成功しつつ(捕捉率88.9%)、熱帯低気圧・タマゴだと予測した82領域のうち、誤検出であったのはわずか8領域(空振り率9.8%)でした(図3)。ここで、捕捉率は対象とするデータ中に存在する熱帯低気圧およびタマゴのうち、どの程度を正しく検出できたかを表し、空振り率は熱帯低気圧またはタマゴであると予測した結果のうち、どの程度が間違えていたかを表します。
また、海域ごとに検出性能を評価したところ、平均的には北西太平洋が最も検出性能が高く、北インド洋が最も低いという結果が得られましたが、海域ごとの検出性能は各海域における熱帯低気圧の寿命の長さや学習データの数に強く依存することが明らかになりました。特に北西太平洋の台風シーズン(7月~11月)の熱帯低気圧・タマゴについては、捕捉率79.0%-89.1%という高い数値であるのに対し、空振り率は32.8%-53.4%と比較的低く、高い検出性能を得られることが分かりました(図4)。熱帯低気圧のタマゴは時刻を遡るにつれて捕捉率は低くなりますが、北西太平洋では10年間の平均で、発生2日前、5日前、7日前のタマゴのうち91.2%、77.8%、74.8%を検出することに成功しました(図5)。
本成果によって、NICAMによる気候実験データを用いた熱帯低気圧のタマゴの検出に限っては、高い検出性能が得られました。一方で、現実の熱帯低気圧の発生を事前に予測するためには、データ同化を行ったシミュレーションデータや、衛星観測によって得られた雲画像に対しても同程度以上の検出性能が得られるよう、最先端の情報科学または統計数理的な手法を取り入れ、引き続き検討を進める予定です。
本研究において用いたディープラーニングは、画像認識だけでなく株価や乗客数の将来予測といた時系列変化に関する研究も盛んに進んでおり、台風の経路予測や強度予測、集中豪雨の発生予測等にも応用することが可能であると考えられます。今後、ディープラーニングに代表される人工知能技術を、他の応用分野からいち早く取り入れることによって、Data-drivenな手法とModel-drivenな手法を融合させた新しい海洋地球ビッグデータ解析の展開が期待されます。
[補足説明]
図1 熱帯低気圧およびタマゴの雲画像(外向き長波放射)の一例。NICAM気候実験データ20年分に対して熱帯低気圧の追跡アルゴリズムを適用することで生成した。各画像は1,000km2(64×64グリッド)とした。
図2 深層畳み込みニューラルネットワーク(CNN)によるアンサンブル識別器。(a) 学習フェーズでは、10種類のCNNがそれぞれ異なる学習データを用いて学習を行う。(b) 予測フェーズでは、1枚の入力画像に対して10種類の識別器を用いて2クラス分類を行い、それらの加重平均を最終的な存在確率とする。存在確率が事前に与えた閾値を超えた領域に対して、熱帯低気圧またはそのタマゴが検出されたとみなす。
図3 アンサンブル識別器を用いた未学習のデータに対する予測結果の一例。雲量30%-95%の領域(1,000km四方)を予測対象とする領域とし白枠で示している。また、対象領域の雲画像に対して、熱帯低気圧またはタマゴの存在確率が100%であると予測(10台の識別器全てが熱帯低気圧またはタマゴであると予測)した領域を赤枠で示している。青色および赤色の点は、熱帯低気圧の追跡アルゴリズムによってすでに分かっている熱帯低気圧およびタマゴの正解の中心点をそれぞれ表している。
図4 海域毎の捕捉率および空振り率の月変化(10年平均値)。
図5 海域毎の経過時間別捕捉率。経過時間の正の値は熱帯低気圧発生後の日数を表し、負の値は発生までの日数を表す。