図1 拡散ダイナミクスとして理解できるTransformerと本研究で提案した波動ダイナミクスに従うWavy Transformer。拡散ダイナミクスはインクが広がって最終的に均一になるのと同様に、空間的に均質化する効果があり、それがオーバースムージングとして現れる。一方で、波動は、形を保って空間的に伝わりスムージングが起きない。
Transformer
注意機構(Attention)に基づく深層学習モデルで、Attentionとは系列データに含まれる相互関係(例えば、単語間の関係など)を推定するよう設計される。具体的には、入力系列の各要素に対して、同じ入力系列内の他要素との関連度を数値化する。このAttentionによって、Transformerは、自然言語処理等において高い精度と大幅な計算効率を実現した。
オーバースムージング
深層化により特徴表現が均質化し、識別に必要な差異が失われる現象。例えば、ある文章中に含まれる単語の特徴表現が同一になってしまい区別できなくなる。
拡散
水に垂らしたインクがゆっくりと広がるように、物質が空間的に広がりそのコントラストが均質化されるダイナミクス。
波動
水面が波打つように、エネルギーを保ちながら振動し伝播するダイナミクス。
国立研究開発法人海洋研究開発機構(理事長 大和 裕幸)付加価値情報創生部門 数理科学・先端技術研究開発センターの野口 聖史研究員らは、現在AI技術で広く使われている深層学習モデルであるTransformerの層方向における内部表現のダイナミクスを、物理ダイナミクスの観点から再解釈し、Transformerを深層化する上で問題になる過度な平滑化(オーバースムージング)を拡散方程式に対応づけて説明する枠組みを提示しました。さらに、この解釈を元に、波動方程式に着想したエネルギー保存的ダイナミクスを設計原理として組み込み、表現の多様性を保ちやすい新しい注意機構及びそれを基礎とする新たなネットワーク「Wavy Transformer」を提案しました。
本研究は、「NeurIPS 2025」(The Thirty-Ninth Annual Conference on Neural Information Processing Systems)に採択されました。「NeurIPS」は毎年開催される機械学習分野で最も権威ある国際学会の一つです。本成果は、2025年12月2日から12月7日まで米国カリフォルニア州サンディエゴで開催される同国際会議において発表されます。
Wavy Transformer
近年、著しく発展している生成AIは、海洋・気象・防災などの科学的問題への応用が期待されていますが、信頼性や制度保証などの観点で、その動作原理の理解が不可欠です。現在広く使用されている生成AI技術の中心にあるのが「Transformer」です。Transformerは、ChatGPTをはじめとする大規模言語モデル(LLM)の基盤となる深層学習で、データの中で「どことどこが重要な関係にあるか」を見極めることで高い性能を発揮してきました。ところが、層を重ねた深いネットワークでは、特徴が平均化されて違いが埋もれてしまう「オーバースムージング」という現象が起こり、性能が著しく落ちることが知られていました。また、既に研究・実用レベルでのLLMなどの応用が議論されている一方で、Transformerがなぜ、ここまで様々な問題に機能するのか、その原理はまだ十分に理解されていませんでした。
本研究は、Transformerの内部表現が層を経るごとにどう変化するかを、水にじわじわ広がるインクのように、「情報が広がり均質化する拡散」として解釈できることを示しました。厳密には、Transformerの最も重要な機能要素であるAttentionの更新則が完全グラフにおける拡散方程式として理解できることを示し、そのオーバースムージングが、拡散現象のエネルギー散逸として解釈できることを示しました。これは、Transformerにおける表現の均質化(オーバースムージング)が、水に垂らしたインクがゆっくりと広がって均質な水溶液になる現象と同じダイナミクスとして記述できることを示しています。
また、その解釈に基づき、エネルギー保存的な波動方程式を基礎とするAttentionを備えた、Wavy Transformerを提案しました。波動現象では、拡散で見られるコントラストの均質化は起きず、波がその形状を保ちながら伝わっていきます。この物理的描像の違いを発想として、内部表現が多様性を保ちながら伝わっていくことを実現する目的で、Wavy Transformerを考案しました。さらに、Wavy Transformerの性能を、言語・画像・グラフデータの多様なベンチマークで検証した結果、計算コストや学習パラメータを増大させることなく、性能が向上することを示しました。
今後の展望として、Transformerの内部表現のダイナミクスを物理ダイナミクスの観点から理解することや、科学データの時空間構造に寄り添ったモデル設計及び、海洋・地球科学データの構造的理解に資する基盤整備に貢献すると期待されます。