【松尾研世界モデル講座】第1講「世界モデル概論」を受講して

やぶれん

2024年9月28日 12:00

機械学習・深層学習、そしてそれらを包含したAIの話題が絶えない昨今、AIの知能に驚かされている人も多いであろう。

しかし、今のAIは「知能」と言えるのだろうか？

人間と同じレベルの思考力を持っているのだろうか？

世界モデル - イントロダクション -

答えはNoである。

人間の認知の3段階

ジューディア・パール著の「因果推論の科学」によると、認知は以下の3段階がある。

1.関係がわかる

いわゆる統計学の「相関関係」にあたる。アイスが売れる日にはよくビールが売れる、など。

2.介入がわかる

現実の変数を操作した場合に、何が起こるか推察できる。バファリンを飲めば頭痛が治る、など。

3.反事実がわかる

起こっていない事象を推察できる。バファリンを飲んでいなかったら何が起きていたのか、など。

このステップにおいて、1番目の関係がわかる、というのはAI、ひいては機械学習が非常に得意なところまで来ている。

ただ、XXが起きたらYYが起きる、XXが変化した原因はYYだったのではないか、などの未来を予測したり原因を推論したりする能力は、まだAIにはない。

ただ、人間を助けるレベルの知能にAIを引き上げ、同時にその過程で人間の知能を探究していくためには以下のように定義される「世界モデル」が必要である。

エージェントを取り巻く環境等のモデルを、環境からの観測に基づき学習によって獲得する枠組み．

講義資料より

ヘルツホルムの無意識的推論

ヘルムホルツ（Helmholtz）は19世紀ドイツを代表する科学者であり、熱力学の法則で有名な一方、知覚心理学の基礎を作った人物でもあるらしい。優秀すぎる。

錯視の見え方が民族間で異なったりするように、目の前にある「外界の刺激」と「最終的な知覚」の間には何かしら処理過程があり、推論に近いことを無意識的に行っているのではないか。というのがヘルツホルムの無意識的推論のざっくりとした説明である。

では、推論するための「モデル」はどのように獲得されるのだろうか。外界からの刺激に対して、脳内での「外界モデル」を学習によって獲得していると考えられる。

機械学習でいうところの「自己教師あり学習」を行っている。

Mastering Diverse Domains through World Models

これまでの強化学習では特定の環境・タスクに特化したモデルが多く、異なるドメインで使用する際にはチューニングが必要になってしまうという課題があった。

この論文では「DreamerV3」という150以上の異なるタスクに対して汎用的に活用できるモデルを提案している。

DreamerV3のアーキテクチャは下図のように2段階に分かれている。

1. World Model Learning（下図左）

Dreamerは、環境から得た観測データを「エンコーダー」を使って内部表現に変換し、過去の行動を基に未来の状態を「シーケンスモデル」で予測。その後、予測された内部表現を「デコーダー」で元の観測データに再構築する。このプロセスで、モデルが観測データの本質的な情報を正確に捉えているか確認しながら学習を進めていく。

2. Actor-Critic Learning（下図右）

次に、エージェントは「Actor」がワールドモデルの予測に基づいて最適な行動を選択。この行動がどれだけ良かったかを「Critic」が評価し、その結果を報酬としてフィードバックする。このフィードバックを受けて、エージェントはさらに良い行動を学習していく。

出典：2024 Hafner et. al.
「Mastering Diverse Domains through World Models」

世界モデルの3種類

現在の世界モデル研究は「観測予測」「状態予測」を軸として以下の3つに大別できる。

状態空間モデル
- 目的: 観測予測と状態予測の両方を学習することを目的としています。
- 特徴: 観測データ（例えば画像やセンサー情報）から状態を推測し、将来の観測やタスクを予測できるような表現を学習します。
- 例: Dreamerなどの深層生成モデルが使われ、観測と状態の両方を扱います。
観測予測モデル
- 目的: 観測データ（例えば画像のピクセルレベルの情報）を予測することに特化したモデルです。
- 特徴: 観測データから直接的に将来の観測情報を予測しますが、状態の表現は明示的に行いません。
- 例: Transformerを使った自己回帰モデルや、Soraなどの動画生成AIが含まれます。
状態予測モデル
- 目的: 画像などの観測データから「状態」を推測し、その状態を基に将来の状態を予測します。観測データ自体の予測は行わず、状態に焦点を当てます。
- 特徴: 状態表現を明確にして、予測しやすいタスクに役立つ表現を学習します。
- 例: LeCunが提案するJEPAなどがあり、TD-MPCと呼ばれる手法で報酬予測も行います。

状態空間モデルと世界モデル

観測予測と状態予測の両方を学習することを目的としています

再掲：状態空間モデル

ヘルツホルツマシン

冒頭に紹介したヘルツホルムの無意識推論を元に、推論モデルと生成モデルを同時にWake-sleepアルゴリズムにて学習したヘルツホルムマシンがこの領域の発端と言われているらしい。

VAE（Variational Autoencoder）

ヘルツホルムマシンの弱点として、Wake-sleepアルゴリズムでは最適化する目的関数が異なるため、学習効率が非常に悪いという課題があった。

VAEではエビデンス下界（ELBO）と呼ばれる一貫した目的関数を用いて生成モデルと推論モデルを同時に最適化することでWake-sleepアルゴリズムの欠点を解決し、効率的で安定した学習が可能になった。

World Models

ワールドモデルと呼ばれる環境の空間的および時間的な圧縮表現を無監督で学習し、そのワールドモデルから生成された「夢の中」でエージェントが訓練され、そのポリシーを実環境に戻して使用することが可能であることを示した論文。

以下の3つの要素が重要である。

Vision Model (V)：高次元の観測データを低次元のコードに圧縮
Memory RNN (M)：過去のコードから未来の状態を予測
Controller (C)：VとMから良い行動を選択する

下図のように、世界モデルの状態hと現実の状態z の両方がCの入力となっている。

RSSMとDreamerの発展

以下の図のように、状態空間モデルの遷移部分にRNNによる決定論的な遷移モデルを組み込んだ。

RSSMの構造
出典：2018 Doerr, et. al.
「Probabilistic Recurrent State-Space Models」

RSSMによる世界モデル上で強化学習するDreamerというアーキテクチャが2020年に発表され、近年改良が加えられている。

観測予測モデルと世界モデル

観測データ（例えば画像のピクセルレベルの情報）を予測することに特化したモデルです。

再掲：観測予測モデル

Transformer

Self-AttentionやPositional Encodingなどにより、こ
れまでRNNでは難しかった、遠くの文脈の理解や大規模化を可能に。

わかりやすい解説記事がネットに溢れているので、ここでは有名すぎる「Attiontion is All You Need（2017, Goole）」を引用するにとどめておく。

拡散モデル

Soraをはじめとする動画生成AIで一躍有名になった「拡散モデル」であるが、その躍進の裏にはTransfomerがある。

従来のU-Netではスケーラビリティに限界があるとされていたが、Transfomerを使用することでスケーラブルなモデル、つまりモデルの規模が大きくなるほど、生成される画像の品質が向上するDiffusion Transformersが提案された。

モデルの大規模化による生成画像品質向上にスケール則があり、モデルの計算量（GFlops）が増えるにつれて生成画像の品質が向上することを示した。（下図参照）

出典：2023 Peebles, Xie
「Scalable Diffusion Models with Transformers」

Diffusion Transformersは画像生成モデルだが、画像分類にTransformerが活用されていたという背景がある。これまでCNNが主に使用されていた画像認識タスクにTransformerを応用したVision Transformerのアーキテクチャを下記に示す。

出典：2021 Dosovitskiy et.al.
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

状態予測モデルと世界モデル

画像などの観測データから「状態」を推測し、その状態を基に将来の状態を予測します。観測データ自体の予測は行わず、状態に焦点を当てます。

再掲：状態予測モデル

ここは正直よくわからなかったので、第11回の詳細の解説を楽しみにしておこうと思う。

TD-MPC

対照学習

Joint Embedding Predictive Architectures（JEPA）

まとめ

人間の思考には2種類あるが、これまでの機械学習では片方の一部しか実現されていなかった。

ダニエルカーネマン著「ファスト&スロー」で述べられているように、早く直感的な思考「システム1」と遅く論理的な思考「システム2」が互いに補完し合いながら、人は意思決定を行っている。

言い換えるとシステム1は「なんとなくの直感」であり、システム2は「明確なルールに則った思考」である。

これまでの機械学習はシステム2しかなし得なかった、だが深層学習の発展によりシステム1が可能になるかもしれない。世界モデルを構築し、システム1とシステム2をどちらも使いこなせるようになれば、さらに人間の知能に近づける。

そのために世界モデルをいかに人間のように構築するか、は非常に重要な命題である、ということが理解できた。

＜それぞれのジャンルの記事まとめ（マガジン）＞

読んでいただきありがとうございます！ハートをポチっとしていただけると執筆の励みになります✌️