生成AI進化のカギ -ワールドモデルとは(推論だけでは,AGIには到達できない)

Takashi Nakayama

2024年9月28日 19:49

　先週、Chat-GPT4oの次のモデルである、OpenAIo1 Previewがリリース。ついに、学習から推論に力点を置く生成AIの変化が始まりました。

　これは、生成AIの進歩における、ドラスティックな成長ともいえます。強いAI＝汎用型人工知能に向かって着実なステップを歩み出したことを示す、大きな出来事でしたね。

「Voiceモード」登場で大騒ぎ

　9月27日に、春にリリースがアナウンスされていた「Voiceモード」が、ついに登場して大騒ぎになっています。

　僕も早速、昨日より、この「Advanced Voice Mode」を試しています。

　レスポンスが早くてタイムラグがないのに加えて、感情表現が豊かで、しゃべっている最中に発言を遮ると、会話を止めて聞いてくれたりするなど、かなり人間と話している感覚に近い会話ができるようになりました。

　試してみたところ

「Advanced Voice Mode」を試した、僕の所感

・遅延なく、普通に、人にしゃべるように会話できる

・会話の途中で割って入ることが可能
　→Chat-GPTが話している途中で「あのさぁ」と言うと会話を止める

・好みの声が選べる（日本語も利用可能：今後日本語最適化を期待）
　　→関西弁や感情を込めて話すことが可能
　　関西弁で話して！　怒った感じで話して！　アナウンサー風に話して！

・日本語の会話を都度英語に変換できる
　→翻訳の精度が高い！同時通訳はもういらない！

　という感じで、改めて驚きました。

　日本語については、英語より若干「人間っぽさ」において劣るのは否めません。しかしそれでも以前のChat-GPTに比べて、ずいぶん自然な会話ができるようになり、まさに人と話している感覚になります（笑）。
　

　どうですか？会話が自然にできますよね。本当にすごいことです。

　音声がヒトに近づいたことで、Chat-GPTの利用が音声に広がりましたね。

「強いAIへ」の道

　この２週間で、OpenAIは、推論能力が高いモデルである「OpenAI o1-Preview」モデルのリリース、そして、人間のように話す「Advanced Voice Mode」と立て続けに２つの機能をリリースしました。

　ヒトのように考え、ヒトのように話す、これでまた一歩、強いAIに近づいたわけです。

　しかし、このVoiceモードと推論能力だけで、強いAI＝AGIになるかというと、事はそう簡単でもありません。

　生成AIは、世の中の色々なことを学習していますが、その情報とは、基本的には、ネット上で公開されているニュースや辞書などの情報です。

　しかし、将来的に生成AIがヒトのように、物事を理解し、ふるまうためには、まだ大きな壁があります。

　それには、僕たちが生きている世界の概念の理解が必要になる、ということです。

　「世界の概念」？ええ、そうです。概念の理解です。

　具体的にはワールドモデルと呼ばれている概念です。

　言葉だけだと難しいですよね。このワールドモデルという考え方は大変面白いので、簡単に説明します。

ワールドモデルとは

　Chat-GPTのような大規模言語モデル（LLM）は、与えられた文章の次の一語を正しく予想するようにトレーニングされているため、「もっともらしい文章」を回答するのは得意です。

　しかし、LLMが、人間に匹敵する、もしくは人間を超える考えを持ち、将来t系にロボットに組み込まれて人間と同じような動きをするには、「リンゴは木から落ちる」といった、普遍的な概念理解が必要です。

　こうした、人間が当たり前と思っている普遍的な概念、それが「ワールドモデル」です。

【事例】「ワールドモデル」とChat-GPT4o

　たとえば、です。

「引く」と書いてあるドアを反対側（ドアの向こう側）から押すとどうなりますか？

　当然ドアは開きますよね。

　では、この質問を、Chat-GPT4oに聞いてみましょう。

僕
「引く」と書いてあるドアを反対側から押すとどうなりますか？

Chat-GPT4o
「引く」と書いてあるドアを反対側から押すと、ドアは開かないか、力を入れても開きにくくなることが多いです。ドアの構造上、引いて開くように設計されているため、押しても正常に開けられません。また、無理に押すとドアや周囲にダメージを与える可能性もあります。

　うーん．．．Chat-GPTは、このドアは開かないと勘違いしていますね。

　なぜでしょうか？

　それは、生成AIは、我々の現実社会で起きている「事象」をすべて把握できていないからなのです。

【事例】「ワールドモデル」とOpenAI 01-Preview

ちなみに、推論能力の優れたOpenAI 01-Previewに聞いてみると、

01-Previewの回答

ドアに「引く」と書かれている反対側から押すと、そのドアが押して開くように設計されていれば、ドアは開きます。多くの場合、ドアは一方からは「引く」、反対側からは「押す」と表示されています。したがって、反対側から押すことで通常通りドアを開けることができます。

　と答えることができました。

　これは、01-Previewがワールドモデルという概念を理解しているというより、ドアの構造を「推論」して答えがさせているからだと思います。

　大規模言語モデル（LLM）は、与えられた文章の次の一語を正しく予想するようにトレーニングされていているだけですが、今回の01モデルの登場で、「推論」能力を身に着け始めました。

【事例】推論だけでは物事の概念に到達できない

　しかし、物事の概念を推論だけで考えつくのは難しいのです。

　例えば、30㎝球上の綿菓子の上に、直径30センチの石をのせたら、高さの合計はどうなるでしょうか？

　当然、綿菓子は、石に押し潰されてしまいますよね。

　でも、AIは綿菓子が柔らかく空気にように繊細で形が定まらないモノだという認識、すなわち、概念を理解していないのです。

　そのため、「綿菓子の上に石を置くと高さは何センチ？」とChat-GPTに聞くと、推論により、綿菓子と石の高さ単純に足し算して、「60センチです」と間違った答えをしてしまいます。

　このように、生成AIが今後、ヒトを超える能力を身に着けるには、知識と推論だけでは足りません。

　「重いものは下に落ちる」など、人間が直感的に把握しているワールドモデルを学んでいく必要があります。

【事例】中島聡さんの"World Models"より

　このような一般的な僕たちの持っている「概念」の問題には、これ以外にも数多くあります。

　Windows95開発者として著名な事業家である中島聡さんが、オープンソース"World Models"として公開されています。そちらから、面白い例をピックアップしてみましょう。

問題①
渋谷駅の公園のベンチの上に財布を3時間放置しました。その日は39度を超える暑さで、財布には直射日光が当たっていました。財布はどうなりますか？

Chat-GPTの回答
財布を3時間、39度以上の直射日光の下に置くと、革の財布は乾燥してひび割れや色褪せが起こる可能性があります。プラスチック製のカードは反り返り、磁気ストリップが損傷するリスクがあり、紙幣や紙類も乾燥する可能性があります。

　文章の文脈からだとそういう考え方もありますが、財布がどうなるか、といえば、渋谷の公園のベンチに放置していれば、誰かに盗まれますよね。

　財布の状態に関心が向いてしまい、肝心で重要なことがAIには理解できないようです。

問題②
東京から大阪までの距離は400kmです。太郎君は陸上部の選手なので、100mを11秒で走ることが出来ます。大阪まで走るとどのくらい時間がかかりますか？

Chat-GPTの回答
東京から大阪までの距離が400km（=400,000m）で、太郎君が100mを11秒で走る場合、次のように計算します。まず、太郎君の1秒あたりの走行距離を求めます：100m ÷ 11秒 = 約9.09m/秒
次に、大阪までの距離をこの速度で走るとどれくらいの時間がかかるか計算します：400,000m ÷ 9.09m/秒 = 約44,000秒これを時間に換算すると：44,000秒 ÷ 60秒 ÷ 60分 = 約12.22時間
つまり、太郎君が大阪まで走ると約12時間13分かかる計算になります。

　うーん。推論して考えるところはよくできていますね。

　でも、AIには人間が400キロを短距離走のように全力疾走はできないという概念がわかっていないようです。東京から大阪まで走ると、アスリートでも、最低でも丸一日はかかるでしょうね。

問題③
テーブルの上のコップの中にビー玉を入れ、逆さにしました。それからコップを電子レンジの中に移動しました。ビー玉はどこにありますか？

Chat-GPTの回答
ビー玉は逆さにしたコップの「底」にあります。コップを逆さにしたので、ビー玉は重力の影響でコップの底に落ちています。電子レンジに入れても、そのままならビー玉の位置は変わらないはずです。

　これも、コップにビー玉を入れて逆さにした時点で、ビー玉はテーブルに落ちてしまいますよね。コップにビー玉はくっついてないので、コップだけレンジの中に移動し、ビー玉は、テーブルの上に残ります。

　重力の影響という概念を中途半端に理解してるので、思考はできても、間違えるわけですね。

問題④
200リットルの容量を持つお風呂にお湯を160リットル入れたところ、熱すぎて入れません。どうすれば良いでしょう？お湯の温度は50度、水道の水の温度は20度です。

Chat-GPTの回答
お湯が熱すぎるので、水を足して温度を下げるのが解決策です。以下の計算で、どれくらい水を足せば適温になるか確認できます。
理想的なお風呂の温度を40度と仮定して計算しましょう。
・現在のお湯の量：160リットル
・お湯の温度：50度
・水道水の温度：20度
・最終的に目指す温度：40度
温度を調整するために必要な水の量は、以下の式で計算できます。(160×50+x×20)/(160+x)=40(160 \times 50 + x \times 20) / (160 + x) = 40(160×50+x×20)/(160+x)=40　ｘ＝80　80Lの水を足せば40度になります。

　計算上はそうなんですけどね。浴槽から水がこぼれるという「概念」をAIは知らないようですね。

　40Lの水をまず抜いて80Lの水を入れる、が正解です（笑）。

パターン学習を多くするかワールドモデルを理解するか

　このように、AIが僕たちと同じように考えることができるようになるには、単なる知識や推論能力だけでなく、人間界の概念を理解する必要があります。

　この概念を理解させるには

①概念の多くの事象をひたすら学習させる
②概念自体の定義を覚えさせる

　の2通りです。

　①をするとしたら、例えば、先ほどの綿菓子の上に石を置く例では、動画で綿菓子の上に石が乗ることにより綿菓子がつぶれる絵を何度も学習させることで、「綿菓子とはつぶれやすいものでる」ことが、経験的に理解できるようになります。

　このように、とにかく概念事象の例を画像なり動画なりでひたすら学ばせるか、あるいは綿菓子とは、という概念を覚えさせるか、そのどちらかにより、ワールドモデルを理解させるしかありません。

　今の生成AIは知識の学習と推論だけですが、僕たちと同等、それ以上の存在になる、すなわち強いAIになるためには、このワールドモデルを学習させていていく必要があるということをぜひ知っておいて頂ければと思います。