生成AI進化のカギ -ワールドモデルとは(推論だけでは,AGIには到達できない)
先週、Chat-GPT4oの次のモデルである、OpenAIo1 Previewがリリース。ついに、学習から推論に力点を置く生成AIの変化が始まりました。
これは、生成AIの進歩における、ドラスティックな成長ともいえます。強いAI=汎用型人工知能に向かって着実なステップを歩み出したことを示す、大きな出来事でしたね。
「Voiceモード」登場で大騒ぎ
9月27日に、春にリリースがアナウンスされていた「Voiceモード」が、ついに登場して大騒ぎになっています。
僕も早速、昨日より、この「Advanced Voice Mode」を試しています。
レスポンスが早くてタイムラグがないのに加えて、感情表現が豊かで、しゃべっている最中に発言を遮ると、会話を止めて聞いてくれたりするなど、かなり人間と話している感覚に近い会話ができるようになりました。
試してみたところ
という感じで、改めて驚きました。
日本語については、英語より若干「人間っぽさ」において劣るのは否めません。しかしそれでも以前のChat-GPTに比べて、ずいぶん自然な会話ができるようになり、まさに人と話している感覚になります(笑)。
どうですか?会話が自然にできますよね。本当にすごいことです。
音声がヒトに近づいたことで、Chat-GPTの利用が音声に広がりましたね。
「強いAIへ」の道
この2週間で、OpenAIは、推論能力が高いモデルである「OpenAI o1-Preview」モデルのリリース、そして、人間のように話す「Advanced Voice Mode」と立て続けに2つの機能をリリースしました。
ヒトのように考え、ヒトのように話す、これでまた一歩、強いAIに近づいたわけです。
しかし、このVoiceモードと推論能力だけで、強いAI=AGIになるかというと、事はそう簡単でもありません。
生成AIは、世の中の色々なことを学習していますが、その情報とは、基本的には、ネット上で公開されているニュースや辞書などの情報です。
しかし、将来的に生成AIがヒトのように、物事を理解し、ふるまうためには、まだ大きな壁があります。
それには、僕たちが生きている世界の概念の理解が必要になる、ということです。
「世界の概念」?ええ、そうです。概念の理解です。
具体的にはワールドモデルと呼ばれている概念です。
言葉だけだと難しいですよね。このワールドモデルという考え方は大変面白いので、簡単に説明します。
ワールドモデルとは
Chat-GPTのような大規模言語モデル(LLM)は、与えられた文章の次の一語を正しく予想するようにトレーニングされているため、「もっともらしい文章」を回答するのは得意です。
しかし、LLMが、人間に匹敵する、もしくは人間を超える考えを持ち、将来t系にロボットに組み込まれて人間と同じような動きをするには、「リンゴは木から落ちる」といった、普遍的な概念理解が必要です。
こうした、人間が当たり前と思っている普遍的な概念、それが「ワールドモデル」です。
【事例】「ワールドモデル」とChat-GPT4o
たとえば、です。
「引く」と書いてあるドアを反対側(ドアの向こう側)から押すとどうなりますか?
当然ドアは開きますよね。
では、この質問を、Chat-GPT4oに聞いてみましょう。
うーん...Chat-GPTは、このドアは開かないと勘違いしていますね。
なぜでしょうか?
それは、生成AIは、我々の現実社会で起きている「事象」をすべて把握できていないからなのです。
【事例】「ワールドモデル」とOpenAI 01-Preview
ちなみに、推論能力の優れたOpenAI 01-Previewに聞いてみると、
と答えることができました。
これは、01-Previewがワールドモデルという概念を理解しているというより、ドアの構造を「推論」して答えがさせているからだと思います。
大規模言語モデル(LLM)は、与えられた文章の次の一語を正しく予想するようにトレーニングされていているだけですが、今回の01モデルの登場で、「推論」能力を身に着け始めました。
【事例】推論だけでは物事の概念に到達できない
しかし、物事の概念を推論だけで考えつくのは難しいのです。
例えば、30㎝球上の綿菓子の上に、直径30センチの石をのせたら、高さの合計はどうなるでしょうか?
当然、綿菓子は、石に押し潰されてしまいますよね。
でも、AIは綿菓子が柔らかく空気にように繊細で形が定まらないモノだという認識、すなわち、概念を理解していないのです。
そのため、「綿菓子の上に石を置くと高さは何センチ?」とChat-GPTに聞くと、推論により、綿菓子と石の高さ単純に足し算して、「60センチです」と間違った答えをしてしまいます。
このように、生成AIが今後、ヒトを超える能力を身に着けるには、知識と推論だけでは足りません。
「重いものは下に落ちる」など、人間が直感的に把握しているワールドモデルを 学んでいく必要があります。
【事例】中島聡さんの"World Models"より
このような一般的な僕たちの持っている「概念」の問題には、これ以外にも数多くあります。
Windows95開発者として著名な事業家である中島聡さんが、オープンソース"World Models"として公開されています。そちらから、面白い例をピックアップしてみましょう。
文章の文脈からだとそういう考え方もありますが、財布がどうなるか、といえば、渋谷の公園のベンチに放置していれば、誰かに盗まれますよね。
財布の状態に関心が向いてしまい、肝心で重要なことがAIには理解できないようです。
うーん。推論して考えるところはよくできていますね。
でも、AIには人間が400キロを短距離走のように全力疾走はできないという概念がわかっていないようです。東京から大阪まで走ると、アスリートでも、最低でも丸一日はかかるでしょうね。
これも、コップにビー玉を入れて逆さにした時点で、ビー玉はテーブルに落ちてしまいますよね。コップにビー玉はくっついてないので、コップだけレンジの中に移動し、ビー玉は、テーブルの上に残ります。
重力の影響という概念を中途半端に理解してるので、思考はできても、間違えるわけですね。
計算上はそうなんですけどね。浴槽から水がこぼれるという「概念」をAIは知らないようですね。
40Lの水をまず抜いて80Lの水を入れる、が正解です(笑)。
パターン学習を多くするかワールドモデルを理解するか
このように、AIが僕たちと同じように考えることができるようになるには、単なる知識や推論能力だけでなく、人間界の概念を理解する必要があります。
この概念を理解させるには
①概念の多くの事象をひたすら学習させる
②概念自体の定義を覚えさせる
の2通りです。
①をするとしたら、例えば、先ほどの綿菓子の上に石を置く例では、動画で綿菓子の上に石が乗ることにより綿菓子がつぶれる絵を何度も学習させることで、「綿菓子とはつぶれやすいものでる」ことが、経験的に理解できるようになります。
このように、とにかく概念事象の例を画像なり動画なりでひたすら学ばせるか、あるいは綿菓子とは、という概念を覚えさせるか、そのどちらかにより、ワールドモデルを理解させるしかありません。
今の生成AIは知識の学習と推論だけですが、僕たちと同等、それ以上の存在になる、すなわち強いAIになるためには、このワールドモデルを学習させていていく必要があるということをぜひ知っておいて頂ければと思います。