はじめに
みなさん、こんにちは!
今日は、AIの世界がどのように進化しているかについて、わくわくするようなお話をしましょう。
話題が尽きないLLM界隈ですが、LLMの次なるキーワードが出てきました。
その名も「LWM(LargeWorldModel)」です。
LLMがLargeLanguageModelでしたが、今度はLargeWorldModelです。
違いは「Language」が「World」になっています。
言語モデルではなく、この世界がモデルということですね。
みなさんがよく知る大規模言語モデル(LLM)から始まり、今「大規模世界モデル(LWM)」という、革新的な新しい領域へと進んでいます。
これは、AIの未来にとって大きなパラダイムシフトとなるかもしれません!
私たちは、これまでの言語情報に基づくモデルから、画像、音声、そして最終的には私たちの物理的な世界とデジタルの体験を融合させる、全く新しいタイプのAIへと進む道のりをたどります。
LWMとは?
日本語訳
つまり言語では限界があるので、動画も含めて学習しているようです。
マルチモーダルであればGPT-4Vでも実現できていますが、このLWMは長時間のYoutube動画でも正確に答えることができます。
LWMは動画を生成することも可能です。
テキスト-To-動画はいろんなサービスがありますが、LWMのモデル単体で実現できます。
このあたりはGPT-4Vでも同じようなことはできますので、あまり新しい話ではなさそうです。
このあたりがLWMの特徴でGPT-4V、Gemini Proより良い精度で回答が得られています。
現状のLLM
GPT-3 や GPT-4 などの LLM は、革命をもたらしました。
膨大な量のテキスト データを処理することで、これらのモデルは人間のようなテキストを理解して生成することができたのです。
しかし、学習が言語であるため、世界の理解をテキストからの情報だけになります。
次のフェーズではマルチモーダル入力によりAIは画像や音声も理解できるようになり、人間のやりとりをさらに理解できるようになりました。
そしてLLMからLWM(大規模世界モデル)へ
LWM は、言語情報、音声、画像を超えて、私たちの物理的現実とデジタル現実の全領域を含む、AI の未来を示しています。
つまり、マルチモーダルのように言語情報、音声、画像だけでなく、物理世界をデジタルで理解できるようになり、対話できるようになります。
LWM は、IoT デバイス、センサー、カメラなどのさまざまなソースからの実世界データを処理し、人間の知覚や認識を反映する方法で世界を理解し、対話します。
大規模な世界モデル(LWM)の力で、デジタルとリアルの境界線がぼやけ始めています。
想像してみてください、VR(仮想現実)やAR(拡張現実)デバイスからのデータが、私たちの日常にどんどん溶け込んでいく世界を。
スマートフォンやテレビ、PCモニターといったお馴染みの画面を超えて、私たちは今、よりリアルで没入感あふれる体験の時代に突入しています。
この素晴らしい変化は、ただ楽しいだけではありません。
実は、これによってAIが私たちの行動や環境を、以前にも増して深く理解できるようになります。
つまり、私たちが生活する世界が、AIにとってより読みやすく、感じやすい「本」となるわけです。
これは、ユーザー体験の向上はもちろん、私たちとテクノロジーの関係をより豊かで意味のあるものにしてくれるでしょう。
まとめ
まだまだ論文レベルのようで、LWMというキーワードの実装や事例は見当たらないですが、マルチモーダル化は自然な流れなので、気が付けばLLMからLWMに呼び方が変わっているかもしれないですね。
ただ、この世界の概念を丸ごと学習して、よりAIが現実世界を理解できるようになる動きはLWMに限らず進化していくと思いますので、これからが楽しみです。
今回、文章の書き方はChatGPTに手伝ってもらいました。
いつも文章が単調になってしまうのですが、いつもの文章をChatGPTが少し書き換えるだけで魅力的な文章になるので面白いですね。
自分は文章苦手なので今後も手伝ってもらおうと思います。
参考