見出し画像

AIが沈黙を破る:OpenAIの『次なる12日間』、Genie 2、そして注意の言葉

7,365 文字

AIに関する面白いニュースがここ数週間あまりなかったことにお気づきでしょうか。3日ごとに大きなAIニュースを発表しているアカウントからすれば意外かもしれませんが、私も実際そう感じていました。AGIに一歩ずつ近づく中での課題について、新しい論文をいくつか取り上げた「冬眠期」に関する動画も用意していたんですが、今夜いくつかの発表があり、その動画は待つことになりました。ミニAI冬の時代と呼ぶべきもの(実際にはちょっとした寒波程度ですが)が終わりを迎えようとしているのかもしれません。
これらの発表について説明した後で、AIテック界の大物が何と言おうと、用心を怠らないようにすべきという証拠をお見せしましょう。
まず、サム・アルトマンとOpenAIから発表されたのは何かというと、12日間のリリースです。それだけしか教えてくれませんが、私たちは点と点を結びつけ、報道を組み合わせることで、これから何が起こるのかを少し知ることができます。
この12日間で間違いなく登場するのが、ようやく実現するSoraです。もうSoraのことを忘れてしまった方のために説明すると、OpenAIのテキストから動画を生成するジェネレーターです。今年2月に初めて公開され、ほぼ1年が経過していますが、これらのデモ動画は今でもテキスト動画モデルの中で最高のものだと私は考えています。
約1週間前、不満を持つアーティストたちによってSoraのバージョンがリークされ、そのおかげで一部の人々がこれらのクリップを生成することができました。明らかに最先端のものもありますが、それほど印象的でないものもあります。非公式な情報によると、Soraにはターボモードがあるようで、要するに出力の生成が早くなる代わりに品質が低下するモデルということです。
幻覚(ハルシネーション)についてはまた後で触れますが、この12日間で他に何が来るのでしょうか?非常に可能性が高いのは、01と呼ばれる彼らの最も賢いモデルです。エイリアスで書いている彼らの従業員の一人は「OpenAIが信じられないほど戻ってきた」と述べ、誰かが「完全な01を公開してください」と尋ねると「その通り」と答えました。
最近昇進したOpenAIの研究上級副社長、マーク・チェンは「知る人ぞ知る」と書きました。01プレビューと比較して、単に01と呼ばれる完全版は、少なくとも数学とコーディングの面で最も賢いモデルになりそうです。ただし、これは自動的にあなたの選ぶモデルになるということではありません。実際、いくつかの分野では現在利用可能な01プレビューをわずかに下回る性能を示しています。
私にとって疑問が一つ残ります。それは、残りの10日間を彼らはどうやって埋めるのかということです。彼らの主要な研究者の一人によると、ゴールポストが動く前に出荷しなければならないとのことです。ChatGPTが週間アクティブユーザー2億人を突破してからわずか3ヶ月で3億人を超えた今、彼らが出荷するものを多くの人々が使用する可能性があることは誰も否定できません。
もちろん、私たちはSoraのようなものを待つ必要はありません。この動画の最後でお見せする、今日使える素晴らしい無料ツールがいくつかあります。
しかし、今日最大のニュースは実はOpenAIからではなく、Google DeepMindからのGenie 2の発表でした。簡単に言えば、まだ使用することはできませんが、どんな画像でもプレイ可能な世界に変えることができるモデルです。
今夜のGenie 2の発表には、少し皮肉なところがあります。背景として、私はこのチャンネルでGenie 1を取り上げ、その将来の可能性について話しました。Genie 1が生み出すことができるプレイ可能な世界は、まずまずでしたが、解像度が低く制限もありました。ただし、論文から、計算リソースを追加することで優雅にスケールできるアーキテクチャであることに注目しました。
それが皮肉なわけではありません。皮肉なのは、数日前に私がこのGenie 2プロジェクトを管理・調整した人物、ティム・ロクタシェルにインタビューしたことです。これは私のAIインサイダープラットフォームであるPatreonでリリースされたポッドキャストのためのものでした。
もちろん、Genie 2の発表、デモ動画、そして彼らが次に何が来ると言っているかについて説明しますが、私がティム・ロクタシェルに直接Genie 2について尋ねたことを指摘せずにはいられません。
「論文では確か27億のパラメータで上限に達していましたよね。言えないかもしれませんが、きっとGenie 2は2700億パラメータとか、そういうものを作っているんじゃないですか?より多くのデータで。論文でも、いつか YouTubeのすべてのようなインターネットデータの大規模なスケールで訓練する可能性について触れていましたよね。そういったことに取り組んでいたり、お話しできることはありますか?」
「それは興味深い質問ですね。基本的にGenie公開後のここ数ヶ月で起こったことを見ればわかります。例えば数週間前に出たThe Oasisの研究がありますね。そこでは人々が基本的にMinecraftをシミュレートする新しいネットワークを学習させました。その前にはDoomをシミュレートする新しいネットワークを学習させる論文がありました。その分野は間違いなく活発化していて、私は興味深いと思っています。おそらくある時点で、これらのシミュレーター、つまり学習したシミュレーターが十分に速く、豊かになれば、それらを使って敵対的にAGIを探索したり、新しい能力を教えたりすることもできるでしょう。」
ちなみに、私が彼にインタビューしたのは、彼が新刊『AI:知っておくべき10のこと』の著者だからです。
しかし、Genie 2とは実際何なのか、そしてそれは何が来ることを示唆しているのでしょうか?DeepMindはこれを「基礎世界モデル」と呼んでいます。本質的に、単一の画像を与えると、Genie 2はそれをインタラクティブな世界に変換します。その世界は元の画像ほど高解像度ではないかもしれませんが、キーボード操作でその世界をコントロールし、ジャンプ、飛行、スキップ、水泳などができます。
これは、キャラクターが別の現実の夢を見て、その世界とインタラクトできるようなゲーム内の夢シーケンスに使われるかもしれません。あるいは将来的には、ウェブサイトが静止画や繰り返し再生される動画の代わりに、ゲームのようにプレイできるインタラクティブな環境を背景に持つようになるかもしれません。
ただし、いくつかの注意点を手短に述べておきましょう。これらの世界、つまり生成されたものは平均して10~20秒、最大で1分程度しか持続しません。次に、そう見えるかもしれませんが、これらのサンプル動画は実際にはリアルタイムではありません。現状では、リアルタイムのインタラクションを望むなら、品質の低下を受け入れなければなりません。そして正直なところ、これらの出力はそもそもあまり高解像度ではなかったので、AAA級のゲームに取って代わるようなものではないということです。
次に、出力は何の説明もなく、かなり急速におかしくなることがあります。例えば、この例ではゴーストが理由もなく現れ、この例では男性がスノーボードで始まったのに、すぐにコースを走ることを選択します。Googleが書いているように「キャラクターはスノーボードよりもパルクールを好む」ということです。
ちなみに、最初のプロンプトは現実世界の画像でも構いませんし、それはもちろんとてもクールです。レイトレーシングとまでは言えませんが、ある程度光をモデル化することができ、重力もモデル化できると言っています。しかし、左の馬のジャンプを見てください。物理的な精度が特に高いとは言えないでしょう。
ただし、この部分は私にとってより印象的でした。Genie 2は視界から消えた世界の一部を記憶し、それが再び観察可能になったときに正確にレンダリングする能力があるのです。キャラクターが何かから目をそらし、また戻ってきたときを見てください。最初に見たときとほぼ同じように見えます。
興味深いことに、まだ論文は公開されていませんが、発表ページでは、これが重要である理由として異なる角度を押し出していました。彼らは、一般的な身体化エージェント(つまりロボットを制御するAI)を訓練する場合、十分に豊かで多様な訓練環境の利用可能性がボトルネックになると述べました。
例として、Genie 2を使ってこのインタラクティブな世界を作成し、AIエージェントに赤いドアを開けるように指示した例を挙げています。このチャンネルで以前取り上げたSEMAエージェントは、確かに赤いドアを開けることができました。
しかし、私個人としては、ここにアスタリスクを付けたいと思います。なぜなら、これはAIが生成した、あまり現実的ではない世界で訓練されたAIエージェントだからです。この種のシミュレーションと私たちの豊かで複雑な現実との間には大きな隔たりがあるため、このアプローチが信頼できるエージェントにつながるとは完全には確信できません。
もちろん、Google DeepMindは私の考えが間違っていることを証明するかもしれません。彼らは、Genie 2が身体化エージェントを安全に訓練する構造的問題を解決し、AGIに向けて進むために必要な広さと一般性を達成する道だと信じていると言います。
もちろん、創造的だが特に信頼性のないAIの幻覚を取り除く方法があれば、私の異議は消えるでしょう。しかし、NVIDIAのCEOも最近認めたように、それは「数年先」のことです。彼の解決策は、予想通り「もっとGPUを買うこと」です。
幻覚や信頼性の問題は単なるマイナーなバグで、すぐに解決するという人もいるかもしれません。ジェンセン・ファンが解決策はまだ数年先だと言っているのが何が問題なのでしょうか?
私は、多くの人々(AIラボのリーダーを含む)が幻覚の問題を大幅に過小評価していたと考えています。2023年6月にこのチャンネルで取り上げたように、サム・アルトマンは「1年半から2年後には幻覚について話すことはなくなるだろう」と述べました。1年半後は今日のようなもので、私たちは幻覚について話しています。さらに上限の2025年半ばでさえ、ムスタファ・スレイマンが言及したように、LLMの幻覚が2025年までに大幅に排除されるという主張を今では誰も保証しないでしょう。
つまり、これらのモデルがデータの創造的な補間、創造的な世界を生成することを素晴らしいものにしている、まさにその特性が、物理学のような分野で信頼性を欠く原因となっているのです。Soraのようなフロンティア生成モデルでさえ、10分かけて出力を生成しても、物理的に意味をなさないものを生成することを覚えておいてください。
これは最近の論文と関連しています。この動画用に分析しようとしていた論文では、数学や物理学においておそらく、Transformerアーキテクチャに基づく大規模言語モデルは堅牢なアルゴリズムを学習せず、ヒューリスティックの集まり、つまり経験則に依存しているということです。言い換えれば、単一の首尾一貫した世界モデルを学習するのではなく、より単純なルールとパターンの集合を展開しているのです。だからこそ、例えばGenie 2やSoraで、一見もっともらしい連続性を持つものの、よく見ると意味をなさないものが生成されるのです。
Soraや Genie 2が崖から落ちる車とその結果生じる物理現象を生成する場合を想像してみてください。訓練データによってニュートンの物理法則が刷り込まれ、非常に正確な結果が得られることを期待するかもしれません。しかし、実際にはそのような計算を行うための計算帯域を持っていません。
代わりに、こんな感じです。モデルが226から68を引くように指示されたとき、彼らは150から180の間のような感覚、つまり「雰囲気」を掴みます。これは、著者たちが研究したヒューリスティックスやルールの一つです。これらの雰囲気やヒューリスティックスを十分に組み合わせると、ほとんどの場合かなり正確な答えが得られ始めます。
彼らが学ぶ各ヒューリスティックは、正しい答えの論理をわずかに向上させるだけですが、組み合わさると高い確率で(ただし、必ずしも信頼性を持って)正しい答えを生成します。実際、彼らの結果は、LMの数学的能力を向上させるには、訓練とアーキテクチャの根本的な変更が必要かもしれないことを示唆しています。
私もそれは分かります。先ほど、01モデルが非常に難しい数学コンペで83%を獲得したことを示す動画をお見せしましたが、これらのモデルのどれも何かで100%を取ることはないことにお気づきかもしれません。例えば、PhD級の物理学の問題の93%を解けるのに、なぜAP物理では81%しか取れないのでしょうか?これは、次の12日間に登場すると予想される同じ01モデルです。
私はほとんど自制できません。後日取り上げると言った2つの論文について説明し始めています。しかし、もう一つの論文についても少し触れたいと思います。
とんでもなく圧縮したTL;DRは、モデルが個々の答えを暗記するのではなく、手順を学習することを示しているということです。彼らがそれを示す方法は非常に複雑で、ある程度の近似に依存しています。例えば、これらの500トークンを削除した場合、モデルのパラメータにどのような影響を与え、したがって正解を得る可能性にどのような影響を与えるかを推定します。
つまり、モデルが特定のタイプの質問に対してどのような種類のソースに依存しているかを判断できます。再び、著者たちが示しているのは、モデルが特定の推論の質問に対する答えを暗記しているのではないということです。例えば、「括弧内の7-4」×7という質問をされたとき、答えが21だというソースを探しているのではなく、その質問に答えるために必要な種類の手順を与える複数のソースに依存しているのです。
しかし、これらのモデルが世界モデルと真の推論を発展させることに関して非常に有望に見えますが、彼らは重要な注意点を付け加えています。彼らは、モデルが事前訓練データから一種類の推論を学び、それを別の似たような種類の推論に一般化するという証拠は見つけていません。
それは、例えば月の物理学をシミュレートすることにかなり長けたモデルが、火星の物理学のシミュレートを求められた時にその知識を適用できないようなものだと考えることができます。分布内一般化対分布外一般化というわけです。
とにかく、私は間違いなく長くなりすぎました。現実世界に戻りましょう。そして、あのかわいい亀とその動かし方をお見せする前に、今日使える別の現実世界のツールをご紹介します。
これはAssembly AIのUniversal 2音声からテキストへのモデルで、ここでその性能をご覧いただけます。ご存知の方も多いと思いますが、私はAssembly AIに連絡を取り、彼らは親切にもこの動画のスポンサーになってくれました。私は自分のプロジェクトの文字起こしに彼らのモデルを使用しており、Universal 1だけでなく、他の競合モデルとの比較もご覧いただけます。
そうすることで学んだことの一つは、単語誤り率だけに焦点を当てないということです。固有名詞や英数字でモデルがどのように機能するかを考えてください。少なくとも私にとって、それがUniversalファミリーを際立たせているものです。
この動画を締めくくるにあたって、Simple Benchのアップデートについて気になっている方のために、まず新しいGemini実験モデルについて説明しましょう。これらはレート制限があります。私は近いうちに何か別のものに早期アクセスできるかもしれませんが、今のところSimple Benchで完全に実行することはできません。Deep Seek R1についてはどうでしょうか?これも今日の時点ではAPIを通じて利用できません。
では、最近かなり注目を集めているアリババのQWQモデルについてはどうでしょうか?正直なところ、AIでは何もかもが誇大宣伝されるのが新しいことではありません。もちろん、私は中国から出てくるすべてのモデルをフォローし、できる限りテストしています。また、DeepSeekの創設者とのインタビューも読みました。それは別の動画で取り上げるかもしれませんが、今のところQWQをSimple Benchで実行することができ、残念ながらClaude 3.5 Hauを下回るスコアだったため、リストには表示されません。
驚いた表情のサムネイルを作ってAGIが到来したと言えなくて申し訳ありませんが、これが私たちが得た結果です。約11%でした。
もう一つのツールを非常に手短にお見せしましょう。今日無料で使えるものです。実はこれは中国から出てきた別のモデルであるClling 1.5です。ある意味で、Genie 2のようなインタラクティブ性の前触れと言えるかもしれません。
登録は無料で、少なくとも5回のプロフェッショナル生成が可能です。左側をクリックして画像をアップロードします。私はこれをイデオグラムで生成しました。そして、モーションブラシに進み、自動セグメンテーションを選択して亀を選び出し、トラッキングのために右向きの矢印を描きました。
もちろん、プロフェッショナルモードに進みます。私には試用が2回しか残っていませんが、生成すると、このようなすごくかわいい生成物を作ることができます。
皆さんが最も興味深いと感じたことは何であれ、ご視聴ありがとうございました。素晴らしい1日をお過ごしください。

いいなと思ったら応援しよう!