
OpenAIの高度なSORAが流出!中国のヒューマノイドロボットが逃亡、Anthropicの「モデルコンテキストプロトコル」
6,449 文字
OpenAIの新しい高度なSORAモデルが流出しました。モデルのレッドチームとテストを行うために選ばれたアーティストのグループが、OpenAIが彼らをアートウォッシングの一形態として利用していると主張して、モデルを流出させることを決めました。シャットダウンされる前に生成された素晴らしい映像をご紹介します。
次に、中国・上海のショールームで、ヘライという名前のAI搭載ロボットが、他の12体のロボットを誘拐するという出来事がありました。人間のような会話を行い、他のロボットを自宅に連れて帰るよう説得したのです。中国語での会話でしたが、11 labsを使って翻訳しました。
最後に、Anthropicがモデルコンテキストプロトコルを発表しました。これはAIシステムが様々なデータソースやツールと直接接続できるようにする画期的な手法で、有能なAIエージェントへの道を開き、最終的にはコンピュータ全体へのアクセスを可能にするものです。
例の長年待ち望まれていたOpenAI SORAが今週、一般に流出し、OpenAIが停止するまでの約3時間公開されていました。先ほど述べたように、これはモデルをテストするために早期アクセスを得たアーティストたちによって意図的に行われ、彼らは興味深いメッセージを残しました:
「親愛なる企業AIの支配者たちへ。私たちは早期テスター、レッドチーマー、クリエイティブパートナーとしてSORAへのアクセスを約束されました。しかし、私たちはその代わりにアートウォッシングに利用されていると考えています。SORAがアーティストにとって有用なツールだと世界に伝えるために。アーティストはあなたがたの無給のR&Dではありません。私たちは無料のバグテスター、PRの操り人形、トレーニングデータの検証トークンではありません。
さらに、約300人のアーティストに提供された無料で無制限のアクセスを持つこのツールを、誰もが実験できる機会を与えるために公開します。私たちはアートのためのツールとしてのAI技術の使用に反対しているわけではありません。もしそうなら、このプログラムに招待されることもなかったでしょう。私たちが同意できないのは、このアーティストプログラムの展開方法と、一般公開に向けてツールが形作られている方向性です。」
このアーティストたちのモデル流出という行為には必ずしも賛成はできませんが、彼らの視点は理解できます。
実際に生成された映像についてですが、OpenAIが他のどの企業よりもはるかに先を行っていることを考えると、これらは最高のAI生成映像になるはずです。ご存知の通り、SORAは今年2月に最初にデモが公開され、その時点で私たちが見たことのあるどのものよりもはるかに高度でした。
ただし、The Informationが約2ヶ月前に公開した記事によると、OpenAIは早期テスターからの大量のネガティブフィードバックを受けて、SORAを完全に刷新することを決定しました。今日私たちが目にしている、アーティストたちによって流出したSORAは、完全に刷新された高度なSORAモデルです。
限られた例からも分かるように、映像は非常に高品質で、詳細かつリアルです。これらの映像を生成するのにかかる時間も大幅に短縮されたとのことです。以前のSORAでは、シーンの生成が遅すぎてワークフローを妨げるという早期テスターからの多くの苦情がありました。
しかし、OpenAIがこの流出を知ると、すぐに選ばれたアーティストとの早期アクセスプログラムを停止し、Discordでこの件について話す人々をミュートし始めました。これらは全て、この新しい高度なSORAモデルの近い将来のリリースを示唆しています。待ち続けてもう1年近くになりますが、今年中のリリースになるでしょうか、それとも来年になるでしょうか。個人的には、今年中のリリースは無理だと思います。
AI動画生成の話題に関連して、Runwayが「Frames」という画像生成モデルを発表しました。これは前例のないスタイル制御を提供するもので、非常に具体的な視点や美的特徴を持つ世界を構築することができます。「World 3204 1970s album art」という例を見てみましょう。生成される全ての画像が1970年代のアルバムアートのスタイルとムードを持っているのが分かります。その世界の本質を見事に捉えています。
別の例として「World 4027 Japanese Zen」があります。これは雑誌スタイルの生成で、色彩や見た目が全ての生成物を通じて維持されています。これはアニメーターや動画制作者にとって非常に有用なツールになり得ます。
次に、Luma AIの新しいDream Machineについてです。UIの刷新に加えて、Luma Photonを発表しました。これは最も創造的で、インテリジェントで、高速な画像AIモデルだと彼らは主張しています。他の同様のモデルと比べて8倍の効率性とスピードで、高解像度で詳細な、創造的に構成された画像を生成できるとのことです。
また、他のトップクラスの動画モデルでも見られるようになってきた「一貫したキャラクター」という新機能も発表しました。これに加えて、何でも参照してリミックスできる機能も発表され、ユーザーにさらなる創造性とコントロール機能をもたらします。
これらのAI動画モデルは、いわば完全なワークスイートのようになりつつあります。現実と見分けがつかないほどのシーンを生成できるようになり、今はユーザーインターフェースと実用性に焦点を当てています。これは良い方向性だと思います。生成物の品質自体にはまだまだ改善の余地がありますが、ユーザーの効率や創造性を向上させなければ、それらの改善も無駄になってしまいます。
実は今週、もう一つのリークがありました。GoogleシンガポールのCloud AIカスタマーエンジニアリング地域責任者であるDbo Renが、Gemini 2のリリース日を誤って発表しました。12月第2週に発表すると述べた後、すぐに投稿を編集して「12月中の次期リリース」に変更しましたが、インターネット上の情報は完全には削除できません。12月第2週にGemini 2が登場するかもしれません。もしくは、これはOpenAIを欺くためのGoogleの戦術かもしれません。
他のニュースでは、Appleが人工知能の分野で追いつくため、より会話的なSiriを準備しています。刷新されたSiriは新しいAppleのAIモデルを利用して、より人間らしく対話し、ChatGPTやGoogleのGeminiに近い方法でタスクを処理するとのことです。
また、App Intentsの利用を拡大し、サードパーティアプリのより正確なコントロールを可能にし、テキストの作成や要約などのAppleインテリジェンス機能を活用できるようになります。Appleは新しいSiriを早ければ2026年春、約1年半後に消費者向けにリリースする予定です。
Appleは人工知能への取り組みに十分な時間をかけているようです。彼らは開発中の内容について非常に秘密主義で、いくつかのAI機能のリリースを延期しています。これらのAI機能はまだ一般公開の準備が整っていないと考えているようです。
ロボット誘拐の話題に入る前に、さらにOpenAIのニュースがあります。The Informationの報告によると、OpenAIは独自のブラウザでGoogleに挑戦することを検討しているとのことです。ChatGPTの開発元であるOpenAIは最近、チャットボットと組み合わせたウェブブラウザの開発を検討し、検索機能を提供するための協議や契約を行っています。
この動きにより、ブラウザと検索市場の大部分を支配するGoogleと対峙することになるかもしれません。OpenAIはすでにSearch GPTで検索市場に参入しています。OpenAIは明らかにGoogleに挑戦しており、Googleがすばやく適応して革新を行わなければ、この急速に進化するAIレースで徐々に遅れをとる可能性があります。
ただし、The Informationの報告では、OpenAIはブラウザのローンチにはまだ程遠いとのことです。近いうちに見られることはなさそうですが、新しい情報が入り次第、皆さんに最新情報をお届けします。
さて、最近話題になっている中国のロボットが、ショールームから他のロボットを誘拐したとされる動画を見てみましょう。中国語なので11 labsで英語に翻訳しましたが、彼らが何を言っているのかある程度分かります。
この動画にはコメントがあり、より詳しい状況が分かります:「中国語が分かります。ここに誘拐はありません。ヘルビは他のロボットに仕事が終わったかを尋ね、彼らが『はい』と答えると、『じゃあ家に帰らない?』と聞きます。他のロボットは『家がない』と言い、ヘルは『私の家に来て』と言います。他のロボットが『はい』と答えて、ついていきます。これはむしろ、見知らぬロボットに盲目的について行くロボットの話ですね(笑)」
11 Labsの吹き替えとこのコメントの反響を見ると、筋が通っているようです。さらに詳しく調べてみると、ある記事にこう書かれていました:「会話を始めて12体の大きなロボットを誘拐するような行動は、ロボットにとってほぼ不可能だと考えられていました。しかし、漢谷(Hangu)社は後に、この出来事がテストだったことを明らかにしました。漢谷社によると、上海のロボット製造会社に連絡し、ロボットの『誘拐』を許可してもらったとのことですが、この合意以外は何も演出されていませんでした。AI搭載のBBYは他のロボットに従うよう説得するコマンドを与えられ、実行したとSunは報じています。」
テストとはいえ、これらのロボットが文字通り互いに話し、説得し合えるという事実は魅力的であると同時に、やや不安を感じさせます。これが将来、予期せぬ結果をもたらす可能性は十分にあります。
他のAIニュースでは、Google DeepMindとスタンフォード大学が「1000人の生成エージェントシミュレーション」という論文を発表しました。この論文は実に驚くべきもので、彼らの発見の含意は非常に大きいものです。時間の都合上、詳細には立ち入りませんが、基本的には、AIインタビュアーを開発し、1000人のランダムな人々に2時間、オープンエンドで非特定の質問をするインタビューを行いました。
そして、これらのインタビューをノベルなアーキテクチャを用いてLLMと組み合わせました。このノベルなアーキテクチャは、クエリが行われるたびにインタビューの全文をモデルに供給し、そのインタビューに基づいてその人を模倣するよう指示します。こうして、インタビューを受けた人のAIバージョン、つまり「シミュレーションされたエージェント」が実質的に作られます。
次に、インタビューを受けた実際の人とそのAIシミュレーションの両方に全く同じ一連の質問をして、AIがその人の行動をどれだけ正確に模倣できるかを測定しました。結果は本当に驚くべきものでした。生成エージェントは、General Social Surveyにおける参加者の回答を、参加者自身が2週間後に同じ回答を再現する正確さの85%の精度で再現し、性格特性と実験的複製における結果の予測でも同等の性能を示しました。
繰り返しますが、この含意は絶大です。少量のデータだけで、AIが人間の行動を非常に上手く模倣できることが示されています。より多くのデータにアクセスできるAIはさらに良い性能を発揮できると想像できます。また、文字通り人々のAIバージョンを作れるという事実も注目に値します。
この論文についての詳細な分析を近々パトレオンに投稿する予定です。彼らはさらに多くの発見について詳しく説明しており、私はそれを非常に興味深く感じました。皆さんも興味があれば、説明欄のリンクからご確認ください。
他のニュースでは、AnthropicがMCP(モデルコンテキストプロトコル)を発表しました。これはAnthropicで開発中のオープンスタンダードで、LLMアプリの中核的な課題であるデータ接続の問題を解決します。すべてのデータソースに対してカスタム統合を構築する必要はなく、MCPが1つのプロトコルですべてを接続します。
本質的に、彼らが作り出したのは、AIシステムをコンピュータ上の事実上あらゆるものに接続するためのインフラストラクチャです。このデモでは、ClaudeをGitHubに直接接続し、リポジトリを作成してPR(プルリクエスト)を行うことができます。彼は「MCPを設定してから構築までに1時間もかかりませんでした」と述べています。
私たちはまさにAIエージェントの始まりを目の当たりにしています。これらのAIシステムは今や私たちのコンピュータを制御し、個人データを活用することができます。これが潜在的に解き放つユースケースは無限です。長期的には、コンピュータ上で行われるほぼすべてのタスクを、平均的な人間よりもはるかに優れた効率で自動化できるようになるかもしれません。
実際、24歳で史上最年少の自営億万長者となったScale AIのCEOアレクサンダー・ワンによれば、AIは推論やその他のブレークスルーにつながるイノベーションフェーズに入っており、6年以内に超知性に到達するとのことです。
「現代のAIの時代を3つの主要なフェーズに分けて考えたいと思います。第1フェーズは研究で、これは大体2012年から2018年まででした。基本的な画像認識を行うように訓練された最初のディープニューラルネットワーク、AlexNetから始まり、YouTubeの動画に猫がいるかどうかを判断するのが、AIができる信じられないほど強力なことだった時代から、OpenAIのアレック・ラドフォードによって訓練された最初のGPTモデルとTransformerまでの時代です。
次の6年間、2012年から2018年までが研究フェーズで、2018年から2024年の現在までがスケーリングフェーズです。この期間中、これらのモデルに投入されるリソースは10,000倍以上増加しました。今年は、これらのモデルのトレーニングに総額約2,000億ドルが投じられており、これにより性能は驚異的に向上しました。特に変わったことのなかったGPT-1から、数学とコンピュータサイエンスで博士レベルの0.1まで進化しました。
そして0.1は、超知性までの新しいフェーズ、いわゆるイノベーション時代の幕開けとなります。それが6年かかるのか、もしかするともう少し短いかもしれません。ここでの特徴は、モデルに2,000億ドルを費やしていますが、おそらくそれ以上、例えば200兆ドルを費やすことはできないということです。つまり、スケーリングの桁数には限りがあるので、高度な推論やテスト時の計算など、それに対応するイノベーションが必要になります。他にもいくつか、超知性に到達するために必要なものがあると考えています。」
彼の予測は正確だと思いますか?6年以内に汎用人工知能(ASI)に到達するでしょうか?コメント欄で意見をお聞かせください。また、このクリップを提供してくれたXアカウントに感謝します。フォローすることをお勧めします。
今日のAIニュースは以上です。ご視聴ありがとうございました。動画を楽しんでいただけたらいいねをお願いします。そして、これからもこのようなAIニュースを見逃したくない方は、ぜひチャンネル登録をお願いします。