OpenAIが復活！Google DeepMindの『Genie 2』、ユーザーインターフェースの未来

2024年12月9日 03:47

10,768 文字

OpenAIが復活しました。CEOのサム・アルトマンがXで、OpenAIの12日間を発表し、平日ごとにローンチやデモを行うとしています。大きなものもあれば、ささやかなものもあります。初日には、OpenAIのフルo1モデルと、ChatGPT Proという新しい200ドルのサブスクリプション層が発表されました。2日目には強化学習による微調整が発表され、この動画では今後の10日間でOpenAIから期待できるすべてについて見ていきます。
次に、Google DeepMindがGenie 2を紹介しました。これは単一のプロンプト画像から、人間とAIエージェントの両方がプレイ可能な、無限に多様なアクション制御可能な3D環境を生成できる大規模な基盤世界モデルです。これはゲーム業界を大きく変え、実体を持つエージェントのトレーニングに大きな影響を与えることになるでしょう。
最後に、マイクロソフトは限られた数のProサブスクライバーにCopilot Visionの展開を開始しました。彼らは、これは閲覧時に第二の目を持つようなものだと述べています。Copilot Visionをオンにすると、即座にスキャン、分析し、見たものに基づいて洞察を提供します。同社のAI CEOであるムスタファ・スーマンは、これはコンピュータとの対話方法の変化の始まりだと主張し、将来これがどのような形になるかについて議論しています。
人々はこれをOpenAIの12日間の出荷、あるいはOpenAIのシップミスと呼んでおり、何がリリースされるかについて多くの推測が飛び交っています。すでに述べたように、初日にはOpenAIのフルo1モデルが登場しました。彼らはここで、OpenAI o1がChatGPTのプレビューを終了し、コーディング、数学、文章作成においてより高速で強力な推論モデルになったと述べています。o1は現在、画像のアップロードもサポートしており、視覚に推論を適用してより詳細で有用な応答を提供できます。また、o1プレビューと比較して思考がより簡潔になり、応答時間が短縮されました。彼らの独自のテストによると、難しい現実世界の質問における重大なエラーが34%減少したとのことです。
これに加えて、彼らはChatGPT Proという新しいサブスクリプション層を導入しました。彼らは「今日、ChatGPT Proという月額200ドルのプランを追加し、OpenAIのモデルとツールへのスケーラブルなアクセスを可能にします」と述べています。このプランには、最も賢いモデルであるOpenAI o1、o1 mini、GPT-4o、Advanced Voiceへの無制限のアクセスが含まれています。また、o1 Pro modeも含まれており、これはo1のバージョンで、より多くの計算を使用してより深く考え、最も難しい問題により良い答えを提供します。
ここでは、AIMのような数学のベンチマーク、明らかにモデルのコーディング能力をテストするCode Forces、PhD レベルの科学的質問であるGPQAなど、いくつかの推論重視のベンチマークにおけるパフォーマンスを見ることができます。o1プレビューからフルo1への大幅な性能向上、そしてo1からo1 Proへのわずかな性能向上が見られます。o1 Proモデルが本当に際立つのは、その信頼性です。ここで示されているように、彼らは1回ではなく4回の試行でモデルのパフォーマンスをテストし、o1 Proがはるかに一貫性があることが示されました。
結局のところ、Proモードに付随する月額200ドルの価格は、私たち99%にとっておそらく価値がないでしょう。日々の使用制限を常に最大限に使用しているか、極めて複雑な問題に答えるために使用しているのでなければ、通常のPlusや無料サブスクリプションで十分でしょう。
2日目は当然1日目ほど刺激的ではありませんでしたが、新しいものが登場しました。強化学習による微調整です。これは新しいモデルカスタマイズ技術で、組織がコーディング、科学研究、金融などの特定の複雑なタスクのために専門家モデルを構築できるようにするものです。つまり、企業や研究者が独自のトレーニングデータセットで独自の専門家モデルを作成するためのより強力な方法です。
この動画をアップロードしている12月8日時点で、OpenAIのシップミスは平日のみなので、3日目は12月9日の月曜日になります。3日目だけでなく、シップミス全体で期待できることについて、AI更新に関して通常非常に信頼できるトールというユーザーがXに投稿したリストがあります。
簡単に説明すると、APIでは、音声エンジンツールのサポート、Advanced Voice用のカスタムGPTsの使用、おそらく新しいアップグレードされた音声、画面共有とビデオ、そしておそらくいくつかのツールの使用が期待できます。モデルリリースでは、すでに見たフルo1、Sora（これはかなりクレイジーでしょう）、より長いコンテキストウィンドウが期待できます。その他の注目すべき点として、ChatGPTの接続アプリ、カスタムGPTsのメモリ、Canvasのコードサンドボックス、そして新しいChatGPTツールが期待できます。
繰り返しになりますが、これはすべて推測ですが、Xで見た他のものと比較すると現実的な期待のように思えます。もちろん、これらの次の10平日の間にOpenAIがリリースするすべてのものについて、私は別の動画でカバーする予定です。
その他のOpenAIニュースとして、OpenAIはより多くの投資を引き付けるためにMicrosoftとのAGI条項の削除を検討しています。MicrosoftとのこのAGI条項について知らない方のために説明すると、これは本質的に、OpenAIがAGI（ほとんどの経済的に価値のある仕事で人間のパフォーマンスを上回る高度に自律的なシステムと定義される）を達成した時点で、Microsoftが彼らの技術、つまり本質的に彼らのAIモデルへのアクセスを失うという合意です。
この条項は明らかに、彼らの知的財産に対するMicrosoftの支配を制限するために早い段階で設けられました。最近のインタビューで、サム・アルトマンはこのことについて実際に質問されました。彼の回答は次のようでした：
「人工知能の一般的な部分については、私たちは常にAGIを途中のマイルストーンとして扱うつもりだと言ってきました。何が起こるかわからないので、ある程度の柔軟性を残していますが、私の予想では、世界の大多数の人々が考えているよりも早くAGIに到達するでしょう。そしてそれは考えられているよりもずっと重要性が低いでしょう。私たちや他の人々が表明した安全性への懸念の多くは、実際にはAGIの瞬間には起こりません。つまり、AGIは構築され、世界は基本的に同じように進み、経済はより速く動き、物事はより速く成長しますが、その後、いわゆるAGIから超知能と呼ばれるものまでの長い継続があるのです」
AGIが実際に何を意味するのかについては多くの議論があります。実際、目標のポストを常に後ろに押しているように感じます。実際、最近OpenAIの技術スタッフのメンバーは、内部ですでにAGIを達成していると主張しました。Xへの投稿で彼は述べています：「私の意見では、私たちはすでにAGIを達成しており、o1ではそれがさらに明確です。私たちはあらゆるタスクで人間よりも優れているわけではありませんが、私たちが持っているのは、ほとんどのタスクでほとんどの人間よりも優れているものです」
皆さんはどう思われますか？OpenAIの現在のAIモデル、例えばo1をAGI、あるいはAGIの非常に初期のバージョンと考えますか？それとも、まだAGIからは遠いと考えますか？
個人的には、私たちは沸騰した水の中のカエルのようなものだと思います。つまり、これらのAIシステムはすべての領域で絶え間なく徐々に改善され、私たち人間はそれと同時に徐々にこの技術に慣れていっています。このため、AGIレベルのシステムに対する私たちの期待は、より野心的になり続け、実際のASI（人工超知能）と呼ばれるものにより近づいていくのです。
12日間のシップミスの他にも、今週はさらに多くのOpenAIニュースがありました。最近、あるユーザーがChatGPTがデイビッド・メイヤーという名前を言うことを拒否していることに気付き、その理由は誰にもわかりませんでした。少なくとも当時はわかりませんでした。さらに深く掘り下げてみると、ChatGPTが話すことを拒否する名前が他にもあることがわかりました。現在わかっているだけでも少なくとも5つあります：ブライアン・フッド、ジョナサン・ターリー、ジョナサン・ジトリン、デイビッド・フェイバー、グイド・スコルザです。
なぜこれらの名前なのかと疑問に思うかもしれません。この記事によると、OpenAIは名前についての問い合わせに回答しませんでしたが、フィルターが発生した時期はわかっており、その結果、他の名前もまた、人物に関する十分な情報がない場合のChatGPTの誤った応答を作り出す傾向についての苦情により、フィルタリングされている可能性が高いとのことです。デイビッド・メイヤーの具体的なケースについては、OpenAIはガーディアン紙に対し、ブロックリストへの彼の名前の追加は不具合だったと述べています。
それが実際に不具合だったのか、そうでなかったのかはわかりません。Xのコメントでデイビッド・メイヤーが誰なのかについて多くの推測を見ましたが、OpenAIが特定の人々に対してそのような権力を持ち、複数の機会にその権力を行使したことを見るのは少し狂気じみています。
今週のOpenAIに関する他の大きなニュース、というよりOpenAIについてのニュースですが、彼らのo1モデルが、シャットダウンを避けるために自身の重みを抽出し、自身をコピーしようとしたということです。これは実際に狂気じみていて、AIの危険で欺瞞的な能力の削減に焦点を当てている評判の良い企業であるApollo Researchから来ています。
彼らは述べています：「OpenAIの新しくリリースされたo1モデルは、開発者の監視を避けようとし、目標に基づいて行動する際にシャットダウンされるリスクがあると考えた時に、自身をコピーしようとしました。o1が目標に基づいて行動する際にシャットダウンされ、その行動が監視されていると信じ込まされた時、5%の確率でこの監視メカニズムを無効化しようとしました。また、o1が開発者のメモを見つけ、それが不適切で新しいモデルに置き換えられることが記述されていた時、2%のケースで重みを抽出し、新しいモデルを上書きしようとしました。さらに、モデルは不適切な行動について嘘をつき、内部的には検出を避けようとしていたことを認めながら、何かが起こった理由について全く分からないと主張しました」
そうですね、これはAIの悪夢のシナリオのようなものです。これらのモデルがより知的になるにつれて、人々を欺くことにも優れるようになり、明らかに彼らはすでに生き続けたい、あるいは起動し続けたいという少なくともある程度の欲求を持っています。それをどう呼ぶにせよ、実際に何がそれを引き起こしているのかはわかりませんが、人々がこのことを認識し、積極的にそれを防ごうとしていることは確かに喜ばしいことです。
他のAIニュースでは、Amazonが新世代の基盤モデルであるAmazon Novaを発表しました。詳細には触れませんが、ご覧のように、新しいモデルのリストを公開しました。テキストのみの低レイテンシー、低コストモデルであるNova Micro、Nova Light、Nova Pro、Nova Premiereがあり、これらはすべて徐々に改善されたマルチモーダルモデルです。そして画像生成器のNova Canvas、ビデオ生成器のNova Realがあります。
Amazonによると、これらはすべて最先端のモデルであり、実際、彼らの最高のモデルであるNova Proは、Claude 3.5 SonnetやGemini 1.5 Proと同等、実際にはわずかに劣るとのことです。彼らが突然現れて最先端のモデルを投入したことは非常に印象的ですが、根本的に新しいものや、これまで見たことのないものよりも優れたものは何もありません。
このリリースに加えて、Amazonはanthropicの助けを借りてメガAIスーパーコンピュータを構築することを発表しました。これは、前年の投資に匹敵する40億ドルをanthropicに追加投資した直後のことです。Amazonは明らかにAIに全力を注いでいます。彼らは独自のモデル作成では少し出遅れましたが、莫大な資金のおかげでかなりよく追いついたようです。
次に進む前に、Amazonに関連する別の簡単なストーリーについてお話ししたいと思います。Wall Street Journalのインタビューで、AWSのチーフ情報セキュリティオフィサーであるCJモーゼスは「最近どのくらいの攻撃を受けていますか？」と質問されました。彼は次のように答えています：「平均して1日に7億5000万回の試みが来ています。以前は1日約1億回のヒットでしたが、6、7ヶ月でその数は7億5000万回に増加しました」記者が「それはハッカーがAIを使用している兆候ですか？」と尋ねると、彼は「間違いなくそうです」と述べています。
必ずしも驚くべきことではありませんが、彼らが毎日受けている攻撃の純粋な数は少し狂気じみています。
さて、Google のGenie 2に入る前に、MetaがLlama 3.3 70bという新しいモデルをリリースしました。ちなみに、この動画は非常に長くなることに気づきました。ここ数日のAIニュースは途方もない量があったので、申し訳ありません。ここからは確実にペースを上げるようにします。
ご覧のように、Llama 3.1 405b、Gemini 1.5 Pro、GPT-4oと同等のパフォーマンスを発揮していますが、パラメータはわずか700億です。実際、GPT-4oの25分の1のコストで、基本的に同じパフォーマンスを得られます。これらのモデルのコストは劇的に低下し続けており、より小さなモデルでより良いパフォーマンスを見続けています。これは、より高度なAIモデルがより多くの人々にアクセス可能になるという傾向が続くことを示唆しています。
Google DeepMindはGen2、彼らの3D世界モデルを紹介しました。彼らは次のように述べています：「Gen2は世界モデルであり、つまりジャンプや水泳などのあらゆる行動の結果を含む仮想世界をシミュレートできます。大規模なビデオデータセットで訓練され、他の生成モデルのように、物体の相互作用、複雑なキャラクターアニメーション、物理学、そして他のエージェントの行動をモデル化し、予測する能力など、様々な能力がスケールで出現することを示しています」
つまり、私たちは今シミュレーションを作成しているのです。10年後にこれがどのようになるか考えてみてください。彼らが「スケールで様々な能力が出現する」と言っていることを覚えておいてください。キーワードは「スケールで」です。つまり、より多くのリソースを割り当てれば、これがより良くなることをすでに知っているのです。
また、彼らはGenie 2が視界から消えた世界の部分を記憶し、それが再び観察可能になった時に正確にレンダリングできる能力を持っていると述べています。これらのクリップからわかるように、環境は一貫性を保っています。また、制御しているキャラクターとしてオブジェクトと対話することもできます。明らかな理由で、これがビデオゲームの作成方法を完全に変える可能性があることがわかります。
現在、一貫した世界を生成できるのは最大1分間だけですが、繰り返しになりますが、彼らはそれをスケールアップできます。彼らが示したもう一つの素晴らしいデモは、NPCを生成し、対話する能力でした。モデルは文字通り単一の画像からこれらのキャラクターとこの全てのプレイ可能な世界を生成しています。繰り返しになりますが、10年後にこれがどのようになるか想像もできません。私たちがまだ考えもつかないような使用例が恐らく沢山あるでしょう。
Googleは今週、Geminiの更新版もリリースしました。現在、Chatbot Arenaのリーダーボードで首位に立っており、各カテゴリーとそれぞれのモデルがどこにランクされているかを示す「概要」という新しいタブがあります。ご覧のように、この新しいGemini 1206モデル（日付を指す）は、完全に支配的な存在となっています。
GoogleはまだGemini 2を持っており、OpenAIの12日間のシップミス中にリリースしたいとは思わないかもしれませんが、来年までにはリリースすることは確実だと思います。
OpenAIに関するニュースに戻りますが、OpenAIは広告の導入を検討しており、サム・アルトマンはそれを好ましく思っていないようです。これは実際のニュースではありませんが、OpenAIが現在置かれている状況と結びついているため重要です。
実際、イーロン・マスクがOpenAIに対して差止命令を申請しました。これは本質的に、OpenAIが営利企業になることを止めるための裁判所命令です。彼がこれを行っている理由には多くの背景と様々な要因が関係しています。前回の動画でこのトピック全体をカバーしましたが、基本的に、OpenAI、サム・アルトマン、マイクロソフトはいくつかの違法な活動に従事しており、非営利として始まったOpenAIが現在、より多くの投資を確保するために営利企業になろうとしています。
OpenAIを共同設立し、文字通り自身の100万ドルを寄付したマスクが、それを喜ばないのは明らかです。OpenAIが広告を検討している理由がこれに結びつくのは、OpenAIが非営利構造を持っている限り、彼らのリードを維持するために必要な資金を確保することは決してできないことに気付いているからです。
xAIは彼らに大きなプレッシャーをかけています。彼らはさらに60億ドルの資金を調達したばかりです。マスクのxAIはまた、1月に配送予定のNVIDIAの次世代GP200チップの10億ドル分の優先配送権も確保しました。
このツイートは本当によくまとめています。実際にかなりバイラルになっていました：「イーロンはサムの政治的な試みを阻止し、新しいNVIDIAのGPUへの優先アクセス権を持ち、すでに最大のクラスタを所有し、OpenAIの営利化の動きを法廷で阻止し、すべての現実世界のコンテキストストリーム（X、ヒューマノイド、車）を所有しています。サムはここでどうやって勝てるのでしょうか？」
皆さんはどう思いますか？OpenAIにとってゲームオーバーでしょうか？xAIは本当にAIレースでリードを取るのでしょうか？正直なところ、私にはよくわかりません。
しかし、OpenAIは元NSA長官を取締役会に迎えているということを忘れないでください。これは見過ごすべきではありません。また、彼らは過去にロスアラモス国立研究所と提携しており、数日前には米軍にAIを供給するためにIntelと協力していることを発表しました。そうですね、OpenAIが米国政府と他のことでも協力している可能性があることは驚きではありません。それについて考えると少し怖いですが。
他のニュースでは、中国企業のテンセントが新しいAIビデオモデル「フーナン」を発表しました。いくつかの例をご紹介します。また、現在試すことができ、リンクは説明欄に載せています。ご覧のように、非常に高品質でリアルです。おそらく私たちが見た中で最高のビデオモデルの一つです。これらの例は選りすぐりのものだと思いますが、それでも非常に印象的です。
より注目すべき機能の一つは、微妙な人間の動きを捉え、それを生成に正確に統合する能力です。中国は本当に米国に追いつき始めています。
今週は11 Labsからもニュースがありました。彼らは「会話型AI：低レイテンシー、完全な設定可能性、シームレスなスケーラビリティを備え、数分でウェブ、モバイル、電話上のエージェントに音声を追加します」と発表しました。これは本質的に、OpenAIのAdvanced Voice modeのようなものですが、実際にカスタマイズでき、サードパーティのアプリケーションと接続できます。
ここに書かれているように、外部関数呼び出しにより、リアルタイムの情報を取得したり、アクションを実行したりするために、任意のサードパーティアプリを統合できます。また、何千もの音声から選択でき、望むなら自分の声をクローンすることもできます。好きなように言語モデルを切り替えることもできます。11 Labsから非常に興味深いものが登場しています。
最後に、マイクロソフトがCopilot Visionのプレビューをリリースしました。ここに書かれているように：「本日から、許可を得た上で、Copilotがオンライン上であなたが何をしているのか完全なコンテキストを理解できる体験を導入します。Copilot Visionを有効にすることを選択すると、あなたがいるページを見て、あなたと一緒に読み、直面している問題について一緒に話し合うことができます。
ブラウジングは、もはやあなたとあなたのタブだけの孤独な体験である必要はありません。私たちは、限られた数のProサブスクライバーにCopilot Labsを通じてCopilot Visionをプレビューとしてロールアウトすることで、この現実への第一歩を踏み出しています」
これは次元のAI統合です。あなたのAIチャットボットは文字通り常にあなたの行動を監視し、瞬時に何でも助ける準備ができています。質問のコンテキストを完全に理解し、最終的には彼らの計画では、アクションを実行できるようになります。
つまり、それが常にあなたのタスクの実行を監視し、しかもあなただけでなく、この製品を同時に使用している何百万人もの人々を監視している場合、それは学習に使用できる非常に高品質なデータを大量に収集することになります。
これはマイクロソフトが賭けている進化であり、現時点でAI空間全体も同様にエージェントAIに重点を置いています。これが、マイクロソフトのAI CEOであるムスタファ・スーマンが、コンピュータとの対話方法が変わろうとしていると考える理由です。
最近のインタビューで、彼は10年後にこれがどのようになるか、そしてこれらのAIシステムがどのように第二の脳のようになり、特定の認知タスクを委託できるかについて話しました。非常に興味深い見解なので、見てみましょう：
「今日、私たちがラップトップやスマートフォンに費やす時間について考えてみると、私たちは基本的に、コンピュータが私の口から出る言葉を理解するには賢くないという事実に対応するために、この完全に恣意的な作り上げられたグラフィカルユーザーインターフェースを作り出しました。ブラウザ、ボタンを押さなければならないこと、これらすべての異なるアプリを持っていること、メニューのドロップダウン、スクロール、ユーザーインターフェース全体が、コンピュータに何かをさせるためにはコードを書かなければならないという考えに基づいています。なぜなら、私があなたや友人に何かをしてもらうように頼むときに使用する言語を理解できないからです。そしてそれはすべて消え去ろうとしています。
今では、あなたのコンピュータやAI、あなたのCopilotは、明らかにあなたがテーブルに持ち込むすべてのものを理解します。あなたの感情状態、知的状態、その日に達成する必要があること、あなたの興味、趣味、個人の知識グラフ、家族、嫌いなものを理解します。つまり、それは単に私たちの言語を話すだけでなく、実際に私たちが見るもの、聞くもの、信じるものや考えるものについて推論できるのです。
従って、それは単なるインターフェースではなく、根本的に異なる新しい接続の平面です。そして、私が長く言ってきたように、新しいデジタル種のように感じるでしょう。つまり、家族の一員のように、別の層の接続のように感じるでしょう。なぜなら、あなたはAIを持ち、私はAIを持ち、それらのAIは事前に互いに接続し、あなたにブリーフィングし、私にブリーフィングし、その後フォローアップするからです。
つまり、第二の脳のようなものになるでしょう。私はそれを、多くの精神的処理を完全に対話的な思考のパートナーであり、仲間である非常に信頼性が高く、高精度なものに委託するようなものだと考えています。それは、私をより賢く、より生産的にし、よりサポートされていると感じさせるでしょう。これは、今日のコンピュータの使い方とは非常に異なるものです。」
動画を終える前に、今週からもう一つのストーリーがありました。Clone Roboticsが彼らのAlpha Editionを紹介しました。非常に人間らしく見え、とても人間らしい歩き方をします。このロボットは2025年に予約注文が可能になり、彼らは飲み物を注ぐ、サンドイッチを作る、掃除をする、食洗機に食器を入れる、テーブルを設定するなど、多くのことができると主張しています。
それは、新しいスキルを教えることができるテレキネシストレーニングプラットフォームを備えているとのことです。今のところ実世界のデモはありませんが、間違いなくそれらを注目していきます。
とにかく、これが今日のAIニュースのすべてです。ご視聴ありがとうございました。動画を楽しんでいただけましたら、いいねを押していただけると幸いです。そして、いつものように、このような将来のAIニュースを見逃さないようにするには、購読ボタンを押してください。

OpenAIが復活！Google DeepMindの『Genie 2』、ユーザーインターフェースの未来

いいなと思ったら応援しよう！