AGIへの大躍進:AIサイエンティスト、Grok 2、SearchGPT、Agent Q、新しいコーディングモデル
今週は本当に目まぐるしい1週間でした。素晴らしいリリースがたくさんあったので、今日はそれについて話します。先ほどライブストリームを終えたところで、多くのこれらの話題について取り上げ、特別ゲストもお迎えしました。チームの何人かの人々にもお会いいただけたと思います。次回のライブストリームもぜひチェックしてください。毎週金曜日の午前10時(太平洋時間)に行う予定です。
最初の話題は、ミスター・ストロベリー、別名「I rule the world Mo」についてです。彼は今週、Twitter、特にAI関連のTwitterを完全に席巻し、フォロワー数を3,000人から33万人に増やしました。主にストロベリー、つまりQARと呼ばれるものをかなり大々的に宣伝していました。これはOpenAIの新しい論理推論モデルで、おそらくGPT-4oになるかもしれません。しかし、彼の主張のほとんどは間違っていました。正直なところ、多くのデマを流したことについて彼を責めるつもりはありません。結局のところ、多くのミームが生まれ、それが重要なことだと思います。この件についてはあまり触れませんが、彼が間違っていたことは確かです。
次に、Grok 2ベータがリリースされました。これについてはすでに動画を作成しましたので、詳細は説明の欄にリンクを貼っておきます。Grok 2ベータがリリースされたわけですが、覚えていますか?LM.orgに現れた、誰も正体を知らない匿名のモデル、Sus COLRのことを。今やそれがGrok 2だったことがわかりました。Sus COLRのテストについても動画を作成していますので、そちらもリンクを貼っておきます。
これは、イーロン・マスクのAI企業であるXから新しくリリースされたモデルです。彼らはXから多くのトレーニングデータを取得しています。彼らは次のように述べています。「私たちは、以前のモデルであるGrok 1.5から大きく前進し、チャット、コーディング、推論において最先端の機能を備えたGrok 2の早期プレビューをリリースできることを嬉しく思います。同時に、Grok 2の小型だが有能な兄弟、Grok 2ミニも紹介します。」
現在、実際に利用可能なのはGrok 2ミニのみで、Grok 2はまもなくリリースされる予定です。Grok 2は論理と推論に非常に優れており、Flux.oneによるテキスト生成画像モデルも搭載しています。ちなみに、Flux.oneは完全にオープンソースのテキスト生成画像モデルで、Midjourney並みの高品質を誇ります。これは、Stable Diffusionを去った人々のグループが新しい会社Fluxを立ち上げて始めたものです。
ここに「Grok 2とGrok 2ミニは現在Xでベータ版として利用可能です」と書かれていますが、実際にはそうではありません。ご覧のとおり、利用できるのはGrok 2ミニだけです。しかし、人々はGrok 2の検閲されていない性質と、さらに重要なことに、テキスト生成画像モデルに夢中になっています。ヌード以外は基本的に何でも生成できます。
テキスト生成画像の例をいくつか見てみましょう。ここにはカマラ・ハリスとドナルド・トランプの画像があります。カマラは妊娠していて王冠をかぶっています。これらの写真の中には本当に突拍子もないものがあります。ここにはGIFから始まり、別のツールでアニメーション化されたものがあります。ここにはドナルド・トランプが火星探査車のようなものを運転し、火星でアメリカの国旗を掲げている画像があります。ドナルド・トランプの画像が多いですね。ここにはドナルド・トランプとエイブ・リンカーンが一緒にいる画像があります。これはアドリアーノによる「地球上で最もセクシーな家族」だそうです。ああ、確かにそれはとてもセクシーな犬ですね。
みんなが何らかの理由でドナルド・トランプの画像を作っているようです。ここにはダース・ベイダーとしてのトランプがいます。こちらはチューバッカとハン・ソロのトランプ版です。素晴らしいですね。Grok 2は著作権を気にしません。ここにはナルトがいます。こちらはフリントストーン家とシンプソン家で、信じられないほど素晴らしく見えます。この人物は誰かわかりませんが、背景に北朝鮮の指導者がいます。そしてこちらは「ファミリー・ガイ」のピーター・グリフィンです。
ご覧のとおり、Grok 2のテキスト生成画像機能では本当に好き勝手なことができます。ぜひチェックしてみてください。
次に、人々がSearchGPTの早期アクセスを得始めました。私もその一人です。実際にSearchGPTを使ってみましょう。「今週末のUFCの試合について教えて」と聞いてみます。左側にいくつかのソースが表示され、右側に回答が書かれます。親指を上げるか下げるかで評価でき、リンクの良し悪しも評価できます。また、メディアも取得できます。そして、これは最新の情報です。
私はすでにデフォルトの検索エンジンをBing SearchGPTに切り替えました。もう元には戻れません。正直なところ、もはやGoogleを使う理由がありません。申し訳ありませんが、それが現実です。Googleの検索の優位性は脅かされているどころか、今や完全に凌駕されています。PerplexityとSearchGPTが完全に取って代わるのは時間の問題です。私は答えが欲しいのであって、広告や10個の青いリンクを見たいわけではありません。
SearchGPTの完全なレビューを行うことを考えていますが、1本の動画にする価値があるかどうかわかりません。コメント欄で皆さんの意見をお聞かせください。
次は、Multiバーグからのニュースです。彼らは「Agent Q」をリリースしました。これは、計画と自己修復機能を備えた次世代AIエージェントのための研究のブレークスルーです。これは、次世代エージェントの一種のようです。特に消費者向けのものであり、企業向けではないようです。また、クローズドソースなので、それを念頭に置いてください。
Agent Qの紹介です。近年、大規模言語モデルの能力は自然言語処理と理解を変革し、驚くべきマイルストーンを達成しました。しかし、これらの進歩にもかかわらず、LLMは対話型環境、特にウェブナビゲーションのような多段階の推論を必要とするタスクで重大な課題に直面しています。そこで登場したのがAgent Qです。これは、検索、自己批評、強化学習を組み合わせて、計画を立て、自己修復できる最先端の自律型ウェブエージェントを作成する、エージェントにとっての大きなマイルストーンです。
私はまだ試していませんが、非常にクールに見えます。実際のベンチマークを見てみましょう。OpenTableでのリアルワールドの予約実験では、MultiバーグのエージェントがLlama 3モデルのゼロショット性能を18%から81%に劇的に改善しました。これは驚異的です。わずか1日の自律的なデータ収集の後、さらにオンライン検索で95%まで向上しました。素晴らしいですね。
彼らは論文全体をここに掲載しています。別の動画で論文の詳細を説明してほしい場合は、お知らせください。喜んで行います。彼らは、ストロベリーとQARに含まれるとされる多くのコンポーネントを使用しました。MCTSによるガイド付き検索、AI自己批評、DPO(直接選好最適化)などです。
これが重要な理由は、最近多くの人々がストロベリーとQARについて話しているからです。これらはQARを構成するとされる要素であり、MultiバーグチームはMr. Strawberry I rule the world Moに自分たちだと主張して関連付けています。しかし、それが本当かどうかは誰にもわかりません。I rule the worldが誰なのか、実際には誰も知りません。いずれにせよ、これは私たちが遊べるもう一つのクールなエージェントのようなので、楽しみです。
次は、Cognitionからのニュースです。彼らは、これまでで最高のソフトウェアエンジニアリングモデルを開発しました。Genieは世界最高のソフトウェアエンジニアリングモデルで、S-Benchで30%、ヒューマンevalで50%という最先端のスコアを記録しました。これは実際には何を意味するのでしょうか?このモデルはコードを書くようにトレーニングされており、非常に優れたコードを書きます。タスクを与えると、そのタスクのコードを書き、既存のコードを修正し、更新するなど、必要なことを何でも行います。
ここにベンチマークがあります。S-Benchでは、Cognition Genieが30%でトップにいます。これまでで最も人気のあるコーディングエージェントはCognition DeVinでしたが、これは外挿バージョンで14%です。Cognition Genieの半分以下のスコアです。彼らは本当に大きな性能の飛躍を遂げました。ここにあるCognition DeVinは別のバージョンで、おそらく実際にテストされたバージョンか自己報告バージョンだと思います。違いがよくわかりませんが、これは4%です。ご覧のとおり、市場の他のものよりもはるかに優れた性能を示しています。
トレーニングデータの内訳は、JavaScript 21%、Python 21%、TypeScript 14%などとなっています。私の好きなプログラミング言語、Python以外ではRubyがわずか3%です。データミックスの特徴は、機能開発25%、バグ修正20%、リファクタリング15%、小さな変更とタスク15%、テスト作成15%(特にAIコードビルダーにとって非常に重要です)、ドキュメント作成10%となっています。Genieは常にコード生成AIとして設計されていました。まだチェックしていない方は、ぜひ試してみてください。また、ウェイトリストにも参加してください。
次は、今週おそらく最も興奮させられるニュースの一つで、ほとんど見過ごされそうになりました。Sakana AIが「AIサイエンティスト」と呼ぶものを作成しました。これは、完全に自動化された、オープンエンドの科学的発見を行うものです。つまり、このモデルとフレームワークは、単にトレーニングセットにあるものを繰り返すのではなく、実際に新しい発見を行うようにトレーニングされています。
もしレオポルド・アッシェンブレナーの論文「状況認識」を覚えていれば、これはインテリジェンス・エクスプロージョンの前の最後のステップです。実際に自己改善できる人工知能、それが私たちが今目にしているものです。少し詳しく見てみましょう。
「私たちは今日、AIサイエンティストを紹介できることを嬉しく思います。これは、完全に自動化された科学的発見のための最初の包括的なシステムで、大規模言語モデルなどの基盤モデルが独立して研究を行うことを可能にします。私たちは、機械学習研究に適用された完全にAI駆動のシステムを提案し、実行します。」
機械学習研究に適用されているという事実は興味深いです。なぜなら、それは自己改善できることを意味するからです。より良くなる方法を発見し、その複合効果は指数関数的になるでしょう。これは本当に興味深く、少し怖いことを考えさせられます。これは本当にインテリジェンス・エクスプロージョンの前の最後のステップです。
ご存じない方のために説明すると、Sakana AIは日本の最先端AI企業です。
AIサイエンティストは、新しい研究アイデアの生成、必要なコードの作成、実験の実行から、実験結果の要約、視覚化、そして完全な科学論文としての発見の提示まで、研究のライフサイクル全体を自動化します。また、生成された論文を評価し、フィードバックを書き、結果をさらに改善するための自動化された査読プロセスも導入しました。これは、ほぼ人間の精度で生成された論文を評価することができます。
さらに面白いことに、オープンエンドな方法でアイデアを反復的に発展させ、それらを成長する知識のアーカイブに追加することで、人間の科学コミュニティを模倣することができます。基本的に、アイデアを生成するか仮説を立て、それをテストし、検証し、ピアレビュープロセスを経て、すべてが良好に見えたら自身の知識ベースに追加して、将来の研究に使用できるようにします。これは驚くべきことです。
ここに興味深い部分があります。各アイデアは実装され、1論文あたり約15ドルのコストで完全な論文に発展させられます。この最初のバージョンで生成された論文にはまだ時々欠陥がありますが、システムのコストと可能性は、AIサイエンティストの潜在能力が確かにあることを示しています。
ぜひこれをチェックしてください。これもまた、私がまだ完全には読んでいない論文の一つです。今週は本当に多くのことが起こったので、すべてをフォローするのが大変でした。しかし、これについても完全なレビューを見たい場合は、コメント欄でお知らせください。
次に、OpenAIからの簡単なニュースです。S-Bench Verifiedの紹介です。AIモデルのソフトウェアの実世界の問題を解決する能力をより確実に評価する、人間が検証したS-Benchのサブセットをリリースしています。これは新しいベンチマークで、ソフトウェアエンジニアリングモデルのためのより高品質なベンチマークのようです。S-Benchのテストセットの各サンプルは、GitHubの12のオープンソースPythonリポジトリの一つで解決されたGitHubの問題から作成されています。
ここに、この新しいS-Benchでテストされたいくつかのプロジェクトの例があります。AgentList、AutoCode、Rover、MeList、Tools、AERなど、私の好きなものの一つ、そしてSweet agentsなどがあります。各モデルがどのように性能を発揮しているかが全体的に見てとれます。open.aiでぜひチェックしてみてください。
次に、GoogleがGeminiのライブイベントを開催しました。私はそれについて完全な分析動画を作成しました。説明欄にリンクを貼っておきます。いくつかのクールな発表があった一方で、実際にはかなりタッチアンドゴーな部分がありました。それはGeminiのライブデモで、2回失敗しました。エラーが出て、もう一度試さなければなりませんでした。再び失敗し、そして別の電話を使用しました。バックアップの電話を用意していたGoogleのグッドジョブですね。そして最終的に動作しました。この動画を再生します。1分半ほどで、イベントのほぼ完全に壊れそうになった、少し気まずい部分を示しています。
(動画の内容を要約)
デモでは、Sabrina Carpenterのコンサートポスターの写真を撮り、Geminiに「カレンダーをチェックして、彼女が今年サンフランシスコに来る時に空いているかどうか確認して」と尋ねます。しかし、デモに問題が発生し、2回失敗します。3回目の試行で別のデバイスを使用し、最終的に成功します。
さて、ここで興味深いのは、GoogleがOpenAIより先に完全な音声モデルを市場に出したことです。会話ができ、話し返してくれ、途中で割り込むこともでき、本当に良い音がします。GPT-4o Voiceほど良くはありませんが、それでも良い音がします。そして彼らは実際にそれを出荷し、市場に投入しました。その点でGoogleは良くやりました。
次に、AnthropicがClaudeでプロンプトキャッシングをリリースしました。キャッシングは、大規模言語モデルに追加できる最も過小評価され、かつ非常に価値の高い機能の一つです。コストを削減し、速度を向上させ、一貫性を高めます。AIで何かを構築していて、それを大規模に行っている場合は、キャッシングが必要です。
Anthropicは、プロンプトキャッシングを使用するタイミングについて次のように説明しています。会話型エージェント、長い指示やアップロードされた文書を含む長時間の会話のコストと遅延の削減、コーディング支援、大規模文書処理、詳細な指示セット、エージェントの検索とツールの使用(これが最も明白なものです。エージェントがツールを呼び出したり、ツールを書いたりするためにLLMを呼び出す必要がないのはなぜでしょうか?すでにキャッシュされたバージョンに直接アクセスできるはずです)、書籍、論文、ドキュメント、ポッドキャストの文字起こし、その他の長文コンテンツとの対話などです。
このコスト削減を見てください。本とのチャットで90%のコスト削減、多数ショットプロンプティングで86%のコスト削減、複数ターンの会話で53%のコスト削減。これは素晴らしいです。また、ご覧のとおり、レイテンシーも大幅に削減されています。
私はキャッシングの大きな支持者です。あなたにとって意味のある場所を見つけてください。ところで、キャッシングは難しい問題です。エンジニアリングの観点からは難しい問題ですが、プロンプトと応答のどの部分をキャッシュすべきかを知ることも難しい問題です。将来的には多くのテストが必要になるでしょう。私は一般的にキャッシングに非常に強気です。
次に、噂によるとAppleがロボットを構築しているそうですが、実際にはそうではありません。スクリーンとロボットアームを持つものになるようです。現時点では全て噂に過ぎません。
SearchGPTを使用すると、Appleが新しいデバイスを開発中であることがわかります。このデバイスは、iPad風のディスプレイとロボットアームを組み合わせたものです。2026年か2027年頃に発売される予定のこのデバイスは、スマートホームコントロール、ビデオ会議、ホームセキュリティモニタリングなど、複数の機能を提供することを目指しています。しかし、アームが必要なのは何のためでしょうか?それは奇妙ですが、様子を見ましょう。
このデバイスには、ディスプレイを360度傾けたり回転させたりできる薄型のロボットアームが搭載されるようです。少なくとも噂によると、アームは基本的にスクリーンを支え、常にユーザーの方を向くようにするため、あるいは何かを見る必要がある場合にスクリーンを動かし、実際にはカメラを動かして必要なものを見るために使用されるようです。
最後に、NAOS ResearchがLlama 3.1をベースにしたファインチューンモデルのセットであるHermes 3をリリースしました。Hermes 3は3つのサイズで利用可能で、80B、70B、そして405Bのパラメータがあります。全体的に改善が見られ、特にロールプレイ、エージェント的タスク、より信頼性の高い関数呼び出し、マルチターンチャット、長文脈の一貫性などの能力が向上しています。
彼らは全体的な研究論文を公開していますが、私はまだ試していません。今週は本当に忙しすぎて、すべてをフォローするのが大変でした。これもまた、チェックしてほしい、詳しく掘り下げてほしいという場合は、コメント欄でお知らせください。
こちらがHermes 3と関連するLlama 3.1モデルの比較です。ここにHermes 3 45BとLlama 3.1 405Bがあります。ご覧のとおり、性能はかなり互角に見えます。いくつかのベンチマークで勝利していますが、他のベンチマークでは負けています。これは全体的に同じように見えます。
また、会社や外部のポリシーではなく、ユーザーにモデルを適合させることに焦点を当てています。検閲が少なく、より制御可能です。私はそれが大好きです。同様の性能で検閲がないのであれば、大賛成です。
今日のニュースは以上です。今週は本当に多くのことが起こりました。来週は何が起こるのか、とても楽しみです。来週の金曜日午前10時(太平洋時間)のストリームもお見逃しなく。
そして、チャンネルのメンバーシップを開始しました。新しい特典を追加する予定ですが、すでにいくつかの特典があります。チャンネルをサポートしたい方は、ぜひメンバーになってください。本当に助かりますし、私も、そして私のチームも感謝しています。チームは成長中です。ぜひメンバーシップをチェックしてください。事前にありがとうございます。
この動画を楽しんでいただけたなら、ぜひ「いいね」をして購読してください。次回の動画でお会いしましょう。