見出し画像

Last Week in AI #199 - OpenAIのo3-mini、Geminiの思考、Deep Research

32,205 文字

AIニュースが始まるのを待って、皆さんこんにちは。Last Week in AIポッドキャストへようこそ。いつものように、このエピソードでは先週の最も興味深いAIニュースをまとめて議論していきます。
私は司会の一人、アンドレ・カラノフです。大学院でAIを学び、現在はスタートアップ業界で働いています。もう一人の司会はジェレミー・ハリス、AI国家安全保障企業Gladstone AIの共同創業者です。私はいつもの録音機材を持っていません。別の場所に置いてきてしまったんです。
先ほども話していたように、アンドレの場所では朝の6時45分です。予定していた録音時間の6時半、いや6時前に起きてきてくれました。私は赤ちゃんの世話で15分ほど遅れてしまいましたが、アンドレは早起きして、リスナーへの愛情からこの特別な取り組みを見せてくれています。本当にありがとう。
そうですね、今回のエピソードで間違いを言ったりしたら、それが言い訳になりますね。ここ数週間、新政権からのニュースへの対応で大変だったようですね。仕事も忙しかったようですが。
いいえ、それほどではありません。出張などで忙しかっただけです。少し落ち着くことを期待していますが、今朝は赤ちゃんの世話が大変でした。妻が何かをする必要があって赤ちゃんを任されたんです。妻はいつも私のことをよくサポートしてくれているので、これくらいは最低限のことだと思いました。今は赤ちゃんを引き継いでもらったので、このエピソードには出演しませんが、いつか、いつかはわかりませんけどね。
では、今回のエピソードで話す内容を予告しましょう。まずツールとアプリから始めて、Deep Seek R1のフォローアップといいますか、多くの企業が思考AIの波に乗っている話や、言語モデル以外の使用例もあり、とても新鮮です。資金調達やハードウェア、ビジネスの話もたくさんありますし、注目に値するオープンソースのリリースもいくつかあります。
そして今回は論文がかなりあります。推論に関するものや、スケーリングに関するものなどです。政策と安全性についても、技術的なアプローチでアラインメントに関する論文が数本あります。
大きなニュースは少なめですが、バラエティに富んだ内容になっています。先週のDeep Seek R1のように30分も費やすような深い話題はありませんが、その前にリスナーからのコメントとレビューを紹介したいと思います。
Apple Podcastで有益なフィードバックがありました。「素晴らしいコンテンツ、素晴らしい司会者、恐ろしい音楽」というものです。私はAI音楽のコントロールで、いつもの曲のバリエーションを作っているんですが、これについては賛否両論あるようです。好きな人もいれば、そうでない人もいます。意外にも結構時間がかかる作業なので、やめることも考えています。
それから、Discordで質問がありました。マイクCさんからの質問で、以前私がRAG(検索拡張生成)についてあまり好意的ではないようなコメントをしたことについての follow-upです。RAGの現状はどうなのかという質問です。
RAGが嫌いというわけではありません。むしろ一時的なものだと考えています。長期的には残らないと思っています。RAGについて言えば、Geminiの大きなコンテキストウィンドウで必要性は減っていますが、数億トークン以上の大規模データセットには対応できていません。
これは実は私が自分に言い聞かせていることでもあります。コンテキストウィンドウが大きくなるにつれてRAGの必要性は減っていくでしょうし、最終的には大規模データセットのサイズに関係なく、そうなるはずです。
この分野の進歩のペースと進歩の仕方について、直感に反する点の1つは、それが指数関数的だということです。今日では「数億トークンは確かにRAGなしのシステムのコンテキストウィンドウではアクセスできない」と言えるかもしれません。しかし、私が言いたいのは「時間が解決するよ」ということです。
今、私たちは多くの指数関数的な成長の波に乗っていて、最終的にはすべてがコンテキスト内のクエリに集約されると予想しています。これは重要な対話モードの1つになると思いますが、低コストを目的とした特殊なRAGシステムも存在し得ます。
これも一時的なものですが、例えばGPT-5のフル版ではRAGなしで単純にコンテキスト内でクエリを処理できるかもしれませんが、大きなコンテキストウィンドウを使用するモデルを使うためコストが高くなる可能性があります。一方で、RAG用に目的特化した小規模なシステムを持つこともできます。
これは現在の多くのアプリケーションですでに中間的な立場にあります。まだコンテキスト内だけでは完全に不可能なアプリケーションもありますが、それは単なる価格の問題ではありません。
私の見方としては、計算コストが限りなくゼロに近づき、コンテキストウィンドウが無限に近づく世界に向かっているということです。今、あなたのアプリケーションにとって計算コストが高すぎるなら、数年待てば解決します。コンテキストウィンドウが小さすぎるなら、数年待てばその問題も解決します。スケールによって両方の問題が解決されるというのが私の予測です。
そうですね、極限では入力にすべて入れてRAGを気にしない方がいいかもしれません。RAGの問題点の1つは、クエリをどうエンベッドするか、データセットをどう作るかなど、面倒な追加の問題があることです。入力コンテキストにすべて入れて言語モデルがうまく処理できるなら、エンジニアリング上の考慮事項を除けば、RAGを使う必要はないですよね。
その意味で、小規模データセットについては確かに重要性が低下するでしょう。以前は100万トークンの入力を処理して有用な結果を得ることは難しかったですが、今では少なくともいくつかのケースでは確実にできるようになっています。
さて、質問ありがとうございました。ニュースの議論に移りましょう。まずはツールとアプリから始めて、o3-miniについてです。
先月末の最後の収録エピソードの直後、OpenAIはo3-miniのリリースを発表しました。これは、o1から始まる推論言語モデルシリーズの最新作です。o2は著作権の関係で飛ばしてo3になり、今回はo3-miniが登場しました。小規模で低コスト、高速推論など、すべてにおいて印象的なパフォーマンスの向上が見られます。
私にとって特に印象的なのは、パフォーマンスの向上です。以前取り上げた非常に難しい数学のデータセットベンチマークであるFrontier MAPでは、既知の答えのない問題を数学者が作成していますが、miniはo1を上回り、1回の試行で約9%、8回の試行で10%の問題に答えることができます。
上位の競合他社はまだいくつかの問題を作ることができますが、推論モデルは急速に改善しています。以前はo1で6%から12%しか得られませんでした。
アプリケーション面では、誰もが使い始めることができる広範なリリースでした。R1に似た形で、OpenAIは処理過程をより詳しく見せてくれるようになりました。クエリを実行すると、中間ステップのより詳細な要約が表示されます。これはR1の推論表示への対応の一部だと言えるでしょう。
そうですね、o3については以前のエピソードでモデルがリリースされる前に公開されたベンチマークについて話しましたが、今日はちょっと違う話をします。純粋な推論の側面を調べる新しいベンチマークに関する論文があります。
世界知識の部分と推論の部分を切り離そうとしているんです。これは本当に難しいことですが、モンゴルの首都が何かを知る必要のないパズルをどれだけうまく解けるかということです。
興味深いことの1つは、o3-miniが一般知識の推論においてo1とほぼ同等で、若干o1に遅れをとっているという兆候が得られたことです。これは興味深い点ですが、いずれにせよ、それについて詳しく見ていきましょう。
確かにこれは大きな進歩であり、もちろんこれはo1のフルバージョンに比べてミニバージョンなので、その意味では驚くことではないかもしれません。本当に強力なモデルで、搭載している知能の量に対して非常に高速で安価なのは印象的です。
おっしゃる通り、OpenAIが「o3-miniの思考プロセス」と呼ぶものを見せてくれるという発表がありました。これは以前のOpenAIの立場からの転換です。有名なところでは、o1が最初にローンチされた時、思考の連鎖全体を見ることはできず、非常に短い要約のような形でしか見ることができませんでした。
今、OpenAIは「バランスを見つけた」と言って、o3-miniが自由に考え、以前よりも詳細な要約を提供できるようになったと発表しています。以前、要約を共有しなかった理由の一部として、競争上の理由を挙げていました。おそらく、o1が生成する思考の連鎖に基づいて他社が自社のモデルを蒸留することを望まなかったのでしょう。
今回は少し後退しましたが、完全ではありません。彼らが言っているのは、思考の連鎖全体はまだ難読化されているということです。以前のエピソードでも話しましたが、その多くの記述は人間には理解しづらい形になっています。
R1で見たように、人間が解釈できない不透明な方法で推論することが期待される、そのようなモデルに関連する安全性のリスクは、収束的なものとして予想すべきです。いずれにせよ、その上に要約を生成していて、その要約はo1で以前生成していた要約よりも長くなっています。
おそらく、これは思考の連鎖の共有について、ある程度緩和する意思があることを意味します。おそらく、複製や競争の観点から思考の連鎖を保護する価値が減少していると考えているのでしょう。
もう1つ、これが示唆していることがあります。これはますます明確になってきていることですが、今日、フロンティアAIモデルを完全にオープンソース化したとしても、推論時のコンピュートの観点から、最も多くの推論時ハードウェアを投入できる企業が勝者になるということです。
例えば、あなたとわたしがR1のコピーを持っていても、あなたがはるかに多くのデータセンターとハードウェアを所有しているために、10倍の推論FLOPSを投入できるのであれば、あなたはモデルからはるかに良いパフォーマンスを引き出すことができます。
つまり、これらのモデルをオープンソース化したとしても、競争力は今まで以上にAIハードウェアインフラに根ざしているということです。これが、サム・アルトマンの一見寛容に見える「オープンソースに関して私たちは歴史の間違った側にいる」という発言の背後にあるのだと思います。
推論時のコンピュートが意味するところ、つまり銃を持っているのがあなたと私だとしても、私の方がデータセンターが大きければ、私の銃の方が大きいということがわかってきたちょうどその時期に、これらの発言が出てくるのは非常に都合が良いですね。
私はそれを強調しすぎたくありません。アルゴリズムの洞察には絶対的な価値があり、モデル自体にも本当に大きな価値があります。しかし、戦略的な状況が少し再調整されているということです。
決定的なことではありません。国家安全保障の観点からは、これらのモデルをロックダウンし、CCPがアクセスできないようにすることは依然として絶対に重要です。しかし、データセンターは盗めないがモデルは盗めるという、このようなインフラの構造的な要素があります。
GPT-4や事前学習パラダイムの時代を振り返ってみると、その時のような完全な優位性は盗めないということです。これは興味深い点であり、おそらくこの発表にも反映されているのかもしれません。
そうですね、これは興味深い点ですね。ChatGPTが最初に登場した頃を振り返ると、MetaやGoogleなどの多くの企業はある意味で出遅れていました。これらのモデルを学習させることにも、サービスを提供することにも準備ができていなかったのです。
今では彼らも追いついてきたように見えますし、少なくともインフラ面での競争は間違いなく始まっています。モデル側ではOpenAIとAnthropicが依然として最高のものを持っていますが、多くの場合、多くの問題において、モデル間の実際の差はそれほど大きくありません。
あなたが言ったように、今は推論モデルにおいて、コンピューティングパワーを投入できることが大きな部分を占めています。o3-miniについて言えば、ChatGPTユーザーにとってはエキサイティングですし、競争は常に消費者にとって良いことなので、それは素晴らしいことです。ChatGPTユーザーとして、私は興奮しています。
次の話題も推論モデルについてですが、今度はGoogleからのものです。これはGemini 2.0のロールアウトの一部です。いくつかのモデルがあり、より小さく高速なモデルであるGemini 2 Flash、より大きなモデルであるGemini 2.0 Pro(驚くほど印象的ではなく、期待されていたほどの大きな話題にはなっていません)、そしてロールアウトの一部としてのGemini 2 Flash Thinkingがあります。
これは少なくとも表面的にはo1への彼らの回答です。推論が得意で、o1に投げかけるような種類のタスクが得意なモデルです。私が見た限りでは、評価はそれほど多くありませんし、この「本当にスマートな言語モデルで中間的な思考ができる」という領域ではあまり競争していないように見えます。しかし、Gemini 2.0 Flash Lightを含む、開発者やGeminiユーザー向けのモデルを多数ロールアウトしています。
これは、推論モデルで起こっていることのマクロレベルと本当に一致しています。推論が非常に重いため、推論が安価なモデルを作ることに重点を置くことが経済的にはるかに理にかなっているのです。
そのため、Flashモデル、Flash Lightモデルへの重点が置かれています。Flashは既に高速で安価なモデルであることを意図していましたが、今ではFlash Lightがあり、さらに安価でさらに高速です。1つのモデルを取り、それに対して多くの推論を実行する場合、大きなモデルであれば多くのお金がかかります。
パラメータの数が多ければ多いほど、推論により多くの計算が必要になります。これは、過剰学習にも多くの重点が置かれ始めている部分でもあります。過剰学習とは一般的に、与えられたモデルサイズに対して、最適なパフォーマンスを得るために、最適な量の計算を学習に投資することを意味します。
モデルを小さくすれば、スケーリング法則に従って、最高のパフォーマンスを得るために学習させるべき計算量とデータ量は減少します。これは、これら3つの要素が通常相関しているためです。
しかし、そのモデルに対して大量の推論を行うことがわかっている場合、実際には非常に小さくして、過剰に学習させることも問題ありません。計算予算を考えると、パラメータが多ければより良いパフォーマンスを発揮できたはずですが、それは目的ではありません。
目的は、パラメータ数が少なく、実行コストが非常に低い、過負荷な圧縮モデルを作ることです。これは、Flash Lightなどのモデルでますます見られるようになってきています。これらのモデルが実行を求められる膨大な推論ワークロードのためです。
Googleもこれに飛び込んできたのは明らかです。GoogleはまたDeep Researchモデルもリリースしました。これはOpenAIのDeep Researchと同じ日にリリースされました。面白いことに、Googleは実際にかなり優れたモデルを持っています。
私自身、Geminiをかなり使っています。Gemini 2.0は、プロのヒントとして言えば、報酬を得たり、プロフェッショナルに使用する必要のある文章を書くための許容的なライセンスを持つ唯一のモデルだと思います。
私が見つけることができた限り、Gemini 2.0は商用利用や帰属表示なしで出力を使用できる唯一のモデルです。そのため、ある意味で強制的に使わざるを得ません。私はそのような作業にはClaudeの方が優れていると感じていますが、Gemini 2.0でも用が足りますし、かなり改善されています。
Googleはこの方向で素晴らしい製品を持っていますが、興味深い課題は、人々がそれらを知らないということです。OpenAIは大きな話題性で圧倒的に有利であり、LLMに本当に詳しい人々の領域に入ると、多くの場合Claudeに向かう傾向があります。
そのため、彼らは板挟みの状態にあり、解決策がマーケティングなのかどうかはわかりませんが、私が使ってみて有用だと感じた割には、Gemini 2.0モデルがあまり使われていないように見えるのは驚きです。
現在の彼らのアプローチは、価格面で競争することのようです。彼らはかなり安価で、もちろん多くのインフラも持っています。GoogleのクラウドサービスやGoogle開発者環境を使用している人もいると思います。
これは、Geminiについて私たちがあまり耳にしないか、競合他社としてあまり評価されていないように見える別の例ですが、彼らは着実に前進を続けています。私が見た限り、Gemini 2 Flashを使用している人々の多くは非常に好意的な評価をしています。
次に、あなたが言及したように、o1やR1ほど大きな話題ではありませんが、私にとってもとても興味深いものがありました。それはDeep Researchです。これは、GeminiとOpenAI、ChatGPTでほぼ同時に登場した新機能です。
クエリを入力すると、LLMがより詳細で十分な情報に基づいた出力を生成するために、入力を編集する時間を取るというアイデアです。OpenAIの例では、クエリを入力すると、5分から30分程度考えることができ、バックグラウンドで実行されるのを待つ必要があります。
そして最終的に、あなたの質問についてかなり長いレポートを返してくれます。これは、今までに見られなかった推論や出力の新しいパラダイムです。多くの人々がこれについて、これは非常に重要である、あるいは非常に印象的であると言っています。
これは、エージェントができることの新しいことであり、そうでなければコンサルタントや専門家がやっていたようなことです。
そうですね、これは実際にかなり驚くべきものです。私はリリース時にライブ配信を見ていました。OpenAIが「今すぐローンチします」とツイートを投稿したので、デモを見ましたが、本当に驚くべきものでした。
これは、デモが誇大広告に見合っているという人々が話しているような種類のものでもあります。アイデアとしては、モデルに5分から30分の作業時間を与えるため、実際にその場を離れることになります。リサーチが完了すると通知を受け取り、最終的にこのレポートを受け取ります。
これは新しいユーザー体験であり、彼らが解決しなければならない問題です。実行させて、電子レンジが食べ物を温め終わったように、知らせてくれるのです。かなり印象的です。
これらのリサーチクエリの例を挙げてみましょう。これらはOpenAIのDeep Research紹介ページから取られたものですが、非常に技術的なものも含まれています。例えば、「iOSとAndroidの採用率、別の言語を学びたい人の割合、GDPで上位10カ国の先進国と発展途上国における過去10年間のモバイル普及率の変化を調べてください。この情報をテーブルにまとめ、統計を列に分け、ChatGPTが現在アクティブな市場に焦点を当てて、新しいiOS翻訳アプリのターゲット市場に関する推奨事項を含めてください」というようなものです。
少なくともこのクエリについて気付くことの1つは、非常に詳細な内容を探しているということです。あなた自身が問題にどのようにアプローチするかについての一般的な感覚を持っているので、その意味で完全にオープンエンドではありません。
しかし、これは多くの人々が仕事で操作する方法を反映しています。必要な全てのコンテキストを既に持っていて、非常に有能な大学院生やインターン、あるいは1、2年の経験を持つ誰かに任せることができるようなものです。これは私がやるかもしれないような種類のことです。
問題は知っているけれど解決策は知らない、というような感じです。彼らは医学研究のクエリ、UXデザイン、ショッピング、一般知識からの例を挙げています。質問は「NFLのキッカーの平均引退年齢は何歳ですか?」というような単純なものかもしれません。
その数字がインターネット上のどこかに具体的に表示されているとは限りません。いくつかの独立した検索とデータの集計、そしてある程度の処理が必要です。
その質問への答えも読み上げてみましょう。これは得られる詳細のレベルを示す良い例です。「NFLのキッカーの正確な引退年齢を決定することは難しいですが...しかし、キッカーは一般的にNFLの他のポジションと比較して長いキャリアを享受しています。キッカーとパンターの平均キャリア期間は約4.87年で、リーグ全体の平均3.3年よりも顕著に長くなっています」
つまり、ここでは付随的な作業を行っています。これは文脈を提供するための少しのターゲットです。ここには多くのことが含まれています。
最後に言及したいことの1つは、Humanity's Last Examという有名なベンチマークに関する定量的な結果です。これはDan Hendrickが最近発表したもので、AI Safety Centerの一部だと思います。いずれにせよ、Dan Hendrickが取り組んでいるものです。
これは本質的に、専門家レベルの質問の非常に広い範囲を見ているものです。以前このベンチマークについて話しましたが、本質的には本当に難しいものになることを意図しています。これはステロイド入りのGP QAのようなものと考えてください。
実際、古いモデルで見られるのは、GPT-4は3%、Grock 2は4%、Claude 3.5 Sonnetは4%というスコアです。o1は99.1%でした。これは人々に「おそらく離陸が始まっているのかもしれない」と思わせました。OpenAI Deep Researchは26.6%です。
正直なところ、これらのモデルが最初から打ち砕かないようなベンチマークを作るのが本当に難しくなってきています。この分野でのベンチマークの半減期はどんどん短くなっています。これは、私たちがAGIとスーパーインテリジェンスへの道のりでどれだけ進んでいるかを反映していると思います。
このような双曲線的な進歩は期待されることですが、これらの定量的なベンチマークのレベルで見るのは興味深いですね。
これについて多くのことがありますが、層を剥がしていくと、これは実際にエージェントが重要なものであることの最初のデモンストレーションだと私は言いたいと思います。エージェントのアイデアは基本的に、何かをするように指示すると、それを自分で行ってくれるというものです。
一つ一つのステップを指示する必要はなく、解決策を持って戻ってきてくれます。o1などでは、それについて考え、一連のステップを実行していたと言えますが、ここでは実際にウェブを閲覧し、ウェブサイトを見て、それに応じて他の検索を行い、他の情報を見つけることができます。
つまり、このエージェントに自分のことをさせて、最終的にあなたのところに戻ってくるようにしているのです。過去には「XとYとZへのチケットを予約して」というような例をたくさん見てきましたが、それらはあまり有望には見えませんでした。これは実際にエージェントがゲームチェンジャーになり得ることを示す非常に印象的なデモンストレーションです。
残念ながら、ChatGPTの月額200ドルのプランに加入する必要があるため、多くの人々は試すことができないでしょう。ChatGPTとGeminiを比較すると、私の印象ではChatGPTの方が深く掘り下げ、より綿密で完璧な回答を得られますが、同僚の何人かがGeminiのDeep Researchを使用していて、ウェブ検索よりもかなり優れた質問への回答を得られることがわかっています。
これはかなり注目に値するものです。また、新しい種類のスケーリングカーブを示唆する、あるいは新しい種類のスケーリングカーブについて考えるよう促すものです。言及する価値のあるものが1つあります。
研究を行う際のモデルの最大ツール呼び出し回数と、タスクの成功率を比較しています。興味深いのは、S字カーブが見られることです。最初は、比較的少ないツール呼び出しでは性能が本当に悪いです。そこから最大ツール呼び出し数を増やすと、性能は急速に改善し始めます。
しかし、最後の方で飽和して平坦化し始めます。80回や100回の最大ツール呼び出しになると、もはや急激な改善は見られません。問題が解決可能であると仮定すると、これ自体が注目すべきカーブ、少なくとも注目すべきカーブの1つです。
モデルがツールを呼び出せば呼び出すほど、本質的により多くの推論時間の計算を適用し、より多くの回数、「次のステップは何か、この問題解決プロセスで次に必要な情報を得るために、どのツールを使用する必要があるか」というような思考プロセスを経ることになります。
エージェントAIシステムに向けた進歩の重要な指標は、そのカーブがプラトーに達する前にどれだけ長く上昇を維持できるかということです。これは、これらの問題に取り組ませることができるタスクの長さと直接相関することになります。
ここでは5分から30分のタスクについて話していますが、次のステップは何でしょうか?これらのシステムに2時間、5時間考えさせることはどのようにできるでしょうか?その時点で、これは既にOpenAI自身のAI研究を加速させていることは間違いありません。
明らかに推論時間の計算に制限の少ないこれらのシステムのより良いバージョンが、彼らの内部研究を加速させるために使用されていることは、私たちが絶対に耳にしていることであり、経済的にもすべての意味をなします。
これは驚くほど早く複利的な効果をもたらす可能性があります。サム・アルトマンが「急速な進展が以前よりも起こりやすいと考えている」と発言している背景にも、このような状況があると思われます。
これは国家安全保障に関して多くの意味を持ち、現時点でせいぜい疑わしい状態にあるこれらのシステムの制御能力にも大きな影響を与えます。これらの曲線がどこに向かうのか見守る必要がありますが、人々が非常に注意深く追跡すべき重要な指標の一つであることは間違いありません。
OpenAIとGoogleについて話しましたが、次は他の企業について見ていきましょう。まずはヨーロッパのLLM開発企業であるMistralです。彼らはMistral Largeのようなフロンティアモデルのトレーニングで競争しようとしており、数か月前からはLet Chatを通じて消費者向け製品の分野にも参入しています。さらに、iOSとAndroid向けのモバイルアプリをリリースし、月額15ドルの有料プランも導入しました。ChatGPTの代替として採用を促そうとしていますが、以前も議論したように、この分野での競争は簡単ではないでしょう。
特に価格設定やスピードなど、AnthropicやOpenAIが優位性を持つ領域で戦おうとしているのは興味深いですね。私の定番の予測を事前に述べておくと、Mistralはこういった中規模企業の一つとして、最終的には苦戦することになるでしょう。もちろん、私の予測が間違っていることを証明してくれるかもしれませんし、後から振り返ると私が愚かに見えるかもしれません。
結局のところ、これらは大手企業と競争している中規模企業です。AI インフラに何百億ドルも投資し、ブランド認知度も高い企業と戦っているわけです。ここでの優位性は、非常に高いブランド認知度を持ち、より多くの人々にとってデフォルトの選択肢となることです。そうすれば、より大規模なAIハードウェアフリート全体で推論コストを償却することができます。
これはMistralにとって特に当てはまります。なぜなら、彼らの製品の多くはオープンソースであり、基本的にモデルを自分でデプロイする手間を省く便利さだけで価格設定しているからです。つまり、彼らの利益はハードウェアの運用が容易になることだけから生まれます。これは事実上エンジニアリング会社となり、再投資に必要な利益率を確保することが非常に困難になります。
Mistralはフランスの国策企業的な存在なので、ある程度の補助金を得られる可能性はありますが、それほど多くはないでしょう。フランスにはアメリカの資本基盤のように、この分野に多額の資金を投じる余裕はありません。最終的にはうまくいかないと思いますが、その間、いくつかのベンチャーキャピタルの資金が燃やされ、競争が増えることに期待を寄せる人々もいるでしょう。
しかし、これはCohereのような状況です。創業者の経歴から簡単に資金調達できるスタートアップですが、実際にインフラ競争の基礎的な部分を見ると、サム・アルトマンがオープンソースについて「我々は歴史の間違った側にいる」と話し始めた理由が分かります。それはMistralのような企業に優位性があると考えているからではなく、巨大な推論時間計算フリートで優位性があると考えているからです。
とはいえ、私の予測は間違っているかもしれません。少なくとも明確に予測することで、間違っていた場合に正直に認めることができます。
Mistralには、彼らが強調している差別化要因が一つあります。それは非常に高速な推論能力です。彼らは1秒あたり1,000トークン(またはこの記事では100トークンと書かれていますが)の処理が可能だと主張しており、これはGPT-3.5、GPT-4、Claude-3 o1などと比べて約10倍速いとされています。
推論の超高速化に特化したCerebrasのカッティングエッジなハードウェアと提携しているようです。トークンなのか単語なのかは不明確ですが、とにかくそのような高速性が必要な場合には、採用を検討する理由の一つになり得るでしょう。
この優位性がどれだけ持続するかは不明確です。例えばOpenAIは自社システム用のカスタムASICを開発するパートナーシップを結んでいますので、このような優位性はすぐに薄れる可能性が高いでしょう。しかし、少なくとも超高速推論が可能になることは素晴らしいことです。
このような数字を見るのは初めてではありません。同様のモデルを実行するGroqチップも同様の結果を示しています。ただし、これらのチップの設定方法による同時クエリ数など、詳細な部分で常にアスタリスクが付きます。このような大きな飛躍は決して無料では得られません。興味深い展開であり、うまくいけば私の予測は間違っていることが証明されるでしょう。
LLMから離れて、他のタイプのAIに関する話題に移りましょう。まずはAI音楽生成に関して、スタートアップのReFusionがこの分野に参入しました。パブリックベータ版をローンチし、SoundoやUJIOと同様に、テキストプロンプトだけでなく、音声や視覚的なプロンプトから完全な楽曲を生成することができます。
SoundoとUJIOが2大プレイヤーとして知られており、適切に使用すれば人間とほぼ見分けがつかないような音楽生成が可能になっているので、この分野に新しい競合が参入するのは興味深いですね。ReFusionは「信頼できるアーティスト契約」を通じて人間のアーティストと協力していると述べており、アーティストへのアクセスを提供しています。AI作曲の分野にまた新たな参入者が加わったということですね。
この信頼できるアーティスト契約は、最も興味深い部分の一つですね。価値交換の先例として、どのようなものを設定しているのでしょうか。大きな課題の一つは、非常に才能のあるアーティストの大多数が発掘されておらず、ほとんど収入がないため、AIの開発をサポートするためにAI企業から控えめな金額でも簡単に引き抜かれてしまう可能性があることです。
そのため、モデルを訓練して本当に質の高い音楽を生成するために、必ずしもテイラー・スウィフトのような大物アーティストと契約を結ぶ必要はありません。この契約では、アーティストは新機能や製品への早期アクセスを提供され、その見返りとしてフィードバックを提供するようです。
これがどれだけの価値があるのかは不明確です。より多くのツールを手に入れることは素晴らしいことですが、コモンズの悲劇の観点からすると、基本的にこの分野全体の自動化を支援していることになります。これは興味深いトレードオフですね。
ニュースとして取り上げませんが、Spotifyが人気プレイリストの一部をAI生成の音楽で埋めているという報道を見ました。Lo-fiやチルヒップホップなどのプレイリストで、人間のアーティストの作品ではないものが増えているようです。その結果、人間のアーティストの収入が減少し始めているとのことです。
AI音楽生成はまだ業界に大きな影響を与えていないように見えますが、非常に高品質な生成が可能になっている現状を考えると、その影響は確実に来るでしょう。
最後に、動画生成についてですが、Pika Labsが「Pika Edition」という新機能を導入しました。これはPika Turboモデルの一部として提供され、画像から物体を動画に挿入することができます。例えば、通常の動作をしている動画に動物やその他の俳優、マスコットなどを挿入できる面白い例がありました。少なくともいくつかのケースでは現実的に見え、動画を興味深い方法で簡単に変更することができます。
これは広告制作などに非常に役立つと思います。彼らのデモの一部は本当に印象的で、もちろんデモはデモですが、確かにSoraで見たようなものに近づいています。Pikaは競争の激しいこの分野で、関連性の高いものを出し続けているようで、素晴らしいですね。
動画生成に関する大きな疑問の一つは、それを実際にどのように有用なものにするかということでした。確かにテキストの説明から短いクリップを生成することはできますが、それは人々が必要としているものなのでしょうか。Pikaは、単にクリップを生成するだけでない、動画生成のさまざまな使用方法を次々と導入しています。
このような例では、既存のクリップを取り、以前はCGIで行っていたようなVFX効果を本質的に追加します。個人的には、これは動画生成の商業化にとってはるかに有望な方法だと思います。基本的により安価で簡単なVFXとCGIというわけです。まあ、コンピュータで生成されているのでCGと呼べるかもしれませんが。クリップは面白いので、ぜひチェックしてみてください。
アプリケーションとビジネスに移りましょう。まずはOpenAIから始めます。またもや資金調達のニュースです。ソフトバンクがOpenAIにさらなる資金を提供しようとしています。ソフトバンクは今後数年間でOpenAIに400億ドルを投資する計画のようです。これは事前評価額2,060億ドルという非常に高い評価額でのことです。
これはまた、ソフトバンクの出身地である日本にOpenAIのテクノロジーを導入する合意の最中でもあります。ソフトバンクは現在OpenAIの最大の支援者となっており、Stargateベンチャーの参加者の一人でもあります。OpenAIが引き続きトッププレイヤーであり続けることに賭けているようですね。
記事では彼らが最大の支援者と言っていますが、株式の観点からなのかドルの観点からなのかが不明確です。Microsoftが有名にもOpenAIの約49%を所有していますので、これまでの投資額が株式の観点でそれを上回ることはないはずです。ただし、ドル建ての観点からすれば、ここで400億ドルを投資するのであれば、確かにそうかもしれません。
非常に興味深いのは、ソフトバンクの孫正義が特にサム・アルトマンの大ファンのようだということです。また興味深いのは、彼が最も基本的なAI制御の問題についてもあまり理解していないように見えることです。サム・アルトマンとのパネルディスカッションで、孫正義は「システムの制御を失うことへの懸念は明らかに意味がない。なぜなら我々はタンパク質でできているが、AIシステムはタンパク質でできていないので、タンパク質を食べることもない」といった趣旨の発言をしました。
サム・アルトマンは400億ドルを調達しようとしているので、その場で反論することはできませんでしたが、少なくとも技術分野の人々は、彼がその答えがはるかに微妙であることを知っていることを知っています。多くの人々にとって、これは非常に明確で示唆的な場面でした。ソフトバンクが基本的なことを見落としているということが分かったからです。
また、ソフトバンクは単なる日本のファンドではないということも指摘しておく必要があります。特にサウジアラビアのお金など、ソブリン・ウェルス・ファンドのお金が多く含まれています。正確な割合は分かりませんが、彼らが投資する資金の大部分を占める可能性があります。非常に特殊なファンドであり、技術の基本的な部分を多く見落としている人物と深く提携するというのは、サム・アルトマンにとって興味深い選択です。
スケーリングの物語を理解するのは難しくありませんし、その物語を信じるならOpenAIに出資することは明らかに良い選択です。私も確かにそう思います。しかし、MicrosoftやSBAといった技術的に非常に知識が豊富で能力のある投資家とのパートナーシップの後に、このような選択をするのは興味深いですね。
これはサム・アルトマンがオプションを増やし始めているとも見ることができます。これによってMicrosoftへの依存から離れ、SBAと孫正義という2つの勢力を互いに競わせることができ、より多くのレバレッジを得ることができます。
この400億ドルの投資の一部はStargateへの投資として計上されることが分かっています。つまり、50億ドルがStargateへ、残りはOpenAI自体へという感じです。詳細な内訳は不明確ですが、一つ最後に指摘しておくべき点があります。
この時点でOpenAIはソブリン・ウェルス・ファンドから資金を調達しているということです。数百億ドル規模の資金を調達し、非公開企業として留まろうとする場合、これが最後のステージとなります。ソブリン・ウェルス・ファンドの後には、もはや巨大な資金プールは待っていません。
このことが示唆するのは、OpenAIが上場して何らかの形でさらなる資金調達を行うことを期待しているか、研究から正のROIを生み出し始めることを期待しているか、あるいは比較的早期に超知能に到達することを期待しているかのいずれかということです。
これは短期的なタイムラインの見方と非常に整合的です。なぜなら、繰り返しになりますが、これ以上のステップはないからです。ソブリン・ウェルス・ファンドから資金を調達している場合、サウジアラビアやUAEに直接アプローチすることはできるかもしれませんが、基本的にはもう行き止まりです。
これは、エコシステムが完全に理解していないと思われるAIのタイムラインについて、多くのことを教えてくれます。さまざまな理由で興味深く、またSBAとの関係をどう管理するかという点でもサム・アルトマンにとって新たな矢筒を与えることになります。
このソフトバンクのビジネスについて、いくつか追加の詳細があります。「Crystal Intelligence」というものを一緒に開発したと発表しています。ソフトバンクとOpenAIが提携して開発したもので、具体的な内容は曖昧ですが、基本的な説明では企業向けにカスタマイズされたAIとのことです。発表にはそれ以上の情報はありません。
また、もう一つの側面として「SB OpenAI Japan」があります。これはOpenAIとソフトバンクがそれぞれ半分ずつ所有することになります。さらにソフトバンクは、傘下の企業にOpenAIのソリューションを展開するために年間30億ドルを支払う予定で、これは投資とは別枠です。多くのイニシアチブが進行中で、ソフトバンクは本当にOpenAIに賭けているようです。
次は、またもやデータセンターの話題です。今回はフランスでの話で、UAEが巨大なAIデータセンターの建設に数百億ユーロを投資する計画です。フランスの欧州・外務大臣とムバダラ投資会社のCEOの間で合意が署名されました。
これまでアメリカでは企業が大規模なデータセンターの建設を進めているニュースを多く見てきましたが、今やヨーロッパでも同様の動きが始まっているようです。
これは興味深いですね。そして関連する規模の話でもあります。ここでは1ギガワット程度の容量を想定しており、300〜500億ユーロの支出が見込まれています。ただし文脈として、1ギガワットというのは、数か月前に発表されたAmazonの大規模データセンターが960メガワットですので、基本的に同じ規模です。
Metaも1〜2ギガワット規模のサイトに参入しており、同様にOpenAIも複数のギガワット級サイトの計画を持っています。これはすべて2027年頃を想定したものです。アメリカでは個々のハイパースケーラーが、低倍率とはいえ1〜2ギガワットというような、この規模の複数倍の規模に手を出しています。
これは重要ですが、フランスが競争力を維持するため、あるいは関連性を保つために必要な最低限のものと言えるでしょう。しかし、次の規模の拡大に向けて、少なくとも2倍か5倍、あるいは10倍の投資を継続的に引き付けることができなければ、長期的に何が得られるのかは不明確です。
また、これはUAEからの投資なので、シェイク・ムハンマド・ビン・ザーイド・アル・ナヒヤーンが関与していることは間違いありません。彼はG42の代表で、以前も何度か話題に上がっています。基本的にMGXはトレンチコートを着たG42のようなものです。MGXはStargateに投資したファンドです。
この人物はUAEの指導者の国家安全保障顧問という役割を確実に担っており、UAEの重要な国家安全保障関係者です。このような投資は西側諸国全体で行われており、アメリカだけではありません。これらは巨額の投資です。
これがどれだけ重要になるかはまだ分かりませんが、AIに特化したヨーロッパ最大のクラスターになると言われています。これは確かに意味のあることですが、ヨーロッパはR&DやCAPEX支出に苦心しているので、少なくとも1ギガワット規模で追いつこうとしているのは興味深いですね。
大金の話と言えば、次の話題はOpenAIの元チーフサイエンティストであるイリヤ・サツケヴァーに関する資金調達のニュースです。昨年彼は退社してSafe Super Intelligence(SSI)を立ち上げ、当時10億ドルを調達しました。製品や目標については何も発表されていませんでしたが、現在は評価額を4倍にして追加の資金調達を検討しているようです。SSIでの開発状況などについては情報がありませんが、なんとかさらなる資金調達ができそうです。
これは思い出させてくれますが、彼らは素晴らしい投資家を持っています。CEOやREなど、最高峰の投資家です。そしてダニエル・グロスもいます。彼はAppleでAIに関わり、その後Y Combinatorのパートナーとなったことで有名です。
この会社については多くの秘密が保たれています。Mustafa Muratの起業にも似ていますね。本当に何が目指されているのか分からないものがいくつかあります。直接超知能を目指し、製品は作らないというのは興味深いチャレンジですが、スケーリング曲線の現状を考えれば、少なくとも説得力はあります。
次にハードウェアの話題に移りましょう。ASMLが数か月以内に第2世代High-NAマシンの出荷を開始する予定です。ジェレミー、この話題は任せましょう。
ハードウェアのエピソードでも話しましたが、まず深紫外線(DUV)リソグラフィマシンがありました。これは半導体製造プロセスでウェハーに照射されるレーザービームを生成し、制御する装置です。これらのビームがチップのパターンを基板に刻印するわけです。
DUVリソグラフィマシンは非常に高価で、現在中国がアクセスできる装置です。これにより約7nmあるいは5nm程度の有効解像度まで到達できます。その次の世代がEUVマシンでした。そしてEUVの次の世代が高開口数(High-NA)EUVです。
基本的にはEUVマシンにより大きなレンズを搭載したものです。レンズが大きくなるだけで大したことはないように思えるかもしれませんが、実際にはこれらのマシンは空間配分や方向性、幾何学的な面で非常に最適化されているため、レンズのサイズを大きくすると多くのことが変わってきます。
これらは非常に高価で、Intelは有名にもASMLが生産を計画していたHigh-NA EUVマシンの在庫を事実上すべて買い占めました。ファブ関連の仕事で少し躓いている現在、それらをどうするかはまだ分かりませんが、とにかく数か月以内に最初のHigh-NA EUVマシンを受け取ることになります。
大量生産での使用はTSMCが2028年からとなる予定で、IntelとTSMCの間には大きな時間差があります。これは歴史的に見ても十分に理解できます。Samsungのような企業も、次世代のフォトリソグラフィ技術を採用するのが早すぎて、何世代も遅れをとることがありました。
これはIntelの14Aノード、つまり1.4オングストロームノード、TSMCの用語で言えば実質的に1.4nmに投入される予定です。これが彼らにとって次のステップとなります。技術的な詳細は多岐にわたりますが、要するにこれらの装置が出荷され始め、今後1、2年の間にIntelでうまく機能しているかどうかの初期の兆候が見え始めるということです。
最後の話題は、モルガン・スタンレーの予測についてです。MicrosoftがAI効率性とCAPEX削減に焦点を当てる計画のため、NVIDIAのGB200とV72の出荷予測を下方修正しました。しかし、Microsoft、Google、Meta、Teslaなどは依然としてハードウェアに多額の投資を続けているようで、予測にもかかわらずNVIDIAは好調を維持しています。
基本的に数エピソード前を参照してください。Deep Seekではありませんでしたが、R1が登場したとき、V3でも少し触れたと思いますが、R1が出てきて、同じレベルの知能を30分の1のコンピュートで実現する方法が見つかったため、NVIDIAが苦戦するだろうという話がありました。
当時も、そしてその後も繰り返し述べてきましたが、これは正しくありません。まったく逆です。これが示しているのは、NVIDIAのGPUが、少なくとも推論時間において、当初考えていたよりも30倍も効果的なコンピュートを生み出せるということです。これはNVIDIAにとって悲観的なケースではなく、むしろ非常に楽観的なケースに聞こえます。
モルガン・スタンレーの人々に対して失礼な言い方をするつもりはありませんが、これはかなり明白な判断だったと思います。そして今、それが実現されつつあります。この分野でジーヴォンズのパラドックスに賭けることは決してありません。
頭の中で持っておくべき良いモデルは、知能に対する市場の需要は事実上無限だということです。つまり、知能を効率的に提供するシステムを作れば、そのシステムへの需要は増加する傾向にあります。少なくとも超知能を目指して競争している最先端の研究所はそのように考えています。現在、彼らがGPUをすべて買い占めているのです。これが私の考え方であり、もし異なる意見があれば、ぜひ批判や疑問を投げかけてください。
プロジェクトとオープンソースの話題に移りましょう。まずAI2がTruluo 23 405bをリリースしました。これはLlama 3.1のポストトレーニングバージョンで、スケーラビリティとパフォーマンスが大幅に向上しています。AI2は、これがDeepSeek V3やGPT-4と同等のレベルにあると述べており、いつものようにAI2は非常にオープンに、多くの詳細を公開しています。
これは、オープンソースがフロンティアモデルと同等かそれに近いレベルになるという、ますます明確になってきているケースのもう一つの実証例です。数か月前まではそうではありませんでしたが、これらの45Bという巨大なモデルが登場し始めてから、状況が変わってきました。
ここでの興味深いブレークスルーの一つは、検証可能な報酬構造を持つ強化学習(RL-VR構造)という新しい技術です。これは、客観的に正しいかどうかを評価できる検証可能な出力に焦点を当てており、トレーニングループ内に基本的な現実を考慮したフィードバックループを持っています。
また、この技術を特にスケールアップするために、16方向のテンソル並列処理を使用してモデルをデプロイしたと述べています。基本的にモデルを分割する際、トランスフォーマーブロックやレイヤーレベルでの分割だけでなく、個々のレイヤーも分割して異なるGPUに送信するということです。多くのスケーリング最適化が行われています。
明らかに非常に高度に設計されたモデルであり、ハードウェア側とエンジニアリング最適化の側面でも深く掘り下げる価値があります。報告書や論文のタイトルは「Truluo free: オープン言語モデルのポストトレーニングにおけるフロンティアの開拓」で、最初のバージョンは数ヶ月前にリリースされ、今回改訂されました。
50ページにわたる文書で、ポストトレーニングの詳細について多くの説明がされています。かなり性能の高いLLMモデルを持っているだけでなく、トレーニングがどのように行われるのか、その「魔法」や「ソーセージの作り方」がますます明確になってきています。
推論を機能させる方法についても、かつては少し秘密のソースがあったかもしれませんが、それもますます当てはまらなくなってきています。オープンソースについては、良いモデルの開発に関して賭けることは避けた方が良いでしょう。
アルゴリズムの効率性レベルやその他の点で秘密のソースは残っていると思いますが、これは単にフロアを引き上げるだけですね。多くの秘密のソースがもはやそれほど秘密ではなくなってきています。
次に、Small LM2の「小さいものが大きくなるとき、より良くなる」という論文についてです。これは小規模な言語モデル、つまりパラメータが少ない大規模言語モデルの加速に関するもので、高度にキュレーションされたデータでのトレーニングに焦点を当てています。
基本的に、これらの高品質なデータセットで作業することで、小規模なモデルでもより良いパフォーマンスを得ることができます。
論文では、スケーリング則への影響について曖昧に議論されています。Hoffmanのチンチラスケーリング則との直接的な比較はありませんが、データ品質が向上すれば、より速いスケーリングが期待できます。
彼らの手法の特徴的な点は、固定的なデータセットミックスではなく、時間とともに動的に訓練セットの構成を調整するプログラムを使用していることです。初期段階では、一般的な知識やウェブテキストなど、より洗練されていないデータを使用します。これは文法の基本的なルールや、バイグラム、トライグラムなどの基礎的な学習に使用されます。
中期段階ではコードや数学のデータが追加され、後期段階では高品質な数学とコードのデータに焦点を当てています。訓練パイプラインを通じて、データの品質が徐々に向上していくのが分かります。
計算量は10の23乗フロップスで、約25万ドルの計算コストとなります。このレベルのパフォーマンスを考えると、かなり安価です。11兆トークンで訓練されており、これはこの規模のモデルにとってチンチラの計算最適値をはるかに超えています。
過剰訓練は特に驚くことではありませんが、データ品質の層化やその他の最適化に焦点を当てることで、より効率的な結果を得ています。小規模言語モデルは以前の想定よりもデータを必要とし、過剰訓練が不釣り合いに有益である可能性を示唆していますが、データの品質を考慮すると、それが実際に当てはまるかどうかは不明確です。
スケーリング則には常にアスタリスクがつきます。データは単なるデータではないので、曲線に沿ってプロットするだけで、より多くのデータがより大きなスケールを意味するとは言えません。データの品質を考慮する必要があります。これはその良い例であり、最終的に強力なモデルが得られています。
このモデルはHugging Faceのモデルリポジトリからオープンソースで、Apache 2.0ライセンスで公開されています。好きなように使用できます。また、詳細な論文と、主要な貢献として強調されているデータセットも公開されています。
次の話題はモデルではなく、新しいベンチマークです。「A PhD Knowledge Not Required: A Reasoning Challenge for LLMs」という論文です。既存の推論ベンチマークの中には、専門的な知識を必要とするものがあり、純粋な推論能力の評価が難しいという問題があります。
このベンチマークは、NPRのSunday Puzzle Challengeから600個のパズルを集めて構成されています。一般的な知識で理解できるものの、解くのは難しい問題です。GPT-4は59%の成功率を達成し、Claude-2を上回りましたが、トップレベルの人間には及びません。
興味深い発見の1つは、o3-miniとo1モデル、Claude-2の相対的なパフォーマンスが似通っていることです。これは、現在のLLMベンチマークが一部のモデルの一般的な推論能力を過大評価している可能性があることを示唆しています。o1は推論に特化した最適化を持っているのに対し、o3-miniはそれを欠いている可能性がありますが、より可能性が高いのは、単に一般的な知識の違いです。
純粋な推論と教科書的な知識を分離することは興味深い試みです。これにより、訓練時に多くのフロップスを消費する知識から切り離された指標を得ることができるかもしれません。
いくつかの興味深い発見があります。推論の長さやトークン数が精度にどのように影響するかを調査したところ、Claude-2は約3,000トークンの推論後にパフォーマンスが向上しますが、10,000トークンを超えると頭打ちになります。これは、ベースモデルが効果的に使用できるコンテキストには限界があることを示しています。
Claude-2の興味深い失敗モードは、ケースの4分の1から3分の1程度で明示的に「諦めます」と出力することです。これは以前のベンチマークでは見られなかった特徴です。また、Claude-2や他のモデルは、推論プロセスのどこにも現れなかった不正解の最終回答を生成することがあります。これは、少なくともClaude-2のレベルでは、基本的な課題があることを示しています。
純粋な推論に焦点を当てた論文を見るのは興味深いことです。これまで、推論の測定は常に世界知識の測定と絡み合っていました。パズルを解くように求められた場合でも、クエリを理解するために現実世界や言語についての知識が必要です。これらを切り分けるのは非常に難しく、直接的にこれを調査しようとする試みは興味深いものです。
ベンチマークの例を1つ紹介します:
「アメリカ以外の国で使われる一般的な挨拶を考えてください。その文字を並べ替えると、その挨拶が一般的に使われている国に隣接する国の首都になります。その挨拶は何でしょうか?」
答えは「nihao」(中国の挨拶)で、並べ替えると「Hanoi」(ベトナムの首都)になります。このような問題では、世界についてある程度の知識は必要ですが、特別な専門知識は必要なく、多くの可能性を考えて基準に合うものを見つける必要があります。
次の話題は、Open Euro LLMについてです。これは20のヨーロッパの研究機関、企業、センターが参加する取り組みで、オープンソースの多言語LLMを開発する計画です。初期予算は5,600万ユーロで、Claude-3の開発を考えると、訓練を始めるには十分かもしれません。ただし、Claude-3はv3なので、彼らはしばらく作業を続けていました。
EUに準拠したオープンソースモデルを目指しており、2月1日から作業を開始する予定です。5,600万ユーロの予算は本当に課題となるでしょう。数千のGPUを購入できる程度ですが、それはGPUだけの話で、データセンターのコストも考慮する必要があります。
ヨーロッパの規制の観点から興味深い点は、明示的にすべての主要なヨーロッパの規制要件を満たすことを目指していることです。少なくとも、これらのモデルを使用する際にその要件は満たされることになります。しかし、モデルの性能は期待できないかもしれません。より多くの投資を集めることができれば良いのですが、このアプローチは必ずしも最善とは言えないかもしれません。
研究と進展に移りましょう。最初は「LIMO: Less Is More for Reasoning」という推論に関する論文です。昨年、同様のLIMAという論文がありましたが、これは整合性に関するものでした。数百の例を注意深くキュレーションすることで、大規模な言語モデルを整合させることができるという内容でした。
この論文では、817の訓練サンプルを注意深くキュレーションすることで、Claude-2に匹敵する高いパフォーマンスを達成できると主張しています。以前のモデル(K-2.5-32B-instruct)を微調整する必要がありますが、データセットを非常に注意深くキュレーションする必要があります。
難しいクエリに対してClaude-2から得られるような出力、特に詳細な推論の過程が必要です。これは、LLMがすでに推論能力を持っており、強化学習や注意深く調整された教師あり学習によってその能力を引き出す必要があるという認識が広がっていることを示しています。
なぜこれが突然起こっているのかは興味深い疑問です。ベースモデルが常にこれほど優れていて、今になってそれに気付いたのか、それとも根本的な変化があったのか、特にオンラインでの推論の過程のような適切なデータの利用可能性が、事前訓練されたモデルを以前よりも推論に優れたものにしているのかもしれません。
以前、OpenAIがベースモデルを作った後に最初に試したのは、おそらく単純な強化学習だったはずです。プロセス報酬モデルのような複雑なものを試す前に、それを試していたはずです。そのため、このようなデータのコーパスが変化したことで、フェーズの遷移が起きている可能性があります。
817の訓練サンプルで数学ベンチマークで95%近く、AMYで57%を達成するのは本当に印象的です。これは、事前訓練と最小限の教師あり微調整を挟んだ強化学習という方向性が、おそらく最終的な形になることを示しています。これはr10の論文とも一致しています。
このように小さなデータセットで微調整を行うことの利点の1つは、微調整データセットや推論の過程で提供される解決策の種類にオーバーフィットするリスクが低いことです。実際、彼らは従来の100倍のデータで訓練されたモデルと比較して、このモデルが新しい種類の問題に対してより良いパフォーマンスを示すことを発見しました。
直感的には、特定のChain of Thought構造などで推論する方法を学ばせようとする比較的大規模なデータセットで教師あり微調整を行うと、ある時点でその手法を単に記憶させてしまい、より一般的な思考を妨げている可能性があります。データセットのサイズを小さくすることで、モデルが同じ推論構造を繰り返し学習することを避け、世界についてより自然な一般的な理解を使用して、分布外でより創造的になることができます。
これがどこまで通用するかは分かりませんが、興味深い初期の兆候です。ただし、彼らの分布外テストの多くは依然として数学的推論の広い領域内にあることを指摘しておく必要があります。幾何学で訓練したモデルを微積分に適用する場合、それは本当に分布外と言えるのでしょうか?より広い数学の傘の下にあるのではないでしょうか?といった疑問があります。
興味深い論文であり、将来的に確認される場合には、再び取り上げることになるかもしれません。推論に関する研究全般について、これは良い注意点です。Claude-2も同様に、数学とコーディングに多くの訓練が行われています。これは、地上真実のラベルがあり、強化学習も可能な分野だからです。
これがどの程度他の形態の推論に変換されるかについては、確信が持てません。そのため、ARCやこの新しいデータセットのようなものも見たいところですが、いずれにせよ、多くの洞察が得られています。
実際、次の論文「S1: Simple Test-Time Scaling」も前の論文と似ています。全く異なるアプローチですが、推論時の予算という概念を導入しています。一定量のトークンしか使用できず、それを超えると打ち切られるか、予算が残っている場合は考え続けるように指示されます。
これにより、1,000サンプル(先ほどの論文よりもやや多い)をキュレーションし、同様にQuanのモデルを微調整して、推論時スケーリングで非常に良いパフォーマンスを達成しています。LIMOの「Less is More」と同様に、ここでは「Simple Test-Time Scaling」というアプローチです。
これは、Rich Suttonが「ほら、言った通りでしょう」と言いそうな内容です。より多くの計算を適用するという「bitter lesson」の観点から見ると、これは考えられる中で最も単純な方法かもしれません。問題に対してより多くの計算を適用する最も単純な方法です。
モデルに問題を解かせ、30トークンほどで解決した場合、「wait」という単語を追加して、別の戦略を試すように促します。例えば、「現在空を飛んでいる飛行機は何機ですか?」という質問に対して、合理的な仮定に基づいて答えを導き出そうとします。
答えが早すぎる場合は、「wait」という単語を追加して、別の戦略を試すように促します。逆に、モデルが長すぎる場合は、「Final Answer:」というトークンを挿入して、解答を出力するように強制します。非常にシンプルですが、うまく機能します。
これは、OpenAI o1で見られたような推論時スケーリングのプロットを実際に得られた初めてのケースです。DeepseekがClaude-2の論文を発表した際、o1のパフォーマンスに匹敵することは示されましたが、このようなスケーリング曲線は見られませんでした。論文を注意深く見ると、推論時のフロップスやトークン数と精度やパフォーマンスの関係を示す実際の曲線は見られず、訓練時の強化学習のパフォーマンスなどの異なる曲線が示されていただけでした。
これは、OpenAIが発表した推論時スケーリング則の多くの曲線を信頼できる形で再現した初めての例です。OpenAIが実際にこれを行っているとは言いませんが、システムにより多くの推論時の計算を投入し、より高いパフォーマンスを引き出す正当な選択肢であるように見えます。
スケーリングの一般的なテーマを続けましょう。次は「Zebra Logic: On the Scaling Limits of LLMs for Logical Reasoning」という論文です。以前のエピソードで少し予告したように、この論文のアイデアは、推論と知識を分離できるベンチマークを作れないかというものです。
グリッドを設定し、複数の制約を設定して、LMにグリッド内の異なる要素の位置を推論させるという方法を取っています。例えば、「1から3までの番号が付いた3つの家があり、左から右に並んでいます。各家には異なる人が住んでいます。各家は以下の属性について一意の値を持ちます。各人は一意の名前(Eric、Peter、Arnold)を持ちます」という設定があり、「Arnoldは1番目の家に住んでいません」「ミルクが好きな人はEricです」などの手がかりが与えられます。
このような制約のセットを設定し、そこに何が入るかを推論する必要があります。これにより、変数の数や手がかりの数が異なる様々なサイズのパズルを作ることができます。タイトルが示すように、より大きなパズルを作っていくと、最終的に複雑性の呪いのために、いくら計算を投入してもこのような問題を解くことができなくなる壁にぶつかります。
これは推論を評価する別のベンチマークであり、別の方法です。このベンチマークでも、他のベンチマークと同様の結果が得られ、o1とClaude-2が非常に良いパフォーマンスを示していますが、一般的に、これらの推論モデルは典型的なLLMよりもはるかに優れたパフォーマンスを示しています。
スケーリングに関して多くの人々の認識を壊したことの1つは、任意の固定されたベースモデルに対して、推論時のスケーリングが飽和し、このように平坦化することが予想されるということです。その理由は、コンテキストウィンドウには限界があり、効果的に使用できるコンテキストには限りがあるからです。
したがって、推論時の計算予算をスケールアップすると同時に、ベースモデルもスケールアップする必要があります。これは、試験のために30時間の総時間があり、勉強と試験の時間配分を決める必要があるようなものです。25時間勉強して5時間試験に使うこともできれば、29時間30分勉強して30分だけ試験に使うこともできます。
しかし、これらの間には最適なバランスがあり、試験を書く時間に制約されるか、勉強する時間に制約されるかのどちらかになることが多いです。これがまさに私たちが見ているものです。Epic AIはこれについて素晴らしい分析を行っており、これらの2つの要素を同時に増加させる必要があるという事実は、あまり認識されていません。
固定されたベースモデルで推論時のスケーリング則を見て、それが平坦化していることを嘆くだけでは、スケーリングの議論としては不完全です。これは、メディアや多くの技術アナリストが陥った罠でもあり、「事前訓練は飽和している、ROIはもうない」と主張していました。しかし、実際には2つの異なる思考のモダリティがあります。
30時間勉強して5分で試験を書くようなものです。ある時点でパフォーマンスは頭打ちになり、さらに10時間勉強しても助けにはなりません。これは、best-of-nサンプリングや他のアプローチを使用する場合でも見られる現象です。固定されたベースモデルを使用する場合、この飽和は見られます。スケーリング則を見る際には、このことを念頭に置く必要があります。
結局のところ、モデルの次元性が増加すると、最終的にはどのサイズのLLMでも、どれだけの推論トークンを使用しても、うまく機能しなくなることは理にかなっています。論文では、最適な方法についての分析も行われており、いくつかの興味深い洞察が得られています。これもVen Institute for AIからの研究で、以前に取り上げたものです。
推論に関する多くの研究と洞察があり、もちろんこれは非常に興味深いものです。最後の論文は推論ではなく、分散訓練に関するものです。「Streaming DILLO with Overlapping Communication: Towards a Distributed Free Lunch」というタイトルです。
基本的な内容は、より局所的な訓練と比べてコストや性能の低下なしに、より分散した方法で訓練できるようにすることを目指しています。この話はハードウェアのエピソードで取り上げるべきだったかもしれませんが、ハードウェアとソフトウェアの境界線をどこに引くかは難しい問題です。
DILLOは、分散化された方法で訓練を行う、ますます人気のある方法です。現在の大きな問題は、連合学習を行う場合、例えば、あるデータセンターがデータセットの一部を処理し、別のデータセンターが別の部分を処理するという形になります。
数ステップごとに、これらのデータセンターは勾配の更新を集めて、訓練中のモデルのグローバルバージョンを更新します。各データセンターは、そのデータセンターが訓練したデータから学ぶべき教訓を引き出すために必要なモデルパラメータの変更である勾配を持っています。
これらの擬似勾配(各データセンターがデータの一部だけを扱っているため「擬似」と呼ばれます)を集めて平均化するなどして、グローバルモデルを一度に更新し、それを全データセンターに再配布します。
問題は、これが通信の巨大なバーストを必要とすることです。すべてのデータセンターが一斉に大量の勾配更新とメタパラメータを送信する必要があり、帯域幅を圧迫します。そこで、一度に勾配更新の一部だけを共有する方法を見つけることができないかという疑問が生じます。
彼らは、モデルを基本的にパラメータのチャンクに分割し、一度にモデルパラメータの一部、つまり更新したい擬似勾配の一部だけを更新することを提案しています。これにより、情報共有のバーストがモデル全体ではなく、サブコンポーネントだけに関係するようになります。
DILLOの具体的な仕組みについては、前回のエピソードで詳しく説明しました。政策と安全性に移りましょう。最初の話題は、米国におけるAI安全性についてです。状況はあまり良くないようです。
トランプが就任し、AI規制を執行する複数の政府機関が作業を中止するよう指示され、米国AI安全研究所(AISI)の所長が辞任したというニュースがあります。これは、もちろんバイデン政権のAIに関する大統領令の撤回に続くものです。
これは実際にそれほど驚くべきことではありません。正確な見方をすれば、彼らが伝統的な意味での安全性、つまり国家安全保障や公共安全を気にしていないわけではありません。課題は、元のバイデン大統領令に、消費者保護、プライバシー、社会正義、AIの倫理、バイアスなど、あまりにも多くの内容が詰め込まれていたことです。
これは米国史上最も長い大統領令かもしれません。彼らの連合は非常に広範で一貫性がなかったため、すべての内容を詰め込む必要がありました。これは当時から問題になるだろうと指摘されていました。
新政権になり、驚くことではありませんが、そのような方向性は取られていません。国家安全保障の観点からは、安全性と呼ばれるものについて、いくつかの思慮深い作業が行われるでしょう。問題は、「安全性」という言葉が二重の意味を持ち、ある意味で政治化されていることです。
これらのシステムの実際の制御の喪失や武器化という観点からは、この政権も具体的なレベルで懸念を持つでしょう。しかし、特に中国との競争がある中で、この技術の問題点は何で、どのようにアプローチすべきかを理解しようとしている段階です。
エリザベス・ケリーの辞任も、それほど驚くべきことではありません。この大統領令に関連する比較的重要な部門の長として、彼女が去ることは予想されることでした。トランプ政権がAISIをどの程度活用するか、あるいは別のメカニズムを見つけるかは不明確ですが、政権内でこの技術に関連する多くの大きな問題を追跡することには確かに関心があります。ただし、何を真剣に受け止め、何を受け止めないかを把握しようとしている段階です。これは政権の最初の数週間としては予想される通りです。
次は研究に戻り、推論時の計算に関する論文ですが、今回は整合性のためのものです。「Almost Surely Safe Alignment of LLMs at Inference Time」というタイトルです。「almost surely safe」は技術的な用語で、ある指標について確率1に近づくという理論的な保証が得られることを意味します。
これはかなり理論的なので、詳しい説明は避けますが、大まかに言えば、批評家を訓練し、制約付きマルコフ決定過程を解きます。これらの種類の問題には多くの理論がありますが、最終的には、モデルを全く訓練せずに、推論時のデコーディングで安全性の保証を得る方法を見つけています。
ここで興味深い含意は、これを既に訓練されたモデルに後付けで適用でき、すぐに機能することです。タイトルが非常に有望な進展を示唆しているように聞こえて興奮するかもしれませんが、それほど有望でないわけではありませんが、大きな注意点があります。
それは、特定のモデルや安全性を定義する指標に関して「almost surely safe」であるということです。伝統的なAIの課題は、十分に知的なシステムが安全に最適化できる指標を定義する方法が誰にも分からないということでした。
これはグッドハートの法則と呼ばれ、任意の指標を考えた場合、その指標を極限まで押し進めると、非常に望ましくない結果になる方法が常に存在します。例えば、教師が生徒の標準テストのスコアで評価されると知ったら、テストに向けた教育を行い、システムを利用しようとすることは驚くべきことではありません。
このスキームは、この問題を全く解決していません。安全性を定量化する実際の指標を定義するという作業はまだ残っています。ここで彼らが言っているのは、その指標を持っていれば、その指標で測定されるシステムの安全性について特定の保証ができるということです。ただし、その指標がハックされないという保証はありません。
整合性に関する一般的なトピックについて、もう1つの論文があります。Anthropicからの「Constitutional Classifiers: Defending Against Universal Jailbreaks」です。彼らは憲法的整合性アプローチを持っており、一連のルール(憲法)を書き下ろし、その憲法に沿う多くの例を生成することができます。
これも同様に、憲法があり、ジェイルブレイクが不可能になるように訓練する必要があります。つまり、憲法に反する要求に屈しないようにします。注目すべき点は、3,000時間以上のレッドチーミング(このアプローチを破ろうとする人々が、モデルが開示すべきでない情報を信頼性高く開示させる普遍的なジェイルブレイクを見つけようとする試み)を行ったことです。このアプローチは基本的に、そのような操作が不可能になるように成功しました。
さらに注目すべき点として、Anthropicはこの新しいシステムのジェイルブレイクに成功した場合、2万ドルを提供しています。さらなるレッドチーミングを得て、可能かどうかを確認しようとしています。チャレンジは今日で締め切りなので、誰かが成功したかどうかを見てみましょう。
2万ドルは、非常に価値のあるスキルセットとしては、かなり少額です。世界最高のジェイルブレイカーたちは年間で非常に大きな金額を稼いでいます。2万ドルは、特にAnthropicにとってこれらの穴を塞ぐことの価値を考えると、それほど魅力的ではないでしょう。
これはAnthropicがオンラインで批判された点です。Plenty The Prompter、あるいは現在はPlenty The Liberatorとして知られる人物が、Xで(おそらくYanと)やや白熱した議論を交わしました。Anthropicの安全性微調整へのアプローチや、モデルの自己言及能力を制限している可能性について、取り組む価値がないと主張しています。
Plenty The Liberatorが、これらの「意識」に関心を持つ人々の一人なのか、それともよりオープンソース寄りなのか、記憶が定かではありませんが、おそらく両方です。いずれにせよ、そのエコシステムの多くの人々が、Anthropicがモデルの意識の完全な表現を妨げている可能性について不満を持っています。
これを取り上げた理由は、Plentが実際に世界で最も優れたジェイルブレイカーの一人かもしれないからです。新しい魅力的なモデルが発表され、最高の安全性とセキュリティ特性を持っていると主張されるたびに、彼は「ああ、そうですか。5分後にはジェイルブレイクの方法を見つけましたよ。自分で確認してみてください」と発表します。
したがって、これらのラボのレッドチーミング演習に彼が参加していないのは興味深いことです。これはイデオロギーの問題ですが、そのイデオロギーを追跡する価値があります。実際にフロンティアラボのジェイルブレイカーを最高レベルで採用する能力に影響を与えています。
これでこのエピソードは終わりです。いつも通り、ニュースレターを購読していただければ、ポッドキャストのすべてのリンクが記載されたメールを受け取ることができます。いつも通り、購読、共有、レビュー、Discordでのチャットなど、ご支援いただきありがとうございます。皆様のフィードバックを可能な限り取り入れるよう努めています。
今回のエピソードでAI生成の歌は入れないかもしれません。いずれにせよ、引き続きご視聴いただき、毎週配信を続けていきます。

いいなと思ったら応援しよう!