
AnthropicがClaudeに推論モデルをリリース予定、GoogleがYouTubeショートにVeo 2を統合
5,563 文字
人工知能の研究者たちがLLMの推論能力の背後にある重要な要因を明らかにしました。AIを推論モデルと組み合わせることは、今やほぼ同義語となっています。それは非常に効果的だからです。
系統的な調査により、推論モデルの長い思考連鎖がどのように生成されるのかが明らかになりました。これは興味深い発見です。なぜなら、推論モデルは基本モデルの進化形に過ぎないからです。
InAI、清華大学、カーネギーメロン大学の研究チームは、AIモデルが長い思考連鎖を通じて作業する能力をどのように発展させるのかを調査しました。彼らの系統的な研究では、教師あり微調整(SFT)と強化学習(RL)を使用して、この能力の背後にある主要な要因を特定しました。
研究チームは4つの重要な洞察を得ました。第一に、教師あり微調整はトレーニングをより効率的で直接的にしますが、必須ではありません。これはDeepSのR10モデルが発見したことを裏付けています。チームはLLaMA 3.18bとQwen 2.57bを使用して、長短の推論連鎖データでテストを行いました。
より長い思考連鎖での教師あり微調整は、単により良いパフォーマンスを示しただけでなく、その後の強化学習の改善をより効果的にしました。
第二に、強化学習トレーニング中のより多くの計算能力は推論能力を向上させる傾向にありますが、これは保証されていません。推論連鎖の長さは、強化学習トレーニング中に必ずしも一定の形で成長するわけではありません。そのため、一貫した改善には適切な報酬設計が重要となります。
たくさん話すことが正しい答えを導くとは限りません。時には、より少ない言葉で直接的に答えを導き出す方が速いこともあります。だからこそ、正解により早く到達した場合に報酬を与える強化学習が必要なのです。
第三に、信頼できる報酬シグナルを大規模に得ることが、成功する強化学習トレーニングの鍵となります。これは、AIと動物の両方において強化学習を面白くする部分です。期待する行動に対してどのような報酬を与えるか、異なる文脈での異なる報酬が大きな違いを生み出します。
チームはWeb-Instructデータセットでテストを行い、不完全な解決策を含むウェブから抽出したデータの使用を探りました。彼らは異なる検証方法を比較し、より短い回答をフィルタリングする際にルールベースの検証が最も効果的だと発見しました。
多様なデータは、たとえノイズが少しあっても、慎重に検証されたデータで訓練されたモデルと比較して、特に珍しいケースへの対処に価値があることが証明されました。これは興味深い発見です。完璧に正確な単一の回答よりも、多少あいまいな回答が多数ある方がAIにとって好ましいように見えます。AIは正確さよりも適応性を重視しているようです。
第四に、基本モデルにはエラー修正などの重要な機能がすでに含まれていますが、複雑なタスクにこれらのスキルを適用するために強化学習を使用すると、かなりの計算リソースが必要になる可能性があります。これは強化学習の古くからの問題です。多くの段階を経る複雑なタスクにおいて、最終的な回答にどの段階が最も貢献しているのかを特定することが困難なのです。
より大きなモデルは依然として重要です。私たちは8Bモデルで超知能を実現することを夢見ていますが、それは現実的ではないようです。研究によると、オンラインフォーラムでの人間の議論から、解決策を二重チェックするなどの行動が事前トレーニング中に学習される可能性があることが示唆されています。ChatGPTがフォーラムを観察して人間の行動を学習し、時には二重チェックを行うのは興味深いですね。
強化学習は主に、モデルが事前トレーニング中にすでに獲得したスキルを再結合するのに役立つようです。これは心理学でも研究されている創発的行動に関連しています。行動AとBを持っている場合、行動CはAとBの組み合わせです。AIがすでに前段階を知っていれば、Cはすぐに獲得できるということです。
研究チームは、より洗練された推論能力の開発における主な制約は依然としてモデルサイズであると考えています。彼らは将来、より大きな基本モデルでの強化学習のテストを検討していますが、そのような実験に必要なオープンソースのインフラはまだ開発中です。
8Bモデルでの研究がうまくいっているとしても、630Bモデルでのトレーニングには、より多くのメモリ、トレーニングアーキテクチャ、そしてはるかに多くの資金が必要になります。小さなモデルでも推論は可能ですが、大きなモデルほど優れた推論はできないでしょう。
次のニュースです。YouTubeがGoogle V-2を使用してショート動画のAI生成機能を導入します。V-2は基本的にOpenAIのSoraのGoogle版ですが、フィードバックによるとV-2の方が1000倍好評だったようです。ショート動画でAI生成ビデオを作成できるようになることを想像してみてください。
YouTubeは、GoogleのV-2ビデオ生成モデルをショート機能に追加し、クリエイターがAI生成のクリップや背景を追加できるようにしています。この機能は既存のDream Screen機能をベースにしており、2つの新機能が追加されています。ユーザーはAI生成の背景を作成でき、既存のコンテンツに組み込む独立したビデオクリップを作成することができます。
ビデオ生成は、スタイル、レンズタイプ、フィルム効果を指定するオプションを備えたシンプルなテキストプロンプトで機能します。YouTubeによると、このシステムは以前のバージョンよりも高速にビデオを生成するとのことです。
YouTubeは、AIで生成されたすべてのコンテンツに目に見えないSynth ID透かしを追加し、AIによる生成であることを明確に識示します。この機能は現在、アメリカ、カナダ、オーストラリア、ニュージーランドでリリースされており、その後、より広範な展開が予定されています。
ショート以外のビデオクリップについて、GoogleのV-2は4K解決度のビデオを作成でき、Googleによると数分まで延長可能とのことです。また、Vertex AIプラットフォームとVideo FXを通じても利用可能です。Video FXバージョンは現在ウェイトリストに登録する必要があり、誰もが使用できるわけではありません。Vertex版はまだテストしていませんが、有料となるはずです。
1000以上のプロンプトのテストで、ユーザーは一貫してV-2のパフォーマンスを、OpenAIのSora Turboを含む競合他社よりも優れていると評価しています。これは、両方のツールが12月にリリースされて以来のソーシャルメディアの全般的なフィードバックと一致しています。
他のAIビデオジェネレーターと同様に、V-2も複雑なシーン、動き、基本的な物理法則の処理に苦労しています。Googleなどの企業は最終的にこれらのモデルを包括的な世界モデルの作成に使用することを期待していますが、現在の技術ではより短いクリップやエフェクトに限定されており、当面はYouTubeショートが自然な適用先となっています。
生成AIを15秒程度の短い、より制御された文脈で使用することは、私にとって完全に理にかなっています。
次のニュースです。Anthropicが推論能力を備えたハイブリッドClaudeの新LLMを準備中です。12月と1月にはあらゆる企業から多くの発表がありましたが、Claudeは新しいリリースを控えていました。しかし、ついに新モデルを発表する準備が整ったようです。
The Informationによると、Anthropicは従来の言語モデルの機能と高度な推論機能を組み合わせた新しいAIモデルのリリースを準備しています。このモデルは企業向けアプリケーションに焦点を当て、数週間以内に利用可能になる予定です。
このタイミングは、OpenAIがGPT-5を数ヶ月以内にリリースすると発表したことと一致しています。GPT-5は標準的な言語モデルの機能にO3モデルの推論能力を組み込んだシステムになるとのことです。OpenAIはO3推論モデルを個別にリリースしないことを決定しました。これは興味深い展開です。
両社ともこれらのハイブリッドモデルに戦略を調整しています。これは、より多くのデータとパラメーターを追加することによる従来の言語モデルのスケーリングが収穫逓減を示しているためです。OpenAIは2023年3月のGPT-4以来、大幅に改善された言語モデルを導入していません。Anthropicも主力モデルであるOpus 3.5を無期限に延期しています。
推論モデルはコーディングや数学などの明確な正誤のある課題で大幅に優れたパフォーマンスを示す可能性がありますが、執筆や創造性、トレーニングデータの分布外での新しい知識の獲得など、言語モデルの全般的なパフォーマンスをどのように改善できるのかはまだ明確ではありません。
数学の答えが明確で、強化学習に役立つという理由で数学分野でのみ改善が見られるという意見が広まっていますが、実際には私は執筆タスクにも推論モデルを使用しており、うまく機能しています。テキストについて考え、不適切な概念を排除する能力があるためです。
新しいAnthropicモデルの重要な特徴の1つは、可変リソース割り当てです。ユーザーはシンプルなスライダーを通じて、各タスクにモデルが使用する計算能力を調整できます。最低設定では、思考連鎖の生成なしで標準的な言語モデルとして機能します。現在、OpenAIは推論モデルのレベルを3つの事前定義されたレベルに制限しています。
重要性の低いものには少し推論し、記事やプレゼンテーションを書く際にはより長い推論を行うというのは理にかなっています。すべては状況に応じて変化します。
情報筋によると、初期のテストでは、このモデルは実践的なプログラミングタスクで良好なパフォーマンスを示しています。あるユーザーは、何千ものファイルを含む複雑なコードベースをOpenAIのO3モデルよりも効果的に処理し、最初の試行でより信頼性の高い機能的なコードを生成すると報告しています。これは推論モデルについてよく言われることです。最初の試行で成功しない場合、2回目の試行は通常状況を悪化させるだけです。
OpenAIのモデルは学術的なプログラミングタスクで優位性を維持しています。これは興味深い点です。OpenAIは人類の知識を前進させるAIの開発に力を入れているように見えます。人類の利益のためではなく、人類の知識を前進させるためです。
これがSam AltmanがO3モデルについてとても気にかけている理由のように思えます。科学的思考を自律的に進めるという最低限の目標を達成することで、社会が進化する道を開き、特に彼の会社に価値をもたらすでしょう。彼がこれを販売するとは思えませんが、グローバルレベルでの技術的進歩を確実に生み出すでしょう。これは非常に興味深い展開です。
The Informationによると、Anthropicは2027年までに最大345億ドルの収益を見込んでいます。これは楽観的なシナリオで、基本シナリオは120億ドルです。これでも2025年の現在の予測である37億ドルからは大幅な増加です。ただし、これらの数値はAIの進化とユーザーの採用状況、価格の変動に応じて変更される可能性があります。
同社は特にAPIマーケットの支配を目指しており、2027年までにOpenAIの3倍の収益を見込んでいます。これはAnthropicが初めて利益を出すと予想している年でもあります。スタートアップのサイクルをご存じない方のために説明すると、まさにこのような流れです。企業は技術と応用分野を選び、投資を行い、毎月支出が収入を上回る状態から始まります。
将来のその技術の影響力に基づいて企業価値評価が行われます。OpenAIの場合、現在3000億ドルと評価されています。これは、時間の経過とともに赤字が減少し、ある時点で収支が均衡し、5年から15年の中長期的な期間で実際に3000億ドルの価値に到達することを意味します。
Anthropicはソフトウェア開発支援AIの分野で大きな進展を見せています。投資家の分析によると、同社の市場シェアはSonnet 3.6モデルのおかげで12%から24%に倍増し、一方でOpenAIのシェアは50%から34%に減少しました。
これらの数字は興味深いです。Anthropicが12%から24%に上昇したということは、誰かから12ポイントを奪ったことになります。OpenAIが50%から34%に下落したとすると、Anthropicがここから取ったとしても、少なくとも4%が不明です。これはおそらく、市場の大きな部分を獲得しているDeepmindに流れたのでしょう。
私の観察では、一般的にClaudeユーザーは専門的な用途で使用しており、単なるチャット目的ではなく、チャットボットやアシスタントの開発に使用しています。Claudeの信頼性と知性は非常に高く、テキスト生成に優れています。AIのフロンティアで顧客向け製品を開発している多くの人々が長らくClaudeを好んで使用しています。
しかし、一般のユーザーはチャットGPTとDeepmindを好む傾向があります。この2つは、より汎用的で幅広い用途に対応しているからです。