見出し画像

strawberryを巡る噂の帰結(2024年8月編)

OpenAIの推論エンジンプロジェクトStrawberryを巡る噂がホットになっています。8月の前半は大盛り上がりでしたが、結局は小競り合いのまま夏は終わりそうです。


噂の数々

ちょっとしたいつもと違う行動がにおわせとして話題になるOpenAI、この夏はstrawberryプロジェクトで盛り上がっています。

  • Sam Altmanのいちごの写真の投稿([thebridge])

  • ようこそレベル2へとつぶやくiruletheworldmoという謎の大量投稿者 ([iruletheworldmo])

  • gpt-4o-large-2024-08-13という謎の言語モデル ([chatgpt-lab])

strawberryは7月にロイターが報じたOpenAIの次世代推論エンジンです。q*とよばれていた高度な推論ができるエンジンの後継と言われています。
なお、sus-column-rと呼ばれる謎のモデルがあり、OpenAIの新モデルではないかと言われていましたが、X.aiのGrok-2の早期モデルだったようです ([impress])。

Gemini対抗の噂

8月1日にチャットボットアリーナのリーダーボードでGemini-1.5-Pro-Exp-0801というモデルがGPT-4oを抜いて1位に躍り出ました。Googleが8月15日にこのモデルを発表するという噂です。
OpenAIがこれにぶつけて直前に新モデルをリリースするのではないかというのがさまざまな噂を呼んでいました。

STaRがベース

strawberryはStanford大の研究STaRがベースになっていると言われています ([youtube] [zelikman])。STaRはたんに質問と回答を学習するのではなく、質問、推論過程、回答と、推論過程を含めて学習します。推論過程を学習することによって推論の仕方自体を学習することができ、未知の推論問題にも対応できるようになります。
通常の大規模言語モデルは単語間の遷移確率を学ぶと、それによる誤りを修正するための強化学習からなっています。
未知の問題に対しては、仮説をたて、仮説検証に基づいて誤った仮説を捨て、正しかった仮説に基づいて次の仮説をたたて推論していきます。複数の実証計画をたて、計画の進展に基づいて推論の方向を制御するわけです。
strawberryはこのような計画に基づく動的な推論を目指しているとされています。
最近は大規模言語モデルがひっかかりやすい人間には簡単な推論を例示した論文も出ています ([williams])。最新の大規模言語モデルにはこのようなひっかけ問題を学習してひっかからないようにするように対策している例もあるようです。研究者には小手先の策を弄せず、正々堂々と論理処理の精度を磨いてもらいたいものです。
推論の精度をあげるのはそれなりに難しく、strawberryでは考えすぎて正解から外れる例もあるようです ([unveilingainews])。OpenAIのめざすレベル2(推論レベル)はまだ試行錯誤の挑戦段階です。

現在の帰結

いろいろ噂はかけめぎりましたが:

  • GoogleのGemini 1.5の"0801"バージョンが一旦 GPT-4oを抜いた

  • OpenAIのGPT-4oの”0808"バージョンがGeminiを抜き返した

というのが今のところです。

むすび

噂はどこまでいっても噂、しっかり事実を確認したいと思います。
ロボット、推論、エージェント、創薬、ソフト開発、研究AIなど生成AIのフロンティアはまだまだ広いです。驚くべきスピードで進んでいますが、まだまだできないことも多いです。知のフロンティアを生成AIがどのように攻略していくのかが楽しみです。

参考文献

この記事が気に入ったらサポートをしてみませんか?