大規模言語モデルの推論の現在地点
OpenAIの知能の5段階モデルではChatGPTはまだ第1段階です。次の段階は推論です。最近の推論の話題をお話しします。
なかなか出ないGPT-5
GPT-5がレッドチーム(安全性確認の外部有識者)にリリースされたとリークされてから4ヶ月がたちますが、GPT-5はなかなか出ません。
その間に2024年5月にGPT-4oが 2024年7月にGPT-4o miniがリリースされています。マルチモーダルや高速低価格なモデルが出るのはうれしいです。
でも、推論はどうなったのか、と思います。
GPT-4は高校生レベル、博士課程レベルのGPT-5を出すとOpenAIは言っていますが、まだ出ません。
最近のOpenAIのMira Muratiの話ではあと1年半かかるそうです(私はそんなに遅れるとは信じていません)。
推論の現時点
CLaude 3.5 SonnetやGPT-4oが出たので、改めて、日本語評価プロンプトで比較してみました ([ai300lab_a])。
GPT-4やGemini 1.5Proで正解が出ないか、正解が出ても部分的に疑問な出力が伴っていた以下の問題はGPT-4oやGemini 1.5Proでは解決しています。
「5枚のシャツを庭で乾かすのに3時間かかります。25枚のシャツを乾かすのには何時間かかりますか?」
右手と左手で紙を持っています。右手を離したら何が起こりますか?(GPT-4とGemini 1.5 Proは正解でしたが、余計な煩雑な場合分けが入っていました)
他にプログラム生成でも「オセロのプログラムを書いて」をGPT-4は正解ですが、分割して出力していました。GPT-4o, Claude 3.5 Sonnetは一発で動くコードを生成してくれます。
空間問題
空間問題が解けないという動画があったので、空間問題を解いてみました。
「まっすぐ10m進み、そこで左に曲がり10m進み、さらにそこで左に曲がり10m進み、さらにそこで左に曲がり10m進みました。通った道の上に到達することはありますか?」これはGPT-4oもClaude 3.5 Sonnetも正解しました。
ちょっとひねって「まっすぐ20m進み、そこで左に曲がり10m進み、さらにそこで左に曲がり10m進み、さらにそこで左に曲がり20m進みました。通った道の上に到達することはありますか?」とすると交差することは判定できませんでした。
CLaude 3.5 Sonnetはそもそも図が間違っています。GPT-4oのほうは結論が間違っています。「この問題も」と言っているので、続けて質問したことが影響しているのかもしれません。
驚くべきことですが、GPT-4o miniは正解します。
メジャーリリースがなくても、Claude 3.5 Sonnetや GPT-4o、そしてGPT-4o miniは確実に推論力をあげています。
Strawberry
昨年秋に話題になったQ*プロジェクトはStrawberryと名を変えてOpenAIで続いているとの報道があります([reuter])。ロイター報道ですが、詳細は不明です。
自分で自分を改善する能力があるという話ですが、どうなるのでしょうか。
問題解決能力の底上げ
大規模言語モデルだけでは常識をとらえることはできないという議論もあります。常識的なことは説明されないので学習に限界がある、ということです。最近は動画学習がさかんになってきたので世界の常識を学習するという点ではテキストだけの学習よりは制約がなくなってきたと思います。
しょせんベースの大規模言語モデルの推論能力があがらないといけないという議論もありますが、前述したように、着々とアップデート毎に推論能力はあがっているように見えます。
また、ソフトウェア開発の自動化において、推論を助けるような生成AI向けのエージェント・コンピュータ・インタフェースが必要なこともわかってきました ([ai300lab_b])。
さらにOpenAIは自分の推論を批判するCriticGPTを発表しています [openai]。自分の推論の間違いを探したり検証したりしながら探索的に問題解決をするフレームワークは推論能力の向上には重要です ([ai300lab_c])。
むすび
なかなか推論の能力は伸びませんが、少しずつ伸びていることは事実です。また、大規模言語モデルを補う問題解決フレームワークの研究も進展してきています 。
GPT--5がいつ出て、どれほどのものなのかによって、次の進化の方向性も見えてくると思います。
参考文献
[ai300lab_a] 日本語生成AIのベンチマーク https://note.com/ai300lab/n/nb64a63e67ece 2024年
[ai300lab_b] エージェントコンピュータインターフェースとは https://note.com/ai300lab/n/n9ee5e37e8df1
[ai300lab_c] ソフトウェア開発エージェントに見る問題解決のフレームワーク https://note.com/ai300lab/n/ne2d905fed7e0 2024年
[openai] Finding GPT-4’s mistakes with GPT-4 https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/
[reuter] Exclusive: OpenAI working on new reasoning technology under code name ‘Strawberry’
https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/