大規模言語モデルの推論の現在地点

2024年7月24日 07:20

OpenAIの知能の5段階モデルではChatGPTはまだ第1段階です。次の段階は推論です。最近の推論の話題をお話しします。

なかなか出ないGPT-5

GPT-5がレッドチーム（安全性確認の外部有識者）にリリースされたとリークされてから4ヶ月がたちますが、GPT-5はなかなか出ません。
その間に2024年5月にGPT-4oが 2024年7月にGPT-4o miniがリリースされています。マルチモーダルや高速低価格なモデルが出るのはうれしいです。
でも、推論はどうなったのか、と思います。
GPT-4は高校生レベル、博士課程レベルのGPT-5を出すとOpenAIは言っていますが、まだ出ません。
最近のOpenAIのMira Muratiの話ではあと1年半かかるそうです（私はそんなに遅れるとは信じていません）。

推論の現時点

CLaude 3.5 SonnetやGPT-4oが出たので、改めて、日本語評価プロンプトで比較してみました ([ai300lab_a])。
GPT-4やGemini 1.5Proで正解が出ないか、正解が出ても部分的に疑問な出力が伴っていた以下の問題はGPT-4oやGemini 1.5Proでは解決しています。

「5枚のシャツを庭で乾かすのに3時間かかります。25枚のシャツを乾かすのには何時間かかりますか？」
右手と左手で紙を持っています。右手を離したら何が起こりますか？（GPT-4とGemini 1.5 Proは正解でしたが、余計な煩雑な場合分けが入っていました）

他にプログラム生成でも「オセロのプログラムを書いて」をGPT-4は正解ですが、分割して出力していました。GPT-4o, Claude 3.5 Sonnetは一発で動くコードを生成してくれます。

空間問題

空間問題が解けないという動画があったので、空間問題を解いてみました。

「まっすぐ10m進み、そこで左に曲がり10m進み、さらにそこで左に曲がり10m進み、さらにそこで左に曲がり10m進みました。通った道の上に到達することはありますか？」これはGPT-4oもClaude 3.5 Sonnetも正解しました。
ちょっとひねって「まっすぐ20m進み、そこで左に曲がり10m進み、さらにそこで左に曲がり10m進み、さらにそこで左に曲がり20m進みました。通った道の上に到達することはありますか？」とすると交差することは判定できませんでした。

この問題も順を追って考えてみましょう。

1. まず20m直進します。
2. 左に90度曲がって10m進みます。
3. 再び左に90度曲がって10m進みます。
4. 最後にもう一度左に90度曲がって20m進みます。

この動きを分析すると：

- 1回目と4回目の移動は20m、2回目と3回目の移動は10mです。
- 3回左に曲がっています。各曲がりは90度です。

ここで重要なポイントは、最初の直進距離と最後の直進距離が同じ20mであること、そして2回目と3回目の移動距離が同じ10mであることです。

この経路を図で表すと、長方形の3辺を描いたような形になります：
```
10m
|--------|
| |
| |
20m| |20m
| |
| |
|--------|
10m
```

結論：はい、通った道の上に到達します。具体的には、最初に進んだ直線の始点（つまり出発点）に戻ることになります。

理由：
1. 最初の20m前進と最後の20m前進で、前後の移動が相殺されます。
2. 2回目の10m移動と3回目の10m移動で、左右の移動が相殺されます。
3. 3回の90度左折で270度回転し、元の向きの反対を向いた状態で出発点に戻ります。

この経路は長方形を描き、最後の移動で出発点に正確に戻ることになります。つまり、通った道の上に到達するだけでなく、完全に元の位置に戻ることになります。

追加の説明や別の視点からの解析が必要でしたら、お知らせください。

Claude 3.5 Sonnetの回答

この問題も道をたどる際の位置の変化を考えるものです。順を追って確認してみましょう。

1. まっすぐ20m進む。
2. 左に曲がって10m進む。
3. 左に曲がって10m進む。
4. 左に曲がって20m進む。

この動きを図にすると以下のようになります：

1. まっすぐ20m進むと、\( (20, 0) \)の位置に到達します。
2. 左に曲がって10m進むと、90度左に曲がるので、\( (20, -10) \)の位置に到達します。
3. 左に曲がって10m進むと、さらに90度左に曲がるので、\( (10, -10) \)の位置に到達します。
4. 左に曲がって20m進むと、さらに90度左に曲がるので、\( (10, 10) \)の位置に到達します。

この動きからわかるように、元の位置 (0, 0) には戻りませんが、通った道の上に到達するかを確認すると、以下の通りです：

- 最初に通った道は \( (0, 0) \) から \( (20, 0) \) までの20mです。
- 次に通った道は \( (20, 0) \) から \( (20, -10) \) までの10mです。
- 次に通った道は \( (20, -10) \) から \( (10, -10) \) までの10mです。
- 最後に通った道は \( (10, -10) \) から \( (10, 10) \) までの20mです。

この経路をたどっても、どの点でも以前に通った道と交差することはありません。従って、通った道の上に到達することはありません。

GPT-4oの回答

CLaude 3.5 Sonnetはそもそも図が間違っています。GPT-4oのほうは結論が間違っています。「この問題も」と言っているので、続けて質問したことが影響しているのかもしれません。
驚くべきことですが、GPT-4o miniは正解します。

はい、その通りです。説明すると、あなたは以下のように進みます：

1. まっすぐ20m進む。
2. 左に曲がり10m進む。
3. さらに左に曲がり10m進む。
4. さらに左に曲がり20m進む。

これで、出発点から見て、最初の20mの直線部分に戻ってきます。最初の直線部分と最後の直線部分が重なるため、通った道の上に到達します。

GPT-4o miniの回答

メジャーリリースがなくても、Claude 3.5 Sonnetや GPT-4o、そしてGPT-4o miniは確実に推論力をあげています。

Strawberry

昨年秋に話題になったQ*プロジェクトはStrawberryと名を変えてOpenAIで続いているとの報道があります([reuter])。ロイター報道ですが、詳細は不明です。
自分で自分を改善する能力があるという話ですが、どうなるのでしょうか。

問題解決能力の底上げ

大規模言語モデルだけでは常識をとらえることはできないという議論もあります。常識的なことは説明されないので学習に限界がある、ということです。最近は動画学習がさかんになってきたので世界の常識を学習するという点ではテキストだけの学習よりは制約がなくなってきたと思います。
しょせんベースの大規模言語モデルの推論能力があがらないといけないという議論もありますが、前述したように、着々とアップデート毎に推論能力はあがっているように見えます。
また、ソフトウェア開発の自動化において、推論を助けるような生成AI向けのエージェント・コンピュータ・インタフェースが必要なこともわかってきました ([ai300lab_b])。
さらにOpenAIは自分の推論を批判するCriticGPTを発表しています [openai]。自分の推論の間違いを探したり検証したりしながら探索的に問題解決をするフレームワークは推論能力の向上には重要です ([ai300lab_c])。

むすび

なかなか推論の能力は伸びませんが、少しずつ伸びていることは事実です。また、大規模言語モデルを補う問題解決フレームワークの研究も進展してきています。
GPT--5がいつ出て、どれほどのものなのかによって、次の進化の方向性も見えてくると思います。

参考文献

[ai300lab_a] 日本語生成AIのベンチマーク　https://note.com/ai300lab/n/nb64a63e67ece 2024年
[ai300lab_b] エージェントコンピュータインターフェースとは　https://note.com/ai300lab/n/n9ee5e37e8df1
[ai300lab_c] ソフトウェア開発エージェントに見る問題解決のフレームワーク　https://note.com/ai300lab/n/ne2d905fed7e0　2024年
[openai] Finding GPT-4’s mistakes with GPT-4　https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/
[reuter] Exclusive: OpenAI working on new reasoning technology under code name ‘Strawberry’
https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/