OpenAI o1はすごいのかすごくないのか

2024年10月25日 08:09

OpenAI o1がすごいという説とすごくないという説があるので将来検証するために記録しておきます。

いきなり発表されたOpenAI o1-preview

2024年夏はOpenAIのstrawberryに関する噂がかけめぐっていました。GPT-4が発表されてから1年半、次のモデルが待ち望まれる中、GPT-4 Turbo, GPT-4o, GPT-4o miniとマイナーバージョンが出ていました。
OpenAI Dev Dayもあり、また、米国大統領選まではフェイク画像問題に対応するために動きがないと予想されていました。
その中で推論機能を高めたo1-previewの発表は3つの点で驚きでした：

推論を学習した基盤モデル
事前学習だけでなく答えを導出する過程でも計算資源を使えば精度はあがる
GPTシリーズはどうなるのという疑問

OpenAIはo1モデルの価値を隠している説

OpenAIは従来から知能を5段階に分け、第1段階で対話、第2段階で推論、と述べていました。このため、推論に優れた新しいモデルの登場は次の段階を予感させます。
o1-preview はIQ120に匹敵するという報道もありました　([fragai])。
OpenAI陰謀論、すなわち、OpenAIは本当の実力を隠している、という説もささやかれています。OpenAIは投資家にはできるだけ大きなインパクトを、そして一般人にはできるだけ驚かせないようにしている、というものです ([itmedia][thewave])。OpenAIは最近、資金調達をしたので、それと結び付けた議論です。

o1でできることはGPT-4oでもできる説

一方、90%のタスクは普通の基盤モデルでもでき、残りの8%は優れた基盤モデル、最後の2%の難題に最高水準の基盤モデルが必要だという議論もあります。この2%にo1が必要なのかは議論のあるところです。
Matthew BermanはOpenAIがあげるo1の3つのユースケース、a) 戦略、b) プログラミング、c) 研究、について検証し、o1でもGPT-4oでも大差ないことを示しています ([berman])。

コストのかかるOpenAI o1-preview

o1-previewの実行には時間がかかります。時間がかかることはコストがかかることを意味しています。このため、OpenAIとしてはあまり実行してほしくないと思います。そのために機能も制限しています。
評判は欲しいが実行はしてほしくないというのは経済的な側面だけから考えても納得です。

むすび

生成AIの評価ではよく @k というのを見ます。@kとはk回試行して1回でも成功すれば成功ということです。@8 とは8回試行して1回でも成功すれば成功とみなします。最近、^k というのも導入されました。^kとはk回試行してすべて成功する、ということです。^8とは8回試行して8回とも成功するというものです。
生成AIの^kテストの結果はまだまだ発展途上です。高度な推論をもってしても完全自動のAIロボットを作るのはまだまだ道半ばと思っています。

参考文献

[berman] There's Something Weird About ChatGPT o1 Use Cases... https://www.youtube.com/watch?v=rVjANY9UC9s 21m04s Matthew Berman 2024年
[fragai] 【IQ120超！？】OpenAI o1の実力とは？GPT-4oとの比較から未来の可能性まで徹底解説 https://fragai.jp/aidx/ai/ 2024年
[itmedia] OpenAI o1、実は大型進化　サム・アルトマン氏が仕掛けたマーケティング https://www.itmedia.co.jp/business/articles/2410/02/news021.html 2024年
[thewave] OpenAI o1が話題になっていないのは戦略通り！「天才マーケター」サム・アルトマンに脱帽し、新しいスケール則の時代突入にワクワクした一週間（2024年9月19日配信版）　https://the-wave.xyz/weekly-ai/weekly-ai-20240919/