こんにちは、Martinです。OpenAIからo3が発表されました。AIの性能が上がりすぎた結果、最近は指標や基準を測定する従来のベンチマークが成り立たなくなってきています。
o3の評価ではARC-AGIというベンチマークが使用されました。(ARC:Abstraction and Reasoning Corpus, 抽象と推論のコーパス)(AGI:Artificial General Intelligence, 人工汎用知能)
o3は最大で87%の正答率でした。人間の正答率は85%程度とのことです。
今回特に注目されているのはこのグラフで、o1になってから正答率が急激に上がっています。インパクトがあるので流行っています。GPT-4oまではほとんど解けませんでした。
https://x.com/goodside/status/1870243391814152544
ARC-AGIは、名前にAGIと入っているように、AGIの進捗を測るためのベンチマークです。
しかしここで、「AGIとはそもそもなんなのか?」「AGIの定義とは?」という疑問が出てくるかと思います。
ARC-AGIにおいては、AGIはどのように定義されているのでしょうか?ARC-AGIでは以下のように、「AGIは、新しいスキルを効率的に習得し、オープンエンドの問題を解決できるシステムである。」と定義しています。
なおARC-AGIの問題は、こちらのサイトで実際に体験することができます。
例えばこんな問題があります。自分は意外と苦戦して解くのに3分くらいかかりました笑。何人か他の人に試してもらったところ、ほとんどの人は15秒〜1分くらいで解けていました。ちなみに謎解きが少し前からはやっていますが、その問題に慣れている人なら解きやすいという話でした。
ちなみに、もしあるスコアまでクリアできたら賞金$1,100,000がもらえます。
なお、このような賞を作った理由は、「クローズではなく、オープンなAGIの進展を促すため」とのことです。
・o3の結果に対する運営のコメント
・o1との比較のグラフ。横軸がかかったコストで縦軸がスコア。
一部では、このベンチマークの結果をもとにして、AGIが達成された、と言われています。
しかし、このARC-AGIのベンチマークのスコアの意味はなんなのでしょうか?これをクリアすればAGIが達成されたとみなせるのでしょうか?
ARC-AGIの報告書を読んでみましょう。
結論としては、o3はAGIではないとのことです。なぜならARC-AGIのベンチマークの試験報告書そのものに、達成してもAGIとは言えない、o3はAGIではない、と書かれているからです。
AIの性能を測るベンチマークというのは、意外とやっかいなものです。
OpenAIのCEOのサム・アルトマンは、以下のように、人間は簡単だがAIにとって難しい形式に変換されるARCのような方針を批判しています。
ARC-AGIは誰が開発したのか、というのも気になる点かと思います。
開発者は元Googleでフランス人のソフトウェアエンジニア、人工知能研究者のフランソワ・ショレ(François Chollet)です。Kerasという有名なPythonのディープラーニング用ライブラリの作成者でもあります。
Googleには10年ほど勤めていたようです。
・本人のX
https://twitter.com/fchollet
ARC-AGIの元論文とGitHubレポジトリ
こちらがフランソワ・ショレが書いたARC-AGIの論文です。
・解説とnotebookで動かすためのコードを書いてくれた人がいます
おわりに
ベンチマークを正しく理解したいので、今後もときどきnoteに調べたことを書きたいと思います。
最後まで読んでいただき、ありがとうございます!もし気に入っていただけたら、ぜひスキとフォローをお願いします。みなさまからの反応は、わたしが質の高い記事を書き続けるためのモチベーションにつながります。
この記事を読んだ方が興味を持ちそうな記事