見出し画像

o3はAGIなのか?判定基準のARC-AGIについて解説(OpenAI)

こんにちは、Martinです。OpenAIからo3が発表されました。AIの性能が上がりすぎた結果、最近は指標や基準を測定する従来のベンチマークが成り立たなくなってきています。

o3の評価ではARC-AGIというベンチマークが使用されました。(ARC:Abstraction and Reasoning Corpus, 抽象と推論のコーパス)(AGI:Artificial General Intelligence, 人工汎用知能)

o3は最大で87%の正答率でした。人間の正答率は85%程度とのことです。

今回特に注目されているのはこのグラフで、o1になってから正答率が急激に上がっています。インパクトがあるので流行っています。GPT-4oまではほとんど解けませんでした。

https://x.com/goodside/status/1870243391814152544

ARC-AGIは、名前にAGIと入っているように、AGIの進捗を測るためのベンチマークです。

ほとんどのAIベンチマークはスキルを測定しています。しかし、スキルは知能そのものではありません。汎用知能(General Intelligence)とは、新しいスキルを効率的に習得する能力のことです。Cholletが2019年に発表した「Abstraction and Reasoning Corpus for Artificial General Intelligence(ARC-AGI)」は、汎用人工知能(AGI)の進捗を測る唯一の正式なベンチマークです。

人間にとっては簡単ですが、AIにとっては難しいものです。

----
Most AI benchmarks measure skill. But skill is not intelligence. General intelligence is the ability to efficiently acquire new skills. Chollet's unbeaten 2019 Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI) is the only formal benchmark of AGI progress.

It's easy for humans, but hard for AI.

ARC Prize

しかしここで、「AGIとはそもそもなんなのか?」「AGIの定義とは?」という疑問が出てくるかと思います。

ARC-AGIにおいては、AGIはどのように定義されているのでしょうか?ARC-AGIでは以下のように、「AGIは、新しいスキルを効率的に習得し、オープンエンドの問題を解決できるシステムである。」と定義しています。

AGIの定義

一般的なコンセンサス(しかし誤り):
• AGIは、経済的に価値のある仕事の大部分を自動化できるシステムである。

正しい定義:
AGIは、新しいスキルを効率的に習得し、オープンエンドの問題を解決できるシステムである。

定義は重要です。我々はこれらを基準として、AGIへの進歩を測定します。

AGIがなければ、人間と共に発明し発見できるシステムを持つことは決してできません。


※オープンエンド:特定の解決策や結果が事前に決まっておらず、さまざまな方向性や可能性がある問題や課題を指す。

----
Defining AGI

Consensus but wrong:
・AGI is a system that can automate the majority of economically valuable work.

Correct:
・AGI is a system that can efficiently acquire new skills and solve open-ended problems.

Definitions are important. We turn them into benchmarks to measure progress toward AGI.

Without AGI, we will never have systems that can invent and discover alongside humans.

ARC Prize

なおARC-AGIの問題は、こちらのサイトで実際に体験することができます。

例えばこんな問題があります。自分は意外と苦戦して解くのに3分くらいかかりました笑。何人か他の人に試してもらったところ、ほとんどの人は15秒〜1分くらいで解けていました。ちなみに謎解きが少し前からはやっていますが、その問題に慣れている人なら解きやすいという話でした。

ちなみに、もしあるスコアまでクリアできたら賞金$1,100,000がもらえます。

なお、このような賞を作った理由は、「クローズではなく、オープンなAGIの進展を促すため」とのことです。

LLMs(大規模言語モデル)は、想像を絶するほど膨大なデータで訓練されていますが、訓練されていない単純な問題に適応したり、基本的なものであっても新しい発明を行うことができないままです。

強い市場のインセンティブにより、最前線のAI研究は閉鎖的な方向に進んでいます。研究の注目やリソースが行き詰まりへと引き寄せられています。

ARC Prizeは、新しい技術的アプローチを発見し、オープンなAGIの進展を促進するために研究者を刺激することを目的としています。

----
LLMs are trained on unimaginably vast amounts of data, yet remain unable to adapt to simple problems they haven't been trained on, or make novel inventions, no matter how basic.

Strong market incentives have pushed frontier AI research to go closed source. Research attention and resources are being pulled toward a dead end.

ARC Prize is designed to inspire researchers to discover new technical approaches that push open AGI progress forward.

ARC Prize

・o3の結果に対する運営のコメント

OpenAIの新しい「o3」システムは、ARC-AGI-1公開トレーニングセットでトレーニングされ、公開リーダーボード上で設定された$10,000分の計算リソース制限内で、セミプライベート評価セットにおいて画期的な75.7%のスコアを記録しました。また、高計算リソース設定(172倍)では87.5%のスコアを達成しました。

OpenAI's new o3 system - trained on the ARC-AGI-1 Public Training set - has scored a breakthrough 75.7% on the Semi-Private Evaluation set at our stated public leaderboard $10k compute limit. A high-compute (172x) o3 configuration scored 87.5%.

OpenAI o3 Breakthrough High Score on ARC-AGI-PubSo is it AGI?

・o1との比較のグラフ。横軸がかかったコストで縦軸がスコア。

OpenAI o3 Breakthrough High Score on ARC-AGI-Pub

一部では、このベンチマークの結果をもとにして、AGIが達成された、と言われています。

しかし、このARC-AGIのベンチマークのスコアの意味はなんなのでしょうか?これをクリアすればAGIが達成されたとみなせるのでしょうか?

ARC-AGIの報告書を読んでみましょう。

結論としては、o3はAGIではないとのことです。なぜならARC-AGIのベンチマークの試験報告書そのものに、達成してもAGIとは言えない、o3はAGIではない、と書かれているからです。

ARC-AGI に合格しても AGI が達成されるわけではありません。実際のところ、o3 はまだ AGI ではないと思います。o3 はまだいくつかの非常に簡単なタスクに失敗しており、人間の知能との根本的な違いを示しています。

Passing ARC-AGI does not equate to achieving AGI, and, as a matter of fact, I don't think o3 is AGI yet. o3 still fails on some very easy tasks, indicating fundamental differences with human intelligence.

OpenAI o3 Breakthrough High Score on ARC-AGI-Pub
So is it AGI?

AIの性能を測るベンチマークというのは、意外とやっかいなものです。

OpenAIのCEOのサム・アルトマンは、以下のように、人間は簡単だがAIにとって難しい形式に変換されるARCのような方針を批判しています。

「『人間にとって簡単だがAIにとって難しい』を評価設計の原則にするのは、あまり良いアイデアではないと思います。
それは『魚を木登りの能力で評価する』ような不条理な状況を生み出します。
ただし、これは多くの重要な評価方法の1つとして考えることはできるかもしれません。」

「特に、ARC(Abstraction and Reasoning Corpus)のようなAGI視覚タスクは、JSON形式で見ると無意味に見えるし、マルチモーダリティ(複数のデータ形式を扱う能力)もあまり良くありません。
また、文字操作タスクがうまくいかない理由は、モデルが『strawberry(いちご)に含まれる“r”の数』問題(トークナイゼーションやBPEによる問題)で失敗するのと同じです。」

「これらのタスクは、入力形式においてほぼ意図的に『AIが苦手になるように』構築されているようです。
これらのタスクをモデルが解くには、人間が同じ得点を取る場合に比べ、はるかに高いレベルの知能が必要になります。」

ARC-AGIは誰が開発したのか、というのも気になる点かと思います。

開発者は元Googleでフランス人のソフトウェアエンジニア、人工知能研究者のフランソワ・ショレ(François Chollet)です。Kerasという有名なPythonのディープラーニング用ライブラリの作成者でもあります。

Googleには10年ほど勤めていたようです。

AI界の第一人者フランソワ・ショレ氏が、10年近く勤めたGoogleを退社する。

Xへの投稿で、34歳のフランス人開発者は「友人」と新しい会社を立ち上げると述べたが、多くの詳細については明らかにしなかった。

AI のパイオニア、フランソワ ショレが Google を退職
TechCrunch

・本人のX

https://twitter.com/fchollet


ARC-AGIの元論文とGitHubレポジトリ

こちらがフランソワ・ショレが書いたARC-AGIの論文です。

・解説とnotebookで動かすためのコードを書いてくれた人がいます

おわりに

ベンチマークを正しく理解したいので、今後もときどきnoteに調べたことを書きたいと思います。


最後まで読んでいただき、ありがとうございます!もし気に入っていただけたら、ぜひスキとフォローをお願いします。みなさまからの反応は、わたしが質の高い記事を書き続けるためのモチベーションにつながります。

この記事を読んだ方が興味を持ちそうな記事


いいなと思ったら応援しよう!

Martin
いつも読んでくださりありがとうございます!サポートは、お勉強代として活用させていただいております。