見出し画像

【論文瞬読】AIの計画能力の真相:OpenAIの新モデルo1は本当に賢くなったのか?

こんにちは!株式会社AI Nestです。最近、AIの進化が目覚ましいですよね。特に、OpenAIが発表した新モデル「o1」(通称Strawberry)が話題になっています。「これまでのAIとは違う!」なんて耳にしたことはありませんか?

でも、本当にそうなんでしょうか?今日は、最新の研究論文を基に、AIの「計画能力」について掘り下げていきます。特に、o1モデルが本当に賢くなったのか、その実力と限界について、わかりやすく解説していきますよ。

さあ、AIの世界に飛び込んでみましょう!

タイトル:LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench
URL:https://www.arxiv.org/abs/2409.13373
所属:SCAI, Arizona State University
著者:Karthik Valmeekam, Kaya Stechly, Subbarao Kambhampati

AIの計画能力って何?

まず、「計画能力」って聞いてピンときましたか?簡単に言うと、「目標を達成するために適切な手順を考え出す能力」のことです。例えば、「お菓子を作る」という目標があれば、材料を買う → 材料を混ぜる → オーブンで焼く...といった具合に順序立てて考えることができますよね。これが計画能力なんです。

AIにとって、この能力はとても重要。なぜなら、複雑な問題を解決したり、長期的な戦略を立てたりするのに欠かせないからです。でも、これがAIにとっては意外と難しいんです。

PlanBench:AIの計画能力を測る物差し

さて、AIの計画能力をどうやって測ればいいのでしょうか?ここで登場するのが「PlanBench」というベンチマークです。これは2022年に開発された、AIの計画能力を評価するための一連のテストのことです。

PlanBenchの特徴は、単純な問題から複雑な問題まで、さまざまな難易度の課題を用意していること。さらに、「ブロックワールド」という仮想的な環境を使って、AIの能力を測定します。例えば、「赤いブロックを青いブロックの上に置く」といった具合です。

簡単そうに見えますが、実はAIにとってはかなりの難問なんです!

従来のAI(LLM)の限界

これまでの大規模言語モデル(LLM)、例えばGPT-4やClaude 3などは、確かにすごい能力を持っています。でも、PlanBenchのテストでは意外な結果が...。

なんと、最も性能の良かったLLaMA 3.1 405Bでさえ、正答率は62.6%に留まったんです。しかも、問題を少し難しくすると(例えば、専門用語を使って問題を「難読化」すると)、正答率は一気に5%以下に落ちてしまいました。

つまり、従来のAIは「見たことがある問題」には対応できても、少し難しくなると途端に混乱してしまうんですね。これって、人間で言えば「暗記はできるけど応用が苦手」な状態かもしれません。

Table1, BlocksworldドメインとMystery Blocksworldドメインの600インスタンスで、異なるファミリーの大規模言語モデルを使用し、ゼロショットプロンプトとワンショットプロンプトの両方を使用した場合のパフォーマンス。クラス最高の精度を太字で示す。

この表を見ると、従来のLLMがMystery Blocksworld(難読化された問題)でいかに苦戦しているかがよくわかりますね。ほとんどのモデルが5%未満の正答率なんです。

新星登場:OpenAIのo1モデル

そんな中、OpenAIが発表した新モデル「o1」が注目を集めています。o1は、これまでのLLMとは違う「大規模推論モデル(LRM)」と呼ばれる新しいタイプのAIです。

で、結果はどうだったのか? なんと、o1はPlanBenchの基本的な問題で97.8%という驚異的な正答率を記録したんです! さらに、難読化された問題でも52.8%の正答率。これは、従来のAIを大きく上回る成績です。

「おお、すごい!」と思いますよね。確かに、o1の性能向上は目覚ましいものがあります。でも、ちょっと待ってください。この結果、本当に「AIが人間レベルの計画能力を獲得した」ことを意味するのでしょうか?

o1の実力と限界

実は、o1にもいくつかの課題があることがわかってきました。

まず、問題が複雑になるにつれて、正答率が急激に低下します。20ステップ以上必要な複雑な問題では、正答率は23.63%まで落ちてしまいました。

Figure3, (難読化されていない)通常のBlocksworldデータセットをより多くの手順を必要とする問題に拡張すると、o1-previewのパフォーマンスは悪化します。110のインスタンスでテストしたところ、それぞれ少なくとも20の手順を必要とする問題を解く場合、23.63%しか達成できませんでした。

この図を見ると、問題の複雑さが増すにつれて、o1の性能がどんどん落ちていくのがわかりますね。特に、30ステップを超える問題ではほとんど正解できていません。

また、「解決不可能な問題」を見分ける能力も完璧ではありません。人間なら「これは無理だよ」とすぐにわかる問題でも、o1は27%しか正しく判断できませんでした。

さらに面白いのは、o1が間違った答えを出すときの「言い訳」です。例えば、「AがBの上にある」という条件を「AがBの上のどこかにあればいい」と勝手に解釈したりするんです。これって、まるで人間の子どもが宿題をサボるときの言い訳みたいですよね(笑)

効率性とコストの問題

o1の性能向上には、別の懸念もあります。それは、処理時間とコストです。

o1は問題を解くのに、従来のAIよりもはるかに多くの時間とコンピューティングパワーを使います。研究者たちが実験に使った金額は、わずか1週間で約200万円近くに達したそうです!

Table4, 100インスタンスあたりのコスト(単位:米ドル)。LRMはLLMよりかなり高い。

この表を見ると、o1-previewのコストが他のモデルと比べて桁違いに高いことがわかります。100インスタンス(問題)あたり42.12ドル、つまり1問あたり約60円もかかっているんです。

これは実用化の観点からすると大きな課題です。高性能だけど、時間もお金もかかる...。これって、ビジネスの現場で使えるでしょうか?

古典的な手法との比較

ここで興味深いのは、古典的な計画アルゴリズムとの比較です。

Table2, Blocksworld、Mystery Blocksworld、およびRandomized Mystery Blocksworldドメインの600インスタンスに対して、OpenAIの大規模推論モデルo1ファミリーとFast Downwardで実行したパフォーマンスと平均所要時間

実は、「Fast Downward」という古典的なプランナーを使うと、PlanBenchの全問題を100%の正答率で、しかもわずか0.265秒で解けてしまうんです。o1が数十秒から100秒以上かかるのと比べると、圧倒的な差があります。

つまり、特定の問題に特化したアルゴリズムの方が、汎用AIよりも効率的に問題を解決できる場合があるということです。

AIの未来:何が求められているのか?

さて、ここまでの内容を踏まえて、今後のAI開発に何が求められているのでしょうか?

  1. 精度と効率のバランス: 単に正確さを追求するだけでなく、処理時間やコストも考慮したAIの開発が必要です。

  2. 解釈可能性の向上: AIがどのように結論に至ったのか、その過程を人間が理解できるようにすることが重要です。

  3. 柔軟性と頑健性: 難しい問題や予想外の状況にも対応できる、より柔軟なAIの開発が求められています。

  4. 特化型AIと汎用AIの使い分け: タスクの性質に応じて、古典的アルゴリズムと最新のAIを適切に組み合わせる方法を考える必要があります。

  5. 倫理的考慮: AIの判断が人間の生活に大きな影響を与える場面では、その判断プロセスの透明性や安全性の確保が不可欠です。

まとめ:AIの進化、その先にあるもの

今回の研究は、AIの計画能力が確実に向上していることを示しています。特に、OpenAIのo1モデルは、これまでのAIを大きく上回る性能を見せてくれました。

しかし同時に、AIにはまだまだ課題があることも明らかになりました。完璧な正答率、効率的な処理、コストの問題、そして何より人間のような柔軟な思考能力...。これらはまだ完全には解決されていません。

AIの進化は、まさに日進月歩。今後も新しい発見や革新的な技術が登場することでしょう。でも、重要なのは「AIに何ができるか」だけでなく、「AIをどう使うべきか」を考え続けることかもしれません。

みなさんは、この先のAI技術にどんな期待を持ちますか? AIと人間が協力して、よりよい未来を作っていく。そんな日が来るのを、私は楽しみにしています。

最後まで読んでいただき、ありがとうございました!AIの世界は奥が深いですが、これからも最新の動向をわかりやすくお伝えしていきますね。では、また次回のブログでお会いしましょう!