新しい研究がAGIの達成を証明...
6,431 文字
人工知能コミュニティはAGIの閾値を超えていたのに、それに気付いていなかったのでしょうか。これが、「抽象的推論におけるテスト時学習の驚くべき有効性」という論文が検討しようとしている内容です。これはMITから発表された研究で、AIにおける最も難しいベンチマークの1つについて議論しており、非常に興味深い論文だと思います。
皆さんの多くはGSM 8KやGPQなどのベンチマークをご存じだと思いますが、2015年にKerasディープラーニングライブラリを作成したことで知られるGoogleのシニアスタッフエンジニア、フランソワ・ショレが考案した特別なベンチマークがあることをご存知でしょうか。
ARCベンチマークについての彼の説明を見てみましょう。この最近の研究結果を見れば、なぜこの研究が重要なのかが分かるはずです。
「ARCベンチマークとは何で、なぜこの賞が必要なのか。来年最大のLLMがこれを飽和させることができないのはなぜか。そうですね、ARCは機械知能のためのある種のIQテストとして意図されています。既存のほとんどのベンチマークと異なる点は、記憶に依存しないように設計されていることです。
LLMの仕組みを見ると、基本的に大きな補間メモリであり、できるだけ多くの知識とパターンを詰め込むことで能力を向上させています。対照的に、ARCは多くの知識を必要としません。4歳か5歳の子供が持っているような基本的な物理、物体性、数え方といった『コア知識』だけを必要とするように設計されています。
しかし興味深いのは、ARCの各パズルが新規性を持っていることです。インターネット全体を記憶していたとしても、おそらく以前に遭遇したことのないものです。それがLLMにとってARCが難しい理由であり、現在までLLMはあまり良い成績を収めていません。実際、うまくいっているアプローチは、より離散的なプログラム探索に向かっています。」
フランソワ・ショレが言っていることを簡単に説明すると、彼が発明したARCベンチマークは、LLMが質問を既に見ていても優れた成績を収められる従来のベンチマークとは大きく異なるということです。このような試験は事前に訓練することができず、推論と理解が内在している必要があります。人間は約85%の成績を収めますが、LLMは本当に苦戦します。
このテストがどのようなものか見てみましょう。実際にはかなりシンプルです。穴があいているのが見えます。黄色い領域が埋められています。この1つでは、真ん中に穴のあるオブジェクトがあり、黄色で埋められています。ここでも同じように黄色です。そしてここでは、もちろんそれは黄色になり、それらの領域すべてを黄色で埋めることになります。そして出力に対してもそれを行います。
しかし、LLMはこのようなテストに苦戦します。なぜなら、以前に見たことがないからです。これは、LLMが分布外の問題に苦戦するという問題です。もちろん、AGIに到達するためには、このようなテストで良い成績を収めるシステムが必要です。なぜなら、それは以前に見たことのないことでも良い成績を収められることを意味し、様々な使用例や産業で信頼性の高いものになるからです。
そこで登場するのが、MITの「抽象的推論におけるテスト時学習の驚くべき有効性」という研究です。言語モデルは訓練分布内のタスクで印象的な性能を示していますが、複雑な推論を必要とする新規の問題には苦戦することが多いと述べています。我々は、入力データから導出された損失を用いて推論時に一時的にモデルパラメータを更新するテスト時学習の有効性を調査しました。
基本的に、モデルの性能を大幅に向上させる方法を見つけたと言っています。その結果は非常に優れており、人間レベルの推論を超えています。これは驚くべきことです。なぜなら、従来LLMが失敗すると考えられていたベンチマークで、初めて達成されたからです。
これが彼らが行ったことです。訓練テスト時データの簡単な例を見ることができます。あまり詳しく説明はしませんが、基本的に質問に対する可能な解決策を探索する方法を使用しました。彼らが行った方法は、モデルを垂直方向や水平方向に反転させ、また1つを除外するということも行いました。
例えば、2、4、6という数列で次の数を予測しようとする場合、もちろん2、4、6の次は8です。彼らが行ったのは、4と6の予測を見て、その前に来るのは何かを見ました。もちろんそれは2です。次に2から6までを見て、その間に来るのは何かを見ました。もちろんそれは4です。基本的に、次に来るものを予測するために様々な組み合わせを見ました。
これが彼らの探索アルゴリズムの変形で、可能な解決策の可能性を探索することができました。この変換されたバージョンから複数の予測を生成した後、階層的な投票方法がこれらの予測を集約します。モデルはまずint変換投票を使用し、その後グローバル投票を使用して最も一貫性のある正しい答え、または正しい可能性が高い答えを選択します。
彼らは実際に、変換された入力全体で予測の妥当性を確認するために自己一貫性を使用したと述べています。選択された答えは、変形全体で最も頻繁に現れるものです。これは出力全体での合意または一貫性の探索に似ています。
このような複雑なことをすべて行い、可能性を探索することは良いかもしれませんが、この研究の結果はどうだったのでしょうか。驚くべきことに、ある人々は現在、私たちはゆっくりとAIに近づいており、基本的に沸騰する水の中のカエルのようになっていると主張しています。
これは、カエルを非常に熱い水に入れると直ぐに飛び出しますが、徐々に熱くなっていく水に入れると、カエルは気付かずに最終的に茹でられてしまうという例えです。それが今日起きていることだと彼らは基本的に述べています。
彼らは、61.9%という最先端の公開検証精度を達成し、これは平均的な人間のスコアに匹敵すると述べています。我々の発見は、明示的な記号的探索が、これらのモデルにおける抽象的推論を改善する唯一の道ではないことを示唆しています。
これが驚くべきことなのは、もちろんこれが最先端であり、AGIを持っているかどうかを判断するためのベンチマークとされているもので、人間レベルのスコアに達した最初の事例の1つだからです。
もちろん、これはAGIを持っているかどうかを本当に判断できる抽象的推論テストではないと主張する人もいるでしょう。OpenAIのAGIの定義を見ると、AGIは「ほとんどの経済的価値のある仕事で人間を上回る自律的システム」とされています。様々な定義がありますが、同じような方法を異なるモデルに適用しても、システムをより正確にする方法を理解し、それを価値のある仕事に変換できると私は考えています。
ここで本当に興味深いのは、AGIへの明確な道筋があることを示していることです。そして、私たちが見てきた多くのことが理にかなっていることになります。私が話していることを正確に説明しましょう。
現在、誰もが知っているのは、おそらくQパラダイムでしょう。この論文はQパラダイムに似ています。なぜなら、OpenAIのQモデルも推論時に探索を行うからです。驚くべきことに、OpenAIのQモデルが推論時に何をしているのかは実際には分かりません。なぜなら、これらのモデルの推論トークンは、モデルを保護するために私たちから隠されているからです。
しかし、私たちが知っているのは、テスト時の計算量が増加する、つまりモデルにより長く考えさせることを許可すると、ベンチマークでより高いスコアを得る能力と、より効果的に推論する能力が向上するということです。それはまさに、この論文で見たことです。8Bパラメータのモデルを使用しただけで、6倍の改善を示しました。
このQパラダイムについて驚くべきことは、以前からAIについて知っていたデータについて、それが実際に私たちに何を明らかにするかです。AlphaGoのことを覚えていますか?そしてAlphaGoの製作者たちが、たった1年前にLLMの未来について何を言っていたか覚えていますか?
「私はそれが正しい方向に向かっていると思います。これらの基盤モデルはある種の世界モデルであり、本当に創造的な問題解決を行うためには、探索を始める必要があります。AlphaGoの有名な37手目について考えてみると、それはどこから来たのでしょうか?それは人間の対局データからきたものでしょうか?いいえ、違います。
それは、ある手が非常に可能性が低いが可能であると識別し、探索のプロセスを通じて、それが実際に非常に良い手であることを理解することから来ました。本当の創造性を得るためには、可能性の空間を探索し、これらの隠された宝石を見つける必要があります。それが創造性だと私は思います。
現在の言語モデルは、そのような種類のことは本当にはしていません。彼らは本当にデータを模倣しています。インターネットから来る、元々は人間から派生したすべてのこのデータにある人間の創意工夫とすべてを模倣しています。それを超えて、本当にそれを超えるシステムを望むなら、そして新しい方法で一般化するだけでなく...
これらのモデルは物事を混ぜ合わせることができます。ハリー・ポッターをカニエ・ウェストのラップのスタイルで書くことができます。それは一度も起こったことがないのに、物事を混ぜ合わせることができます。しかし、本当に創造的であるためには、既存の物事の単なる混合ではない何かが必要です。
それには可能性の空間を探索し、そこにどこかに隠されている隠された宝石を見つけることが必要です。それには探索が必要です。したがって、プロセスに強力な探索を持つまで、訓練データを本当に超えるシステムは見られないと思います。」
これは信じられないことです。なぜなら、それはまさに私たちがQで見ていることであり、もちろん今日、「抽象的推論におけるテスト時学習の驚くべき有効性」で見ていることだからです。これはLLMが完全に失敗するはずのベンチマークとされていますが、これらの探索方法やテクニックを使用すると、そのベンチマークをさらに高くすることができることが明らかです。
Google DeepMindのシェーン・レッグだけがこれについて話したわけではありません。実際に知りたい場合は、実際にQモデルに取り組んだ人々からの情報もあります。Hanabiという以前のゲームについて、そして探索によって劇的な性能向上がどのように彼らが信じられないようなものにつながったかについて、彼が何を言っているか見てみましょう。
「これは、この探索アルゴリズムを異なるボットに追加することで得られる結果です。28%しか得られていなかったこの手作りのヒューリスティックボットを取り、想像できる最も単純な探索を追加すると、つまり、取れる異なるアクションすべてについて多くのロールアウトを行い、最高の期待値を持つものを選ぶだけで、性能は60%近くまで向上し、以前のすべてのディープラーニングボットを上回りました。
これは、テスト時に単一のCPUコアを1秒程度使用しただけです。素晴らしいことに、これを他のすべてのディープラーニングボットの上に追加することができました。最新の統合ボット、ディープラーニングボットに追加すると、性能はさらに72%まで向上しました。
これは1人のプレイヤーに対して探索を行った場合だけです。両方のプレイヤーに対して行った場合、それが緑色のバーですが、性能はさらに向上しました。また、このゲームの上限が100%ではないことも指摘すべきです。なぜなら、勝つことができない配布があるからです。実際に可能な最高性能は、おそらく90%程度だと思います。そして、このドメインでの性能を急速に飽和させていることが分かります。
Fairの私のチームメイトと私がこの結果を得たとき、私のチームメイトは文字通りバグだと思いました。なぜなら、このような単純なことを行うだけで、性能が28%から最先端の58%まで跳ね上がるということは想像もできなかったからです。」
これが、テスト時の計算と訓練時の計算が、これらのLLMやAIシステムがどのような探索メカニズムを使用するにせよ(AIシステムで探索を行う方法は様々あります)、高度な推論を解放し、もちろん分布外の能力を解放するために使用される領域に向かう明確なトレンドがある理由です。
これについて驚くべきことは、探索は素晴らしいですが、これは実際に私に考えさせました。人間とAIシステムを比較したとき、確かにAIシステムは1000や10000の可能性を探索することができますが、その探索がさらにサンプル効率的になったらどうなるでしょうか。デミス・ハサビスが言うことを見てみましょう。これはまさに私が考えていることだからです。
「確かに超人的なAIシステムを作ることはできますが、その種の探索は人間ほど効率的ではありません。次の手を決めるために数百万の可能な手を見るかもしれません。AlphaZeroとAlphaGoは、次の手を決めるために数万の可能なポジションを見ました。しかし、人間のグランドマスター、人間の世界チャンピオンは、おそらく数百の手しか見ません。それでも、次に何を打つかについて非常に良い決定を下します。
これは明らかに、力ずくのシステムはゲームについての実際のモデルを持っていないことを示唆しています。AlphaZeroはかなり良いモデルを持っていますが、世界の、人間のトッププレイヤーは、囲碁やチェスについてはるかに豊かで正確なモデルを持っています。そのため、非常に少ない探索で世界クラスの決定を下すことができます。
そこにはトレードオフがあると思います。モデルを改善すれば、探索はより効率的になり、したがって探索でより遠くまで行けると思います。」
これが理解できると、これは理にかなっています。これらのAIシステムは、温度によってより創造的な出力セットを通じて、様々な可能性を探索しています。これは、より多くの多様性を持つ多くの異なる解決策を得ることができ、したがってより頻繁に正しい答えにたどり着くことができることを意味します。もちろん、それらの正しい答えにつながった思考パターンを訓練します。
しかし、これが現在の状況で、これがここにあるなら、これはおそらくサム・アルトマンが最近のインタビューで言ったことの理由だと思うかもしれません。これが、AGIに到達するために何をする必要があるかを正確に知っている理由です。
「これは初めて、実際に何をすべきか分かっているような感じがしました。」
そして、もちろんOpenAIのブログ記事でQについて話したとき、問題あたり10,000回の提出を許可されたとき、モデルは...のスコアを達成したと述べていたことを思い出します。
OpenAIからの発言はもはやハイプではありません。異なる探索戦術の組み合わせと、その探索をさらに効率的にする方法の改良の組み合わせかもしれないAGIへのロードマップを持っているように見えます。
しかし、サム・アルトマンがGPQAで105%のスコアを予測しているQ2モデルで何が起こるかを見るのも興味深いでしょう。彼はまた、多くのこれらのベンチマークを飽和させるだろうと予測しましたが、多くの他の企業の研究も基本的にQ1/Q2パラダイムの主張を支持しています。
私は、分布外の側面でAGIを達成したかどうかについての皆さんの考えを聞きたいと思います。これからどこに向かうのか見るのは興味深いでしょう。