
AIは停滞しない - 考える時間を与えれば | ノーム・ブラウン | TED
4,432 文字
過去5年間のAIの目覚ましい進歩は、一言で表すと「スケール」です。確かにアルゴリズムの進歩もありましたが、今日の最先端モデルは依然として2017年に導入されたTransformerアーキテクチャに基づいており、2019年に訓練されたモデルと非常によく似た方法で訓練されています。主な違いは、これらのモデルに投入されるデータと計算能力の規模です。2019年、GPT-2の訓練費用は約5,000ドルでした。それ以来この5年間、モデルはより大規模になり、より長期間、より多くのデータで訓練され、毎年性能が向上してきました。
しかし、今日の最先端モデルの訓練には数億ドルの費用がかかり、AIがまもなく停滞するか、壁にぶつかるのではないかという懸念が一部にあります。結局のところ、数千億ドルもするモデルを本当に訓練するのでしょうか?数兆ドルになったらどうでしょう?ある時点でスケーリングのパラダイムは行き詰まります。これは私の意見では妥当な懸念であり、実際に以前は私も共有していた懸念です。しかし今日、私はこれまで以上にAIが停滞しないことを確信しています。
実際、今後数ヶ月でAIの進歩が加速すると考えています。その理由を説明するために、私の博士課程の学生時代の話をさせてください。2012年に博士課程を始めた私は、想像できる最も刺激的なプロジェクトに取り組むことができました。それは、ポーカーを自ら学習するAIの開発でした。高校や大学時代に多くのポーカーをプレイしていた私にとって、これは基本的に子供の頃からの夢の仕事でした。
世間の評判とは裏腹に、ポーカーは単なる運のゲームではありません。深い戦略のゲームでもあります。トランプを使ったチェスのようなものと考えることができます。私が博士課程を始めた時、ポーカーをプレイするAIの研究は既に数年続いており、研究コミュニティの一般的な感覚としては、パラダイムを理解し、あとは規模を拡大するだけだと考えていました。そこで毎年、より大規模なポーカーAIをより長期間、より多くのデータで訓練し、今日の最先端の言語モデルのように、毎年性能が向上していきました。
2015年までに、それらは人間の専門家に匹敵する可能性があると考えられるほど優秀になりました。そこで、世界トップ4人のポーカープレイヤーに、88万ハンドのポーカー対戦を提案しました。賞金は12万ドルで、最高のプレイを引き出すためのインセンティブとしました。しかし残念ながら、私たちのボットは大差で負けてしまいました。実際、初日からボットが相手にならないことは明らかでした。
しかし、この対戦中に興味深いことに気付きました。この対戦に向けて、私たちのボットは約3ヶ月間、数千のCPUを使って、ほぼ1兆ハンドのポーカーをプレイしていました。しかし、実際にこれらの人間の専門家と対戦する時になると、ボットは即座に行動しました。どんなに難しい決定でも、約10ミリ秒で判断を下していました。一方、人間の専門家は生涯で恐らく1,000万ハンドほどしかポーカーをプレイしていませんが、難しい決定に直面すると時間をかけて考えました。簡単な決定なら数秒で、難しい決定なら数分かけて考えましたが、決定を考え抜くために与えられた時間を活用していました。
ダニエル・カーネマンの著書『ファスト&スロー』では、これをシステム1思考とシステム2思考の違いとして説明しています。システム1思考は、例えば親しい顔を認識したり、面白いジョークを笑ったりするような、より速い直感的な思考です。システム2思考は、休暇の計画を立てたり、エッセイを書いたり、難しい数学の問題を解いたりするような、より遅い方法論的な思考です。
この対戦の後、このシステム2思考こそがAIに欠けているものであり、私たちのボットと人間の専門家の性能の違いを説明できるのではないかと考えました。そこで、このシステム2思考がポーカーにどれほどの違いをもたらすのか実験を行いました。その結果は驚くべきものでした。ボットに1ハンドあたり20秒考える時間を与えただけで、モデルを10万倍に拡大し、10万倍長く訓練するのと同じ性能向上が得られたのです。もう一度言います。1ハンドあたり20秒考える時間を与えることで、モデルのサイズと訓練を10万倍に拡大するのと同じ性能向上が得られたのです。
この結果を得た時、最初はバグだと思いました。博士課程の最初の3年間、これらのモデルを100倍に拡大することに成功し、その作業に誇りを持っていました。スケーリングの方法について複数の論文も書きました。しかし、システム2思考を拡大するだけで、それらすべてが脚注になることはすぐに分かりました。
そこで、これらの結果に基づいてポーカーAIを根本から再設計しました。今度はシステム1に加えてシステム2思考のスケーリングに焦点を当てました。2017年、再び世界トップ4人のポーカープロに12万ハンドのポーカー対戦を提案しました。今回は賞金20万ドルでした。そして今回は、全員を大差で打ち負かしました。これは関係者全員にとって大きな驚きでした。ポーカーコミュニティにとっても、AIコミュニティにとっても、そして正直なところ私たち自身にとっても大きな驚きでした。私は実際、このような大差で勝てるとは思っていませんでした。
この結果がいかに驚くべきものだったかを端的に示しているのは、対戦を発表した時のポーカーコミュニティの反応です。彼らは得意とすることをして、勝者に賭けを始めました。対戦を発表した時点での賭け率は私たちに対して約2対1でした。対戦の最初の3日間で私たちが勝利を収めた後も、賭け率はまだ約50対50でした。しかし対戦の8日目には、もはやどちらが勝つかに賭けることはできず、どの人間が最も小さい負け方をするかにしか賭けられなくなっていました。
より長く考えることでAIが恩恵を受けるというこのパターンは、ポーカーに限ったことではありません。実際、他の複数のゲームでも同様の現象が見られています。例えば、1997年にIBMはチェスをプレイするAIのDeep Blueを作り、世界チャンピオンのガリー・カスパロフに対戦を挑み、AIにとって画期的な成果として彼に勝利しました。しかしDeep Blueは即座に行動せず、各手を打つ前に数分間考えました。
同様に、2016年にDeepMindはチェスよりも複雑なゲームである囲碁をプレイするAIのAlphaGoを作り、世界チャンピオンのイ・セドルに対戦を挑み、AIにとって画期的な成果として彼に勝利しました。しかしAlphaGoも即座に行動せず、各手を打つ前に数分間考えました。実際、AlphaGoの開発者たちは後に、この考える時間がどれほどの違いをもたらすか測定した論文を発表しました。彼らが発見したのは、AlphaGoが数分間考える時間を持つと、生きている人間なら誰でも大差で打ち負かすことができますが、即座に行動しなければならない場合、トップレベルの人間よりもずっと劣る性能になるということでした。
2021年には、この考える時間がもたらす違いをより科学的に測定しようとした論文が発表されました。その中で著者たちは、これらのゲームにおいて、システム2の思考時間を10倍に拡大することは、システム1の訓練とモデルサイズを10倍に拡大することとほぼ同等であることを発見しました。つまり、システム2の思考時間の拡大とシステム1の訓練の拡大の間には、非常に明確で明快な関係があるのです。
なぜこれが重要なのでしょうか?この講演の冒頭で、今日の最先端モデルの訓練には数億ドルの費用がかかると述べましたが、それらに質問をして回答を得るためのクエリコストは1ペニーの何分の1かです。この結果は、より優れたモデルを作りたい場合、2つの方法があることを示しています。1つは、過去5年間やってきたことを続け、システム1の訓練を拡大することです。モデルに数億ドルかかるところから数十億ドルかけるようになります。もう1つは、システム2の思考を拡大することです。クエリあたり1ペニーかかるところから10セントかかるようになります。ある時点で、このトレードオフは十分に価値があるものとなります。
もちろん、これらの結果はすべてゲームの領域におけるものであり、これらの結果を言語のようなより複雑な設定に拡張できるかどうかという妥当な疑問がありました。しかし最近、OpenAIの私の同僚たちと私は、応答する前に考えるという新しい言語モデルのo1をリリースしました。簡単な質問なら数秒で、難しい決定なら数分かけて考えますが、チェス、囲碁、ポーカーのAIと同様に、o1もより長く考えることで恩恵を受けます。
これはスケーリングの全く新しい次元を開きます。もはやシステム1の訓練の拡大だけに制約されることはなく、システム2の思考も同様に拡大できます。そしてこの方向へのスケーリングの美しい点は、それがほとんど未開拓だということです。今日の最先端モデルのクエリコストが1ペニー未満だと述べたことを覚えていますか?
これを人々に話すと、よく「モデルからの応答を数分待ったり、質問の回答に数ドル支払ったりすることを人々は望まないだろう」という反応が返ってきます。確かにo1は他のモデルよりも時間がかかり、コストもかかります。しかし、私たちが気にしている最も重要な問題の中には、そのコストが十分に価値があるものもあると主張したいと思います。
では実験をしてみましょう。新しい癌治療法に1ドル以上支払ってもいいと思う人は手を挙げてください。会場のほぼ全員ですね。では1,000ドルはどうでしょう?100万ドルはどうでしょう?より効率的な太陽光パネルや、リーマン予想の証明についてはどうでしょうか?
今日のAIの一般的な概念はチャットボットですが、それが全てではありません。これは10年後や2年後の革命ではありません。今まさに起きている革命なのです。私の同僚たちと私は既にo1のプレビューをリリースしており、トップ大学の研究者を含む人々から、何日分もの作業時間を節約できたという声を聞いています。そしてそれはまだプレビューに過ぎません。
この講演の冒頭で、過去5年間の進歩の歴史は「スケール」という一言で要約できると述べました。これまでそれは、これらのモデルのシステム1訓練の拡大を意味してきました。今や私たちには新しいパラダイムがあります。システム2思考も同様に拡大できるパラダイムです。そして私たちはこの方向へのスケーリングのまさに始まりにいるのです。
AIが停滞するか壁にぶつかると今でも言う人がいることは知っています。そういう人たちに私は言います。賭けてみませんか?
ありがとうございました。