生成AIの[早い思考と遅い思考]-『ファスト&スロー』(ダニエル・カーネマン著)を例に
2025年、あけましておめでとうございます。
昨年の生成AI業界の進化のスピードは凄かったですね。今年は昨年以上にすごい1年になると、僕は確信しています。
2025AI業界のトレンド
今年のAI業界のトレンドですが、いくつかトピックスをあげると次のようなことかな、と僕は思っています。
1.AIエージェント
2.(ボイス入力を中心とした)真のマルチモーダル
3.推論AIの進化
1.AIエージェント
AIエージェントについては以前記事を書きましたね。
昨年11月にAnthropicがリリースした「MCP」、今春に、Googleが「Google Agentspace」、OpenAIが「Operator」を公開する予定です。
これら大手3社のAIエージェントは、汎用性をもって、「お願いしたら、どんなことでも自動的にやってくれる」を目指したものです。
一方で、特定分野に特化したAIエージェントも、AIベンチャーから多数登場します。セールスや税務、法務など業務に特化したAIエージェントが続々とリリースされていますので、これも、いつか、記事にしたいと思います。
特に、システム開発系のAIエージェントの進化はすごいものがあり、生成AIの恩恵を一番早く受けそうなのは、システム開発です。
Replit Agentは、その代表的なものです。
システム開発に生成AIが取り入れられると、数年後には、人によるプログラミングはほとんど不要になり、システム開発コストがゼロに近づいていきます。かなりインパクトあることなので、こちらについても、いつか記事にしたいと思います。
2.ボイス入力を中心とした真のマルチモーダル
2は、要するに、AIが耳と目をもって、僕たちと会話する世界が現実化するということですが、これも以前書きました。
3.推論AIの進化=本稿のテーマ
本稿では、今年ブームになるであろう、3の「推論AIの進化」について記していきます。
Chat-GPTには2つのモデルがある
生成AIの代表的な存在であるChat-GPTには、正確には、Chat-GPT4oとOpenAI o1、という2つのモデルが存在するのはご存じですか?
LLM(大規模言語モデル)と呼ばれる、言葉で返事する生成AIの最新版が、Chat-GPT4oで、それとは別に昨年冬に登場した新しいモデルがOpenAI o1、通称o1モデル、というのもです。
何が違うの?となるのですが、簡単にいうと次のような違いがあります。
つまり、Chat-GPT4oは、とにかく学習し、その知識を持って、聞かれたことに、クイックに答えるモデルであり、会話するのに向いています。
それに対して、o1モデルは、知識より頭脳で勝負するモデルで、とにかく、聞かれたことに対してじっくりと考えて回答するモデルで、難しい質問に対して答えるのに向いています。
何が違うの?、なぜ2つのモデルを作ったの?って思う人が多いので、 これを、行動経済学の創始者のひとりとして有名なダニエル・カーネマンが「システム1」と「システム2」と呼ぶ、「速い思考・遅い思考」の観点でお話しますね。
「システム1」と「システム2」
『ファスト&スロー』というベストセラーにも著されたカーネマンの理論は、人の思考を二種類に分けて説明しています。
本著では、直感的で自動的な判断を下す高速思考を「システム1」と呼び、意識的で論理的にじっくり考えるプロセスが「システム2」としています。
「経験則でぱっと答えが思いついた」とか「なんとなくそんな気がする」「おはよう、と言われて、おはようと返す」などは、「システム1」の思考です。右脳的な思考ともいえます。
逆に、数学の問題を解くときに紙とペンを使ってステップを順番に検証していくような作業は「システム2」の思考です。まさに論理的、左脳的な思考ですね。
人間の脳の思考回路には、この2つのシステムがあり、複雑に使い分けていることから、人は論理的に行動できないのである、というのが、カーネマンの行動経済学の主張です。
例えば、「定価1万円の20%オフ」と「8000円」と表示された商品があった場合、同じ8000円にも関わらず、「20%オフ」の方がお得に感じる人が多いのは不思議ですよね。
それは、直感、つまり「システム1」の思考で考えてしまうからのようです。「システム2」の思考で論理的に思考すればいいのに、人は「システム1」で考えて行動してしまう、非合理的な生き物である、というわけです(もちろん、「システム1」で考えてしまうことにも、ちゃんと理由はあるのですが)。
そんな行動経済学の話は非常に興味深いのですが、今回は話を戻して先に進みましょう。
この2つのシステムの考え方は、Chat-GPTに2つのモデルがあることの理由にも繋がっています。
「システム1」の言語モデル
Chat-GPT4oは、学習中心のモデル、つまり膨大なデータを使って一括でガッとトレーニングをしたあと、推論時にはあまり複雑な処理をしないタイプのモデルで、「システム1」の動きに近いといえます。
このモデルは、回答する時に(推論のフェーズといいます)、豊富な経験に裏打ちされた直感を使うかのように、すばやくテキストを生成します。
チャットのようにリアルタイムでやりとりをする場面では、この「高速応答ができる」というのがとても便利だし、それこそシステム1がパッと反応しているように見えますよね。
そもそも人の90%の会話は、何も考えずに、反射的に答えていることがほとんどなのです。と言うと、え?って思われそうですが、日常会話はほとんど、考えずに反射的に返答していませんか? 「いい天気だね」「そうだね」というように。
これは、Chat-GPT4oが相手の入力に対して最適な答えを過去の会話の記憶や経験の情報から引っ張り出して、瞬発的に答えてるのと、原理的には同じことです。
ただし、この学習中心モデルは一回学習を済ませたあとだと、モデルを更新するのが大変だったりする。再学習のコストが大きいので、何か新しい情報が出てきたときにそれを即座に取り込むのは苦手だったりするのです。
人間でいうと、経験則を使って素早く判断する直感がある一方で、古い経験に基づいて誤った判断をしてしまうバイアスが抜けない、そんな感じにも似ているかもしれませんね。
「システム2」の言語モデル
一方で、推論中心モデルは、推論時にもうちょっと「考えている」ふうなプロセスを挟みます。質問が来たときにただパターンマッチで答えを生成するのではなく、段階的に情報を整理したり、外部の知識ベースを参照したり、検索機能やツールを呼び出したりして、最終的な答えにたどり着くのです。
このアプローチはまさに「システム2」的な「意識的で論理的なプロセス」に近いといえます。即断即決はせず、頭のなかで「こういう条件ならこう考えて、結論としてはこうなるはずだ」と、いくつものステップを踏む動きが想像できるでしょう。
人間も自分の頭のなかだけで完結するのではなく、何か調べ物をするときに書籍やインターネットを引っ張り出してくるわけで、それと同じような感覚でモデルが動いているといえます。
推論中心モデルのメリットは、複雑な問題や最新情報に対応しやすかったり、正確性を高めるための工夫がしやすかったりする点にあります。
ステップを踏んで推論することで説明可能性も高まりやすいし、外部のデータを必要に応じて参照できるため、プリトレーニングが終わったあとに新しく出てきた情報にも即時で対処できる可能性があるのです。たとえば最新のニュースや技術的な更新には柔軟に対応できるでしょう。
ただ、当然ながら推論過程が複雑になるので、計算コストが増えたり、リアルタイム応答が遅れたりするリスクは否めません。それこそシステム2的な熟考が時間や意識のリソースを食うのと似ていて、じっくり考えればその分だけ遅くなってしまう、というわけです。
2つのシステムは併用してこそ
では、「システム1的」な学習中心モデルと「システム2」的な推論中心モデルは対立しているのでしょうか?
いえいえ、人間にしても、直感と熟考はどちらも大事であるように、AIの世界でも高速に推論できる仕組みと、必要に応じて深く検証できる仕組みを上手につないで使うことで力を発揮する場合が多いのです。
たとえば巨大な言語モデルで、ベースとなる広範な知識を一度学習中心のやり方で仕込んでおき、推論をするときには外部ツールや検索システムを呼び出して不足した情報を補い、チェーン・オブ・ソートといった段階的推論を挟んで論理的な一貫性を確認したりする、というようにです。
そうすることで、システム1の強みである「すばやいパターン応答」と、システム2の強みである「綿密で正確な推論」を組み合わせることが可能になるわけですね。
※この「速い思考・遅い思考」はあくまで比喩であり、実際にはニューラルネットワークの学習プロセスと人間の思考メカニズムは別物だという点にも留意してくださいね。
「どう使いたいか」で組み合わせる
こうして考えてみると、AIの進化も、人間の思考のあり方と近いようなプロセスをたどっているのだなと感じます。
そして、人間ですら直感と熟考を使い分けて場面ごとに最善を模索しているのだから、AIにもそういう柔軟性があってもいいのでは、と思うのです。
つまり、速さ重視で気軽に相手をしてくれるAI(学習中心モデル)と、じっくり検証してくれるAI(推論プロセス中心モデル)の両方が存在することはとても自然なことなのでしょう。
OpenAIのo3モデル登場 -特徴と性能
さて、話はここでは終わりません。
OpenAIが発表したo3モデルは、汎用人工知能(AGI)に向けた重要なステップとされています。このモデルは、特に推論能力と自律性を高めることに焦点を当てており、複雑な数学的問題やプログラミングタスクにおいて、従来のモデルを大幅に上回る性能を発揮します。
具体的には、o3はARC-AGIベンチマークで87.5%のスコアを達成し、これは人間の平均スコアである85%を上回っています。また、プログラミング能力においては、前モデルのo1-previewの約2倍の性能向上が見られ、多くのプログラマーを凌ぐ能力を持つとされています。
公開時期
o3モデルは2024年12月21日に発表され、2025年1月末には軽量版のo3-miniが一般公開される予定です。フルモデルのo3もその直後にリリースされる見込みです。
他のモデルとの比較
o3は、前モデルのo1と比較して、以下の点で大きな進化を遂げています。
推論能力: o3は複雑な推論を必要とするタスクにおいて、o1よりも高い性能を示しています。特に、数学や科学の問題解決において顕著な向上が見られます。
コーディング能力: o3は、競技プログラミングのCodeforcesベンチマークテストで2727というスコアを記録し、これは国際グランドマスターのランクに相当します。
安全性と信頼性: o3は新たな安全性テストを経て、より信頼性の高いモデルとして設計されています。
このように、o3モデルはOpenAIの技術の進化を示す重要なマイルストーンであり、今後のAI技術の発展に大きな影響を与えると期待されています。
次世代の生成AI
このように、いろいろな生成AIが出てきても、脅威に感じたり、そのすべてを理解しようとする必要はありません。
生成AIは、あくまで僕らをサポートしてくれる存在です。だから、新しく出てきた生成AIの特徴を知り、「自分がやりたいことは、どっちに近いのかな」と考えながら生成AIを使ってみる、でいいのです。
それによってよりよい使いこなし方のヒントが見えてくるでしょう。
おそらく、次世代の大規模言語モデル、それはChat-GPT5か6かはわかりませんが、このモデルは、「システム1」の右脳と「システム2」の左脳の両方を、問い合わせ内容によって使い分ける、あるいは、コンビネーションさせる、ひいてはAIエージェントをコントロールする、そういった機能統合がなされると思います。
そうなるとAGIが近づきますね!楽しみです。