見出し画像

大規模言語モデルの数学的推論は、今のところ、推論のフリをしているだけ



【参考記事】

はじめに

さて、Appleの研究者たちが「今の大規模言語モデルは本当の数学的推論はできないよ」と言う論文を発表したそうです。まあ、これはまるで子どもに「頑張ってもお母さんみたいに料理はまだ作れないよ」と言っているようなものです。大規模言語モデルの今の姿は、レシピ通りに作るところまではできても、アレンジや応用力はまだまだ甘いのです。今回のAppleの指摘は、まさにそのことを端的に示しています。さあ、どれだけ大規模言語モデルがこの「ナンチャッテ推論」を駆使しているのか、少し掘り下げてみましょう。

無関係な情報で混乱する大規模言語モデル

Appleの研究チームが開発したテスト方法が何ともユニーク。例えば、「キウイを〇個収穫して、そのうち△個は小さかった」というような問題を出題して、無関係な情報が入っていると大規模言語モデルがどれだけ混乱するかを調べるんです。結果、大規模言語モデルは関係ない「小さいキウイの数」まで計算に入れてしまうというまさかの展開に…。つまり、大規模言語モデルはここで「本質を見抜け!」と言われても、「いや、関係ない数字ですけど?」と口を尖らせる小学生のようにパターンにすがってしまうわけです。

公衆電話の料金計算にあたふたする

また、Appleは大規模言語モデルに公衆電話の料金問題を出しました。シンプルに「1分あたり0.6ドル、60分でいくら?」と問われるとスラスラ解くのですが、少し複雑にして「10分過ぎると1分あたり0.5ドル」とルールが追加されると、もうパニックです。大規模言語モデルは汗をかきながら、0.6ドルだの0.5ドルだのに右往左往し始めます。最も難しいレベルになると、25分超えたら0.3ドルに下がって、さらに10ドル以上なら25%割引なんてルールも入ってくる。これには大規模言語モデルも思わず、「ちょっと待ってください!電話の料金が複雑すぎます!」と計算機を投げ捨てたくなるでしょう。

表面的なパターンだけを学ぶのが限界?

ここまで来ると、大規模言語モデルが本当に数式やルールの「表面的なパターン」だけを学習していることがよくわかります。本質的な理解を持たず、あくまでデータの集合体としての存在である大規模言語モデルにとって、微妙なニュアンスや複雑さを伴う状況は、まさに超難関です。

でも、私たち人間も同じようなもの?

ただし、ここで笑ってばかりもいられません。実際、私たち人間だって、似たような間違いをすることがありますよね。「クーポンを使えば得だと思ったけど、条件をよく見たら全然割引にならなかった!」なんて経験、誰にでもあるはずです。だからといって、私たち人間が推論できない存在だと決めつけられないように、大規模言語モデルもいつかは本当の意味で「賢く」なるのかもしれません。今はまだ、大規模言語モデルは数学という名のピアノに向かい、「チューリップ」を両手で必死に弾いている段階です。次のステップでは、ベートーベンの「月光ソナタ」もいけるかもしれない。いや、それはちょっと過大評価ですかね。

「ナンチャッテ推論」から「本物の推論」へ?

結局のところ、今の大規模言語モデルは数学的な推論ができるように見えても、その実は「ナンチャッテ推論」。ただ、彼ら(大規模言語モデルたち)がもう少し本物の「論理」や「理解」を持つようになる日も近いかもしれません。その時には、我々もまた、クーポンの条件をよく確認するような日々が待っているのかもしれませんね。結局、推論力の向上というのは大規模言語モデルだけでなく、私たち人類全体にとっての永遠の課題なのです。

まとめ

この論文の内容は、以前書いたo1-previewの推論能力に関するテスト結果と一致していますので、特に驚きはありませんでした。

しかし、「あ、AIブームに踊らされない学者もいるんだ」と心強く思いました。
その意味で、モデルが推論できるよ、と推論の定義を拡大解釈して言い切ってしまうOpenAIは、あまりアカデミック寄りではなく、ビジネス寄りであることがここから読み取れます。
なぜ、OpenAIの初期メンバーが次々と離れていったか、その理由の一端もここにあるかもしれません。要は初期メンバーは、アカデミック寄りであった、というだけのことです。良い悪いという話ではなく、組織の成長段階の話です。

そもそも現在の大規模言語モデルの学習結果を格納するベクトルデータベースは、論理的にデータを格納するようになっていませんし、そのデータベースからデータを取り出して単語を数珠繋ぎにする部分も確率論を元に作られているので、真偽の二値で処理する論理的な処理ではありません。

二重の意味で論理的処理を行っていないシステムに、いくら正確な推論をしろといっても無理な話で、確率的に高いものを論理的にみせかけるのが関の山です。

ですので、今後もいくら論理的推論ができるモデルが出てきたと喧伝されても、仕組みを精査しないとそれが本当かどうかは分かりません。

その限界と虚構を理解した上で、大規模言語モデルを使用すれば、ものすごく便利なツールになります。
私たちは、便利だからAIを使っているだけであって、論理的な処理ができるから使っているわけではない、ということを意識しておくといいですね。

【重版出来】AIアプリをプログラミング不要で開発する書籍

ChatGPTでAIアプリを作って仕事で使いたい方と世界に公開したい方へ!

この記事が気に入ったらサポートをしてみませんか?