見出し画像

いまのAIは本当に賢いのか? 言葉の上手さを考える

賢さには様々な種類がある

賢いとは何でしょう。大規模言語モデル (LLM) を見て思います。

賢いということが、正しいアウトプットをするということであれば、従来のコンピュータの方が賢かったと思います。しばしば間違いを含む確率モデルではなく、論理に基づいて100%の再現性で答えを返すアルゴリズムの方が正確だからです。

あるいは、賢いというのが幅広い問題を扱えるということであれば、いまのLLMは非常に賢いと言えます。おそらく、歴史上のどんな人よりも広範な情報を扱えます。もちろん計算機は人間を遥かに凌駕する計算速度と記憶力を有していますので、その意味では非常に賢いということになります。


しばしば賢さは言葉の上手さで判断される

そのなかでも、言葉が上手いという能力は注目に値します。

人間の知的な能力を測るとき、記述問題や口頭試験など、多くの状況で言葉を用います。つまり、知的な能力が高いほどうまく説明ができるという前提に立っていることになります。これを逆手に取って、会話の上手さを武器に学歴を詐称してでも有名になる人もいますが、例外的だと見做されています。長い文章を書いたり、何分か話していれば「ボロが出る」と思われているのでしょう。

言葉の上手さに関しては、チューリングテストという方法があります。人間かAIかを隠してやり取りして、どちらか分からなければ合格、AIは人間並であると判断するものです。

ChatGPTをチューリングテストに掛けた論文が見つかりました。それによると、ChatGPTとやり取りした人の半数以上 (54%) が人間だと思ったようです。一方、本物の人間とやり取りした人の3分の2 (67%) が相手を人間だと思ったとのことです。本物の人間でも割合が低いのは、この手のテストに参加する人が疑心暗鬼になっているからでしょうが、それにしても数字に大差はありません。言葉のやり取りをする能力に関して、既にAIは人間とほぼ同等と見做して良いと思われます。

ですから、言葉の扱いが上手くて、論理展開に無理がなく、幅広い分野の問題に解答でき、計算速度と記憶力が圧倒的ならば、たまに少々間違ったとしても十分に賢いと思われるのは不自然ではありません。


AIは人間と違い、順を追って学習しない

しかし、LLMの賢さの質は、人間とは異なっています。数学オリンピックの問題を解ける知能が、「9.9と9.11はどちらが大きいですか?」という問題に誤答する*というのは、人間向けのテストでは想定していない事態でしょう。

人間は、例えばいきなり高校レベルの勉強ができるようにはなりません。小学校、中学校と積み上げていくことで理解度と回答力が上がっていくのであって、小学校で全く勉強しないまま高校の勉強をするのは困難です。

これに対し、AIは文脈なしに特定の分野を学習します。法律の条文だろうが、小学校の教科書だろうが、順序は無視して個別に学びます。その結果として、人間からみると妙にムラのある学習をしているのだと思われます。

これまで機械学習の開発では、学習させたデータの内側でしか正答が得られないとされてきました。特化型AIとも呼ばれます。一方で、特に範囲を限定せずに知的な振る舞いができるものを汎用型AI**と呼びます。LLMが技術的に面白いのは、特化型AIとして言語を大量に学習させたところ、予期しないほど幅広い問題に答えられるようになったことです。この手法の先に汎用型AIがあると思っている人もいれば、いずれ行き詰まると思っている人もいます。


人間も幅広く学ばないと応用が利かない

ところで、『RANGE』という本があります。人間の能力に関して、特化して習得したスキルが必ずしも他の分野で役に立たない、だから幅広く学ぶことが大成するのに重要であるという主張です。確かに、ある分野の専門家が、己を過信して異分野で大きな過ちを犯す例は枚挙に暇がありません。

この本に面白い例が出てきます。文明が届くのが遅かった地域において、教育を受けたことがなく、生活するための現物としか触れて来なかった人々は、物事のパターンを見つけたりグループ分けをしたりするのが苦手というのです。言い換えるなら、抽象化能力が低く新しい物事への対処ができないということです。それに似た例はアメリカの大学生でも挙げられており、GPA (成績評価の点数) と幅広い分野の概念的なテストとの相関は見られませんでした。特に、専門と異なる異分野の概念を扱う問題に関しては、ひどい成績だったのです。

ここには、人間とAIの類似点と相違点が見られます。ある分野のみを学んだ知能が、他分野に応用が利かないという点では、人間もAIも似たようなものです。一方で、幅広い分野を学んだ場合に、人間は抽象化を通じて問題解決能力を獲得しますが、LLMがどうやって様々な問題を解いているかは未だ明らかになっていません。しかし、難しい問題を解けるにも関わらず簡単な問題を間違えるのであれば、抽象化した理解というよりは、個別に学んだパターンを組み合わせているように見えます。


賢そうなら信頼できるのか?

以前に信頼に関して書きました。信頼には「馴れ親しみ」「人格的信頼」「システム信頼」の3つ、つまり「いつもと同じなので大丈夫そう」「人格として信じられる」「そういう安定した仕組みがあるので信じられる」という形があるとされています。LLMはこのどれも満たさないので、信頼には値しません。しかし、信頼とはサボるためにあるのですから、失敗してもいいことならどんどん任せればいい。こういう主張でした。

では「賢い」と「信頼」はどういう関係なのでしょうか。

数学オリンピックでメダルを獲ったという人が入社してきて、小数の大小を理解できない姿を目にしたらどう思うでしょう。おそらくは、メダルの方が嘘で、本当の実力はないと感じるのではないでしょうか。そこで「小学校レベルの計算はさせないけれど、数学オリンピック級の問題は任せてみよう」と思う上司は想像しがたいと思います。

いまLLMが置かれているのは、まさにそういう状態です。いかにも賢そうに何でも流暢に喋る。数学オリンピックだのTOEICだので、人間の上位何パーセントかの非常に高い成績を叩き出す。一方で日常的な何でもない問題をコロッと間違える。そんなAIとどう付き合うのか、その賢さとは何なのか、信頼する根拠はあるのかという話です。

DIKWモデルを持ち出すなら、大量のデータを学習させたLLMに、ピラミッドのどこまでを期待していいのだろうか、ということでもあります。あくまで整理された情報を期待するべきなのでしょうか。それとも一段上の、情報を解釈した結果としての知識を持っていると思っていいのでしょうか。あるいはもっと上で、十分な知識を有し、それを自由に操れる知恵があるのでしょうか。


口の上手さに慣れる

これはやはり、受け止める人間側の問題なのでしょう。上手く話すけど中身が怪しい人に関して、胡散臭いと感じることはできても、それ以上の対処は難しい。それと同様に、賢そうなAIに関しても、感心したり警戒したりするだけで、うまく評価できていないのだと思います。インターネットのスラングでは、AIの性能を大げさに書き立てて閲覧数を稼ぐ人々のことを「プロ驚き屋」と揶揄しますが、ことLLMに関しては、実はそういう形で性能を表現するのは仕方ないような気もしています。

ところで、ひとつだけ希望的観測を述べるとすると、人々がLLMを使うことで「賢そうだけどイマイチ怪しい知性」の対処に慣れた結果、口ばかりが上手い人を駆逐できる日が来るかもしれません。これは密かに大きな成果なのではないだろうかと期待しています。




*2024/12/08時点でのChatGPTo1環境で確認
**最近の汎用型AIの定義は、従来のAI研究からだいぶ変わってきているようです [1][2]


いいなと思ったら応援しよう!