【持論】日本ならではの勝ち筋,"EQが高いAI"とは -OpenAI発表[生成AIの進化5段階]を受けて

2024年8月3日 18:50

　いわゆる全知全能のAI（汎用人工知能：AGI）は、IQが高いだけではダメで、EQが高いAIであるべき。そして日本人にはそれが創造できるはず……前回の記事で、僕はそんなことを書きました。

ステップ５の定義←僕は、そうは思わない

　OpenAIのステップ５は、いわゆる「AGI：汎用人工知能」のことです。
　彼らも「AGI」を作ることが企業のビジョンだと公言しています。
　このステップ５の表現を読み取るに、AGIとは、IQ（知的推論能力）がヒト同等かそれ以上のAIであると定義しています。

　もちろん、マネージメントをする機能と言ってるわけですから、組織の中にいる人間（いやAIかもしれませんが）とのコミュニケーション能力も高いので、IQだけでなく、ある程度の感情理解も入ってるとは思います。

　しかし、そのトーンは、最近のAIを図るベンチマークでも、大学受験問題が解ける、推論能力、数学問題、論理的思考．．．といった、IQを図るものばかりであると同様に、かなりIQ的な表現をしていると感じています。

　しかし、未来のAIってIQだけでいいのでしょうか？AGIとはIQの高い、IQで人間をも上回る、そんなAIであるべきなのでしょうか？

　僕は、頭がいいだけのAIではダメだと、以前から思っています。それどころか、危機感さえあります。

【解説】OpenAI発表[生成AIの進化5段階]とは？
-未来がUtopiaかDystopiaかは"最終ステップ"にかかっている

　今回は、僕がなぜそう思うかについて詳しく説明していきます。

現状：大規模言語モデル競争

　生成AI、特に、Chat-GPTに代表される大規模言語モデル（LLM：Large Language Model)は、現在乱立状態にあります。

　OpenAIは、Chat-GPTもGTP4o（オムニ）とminiの２種類のLLMをリリースしていますし、Anthropicからは、日本語作成能力の高いClaude3.5 Sonnetが出ていて、GoogleはGemini Pro1.5とflashを出しています。

　それだけでなく、誰でも好きにカスタマイズして無料で使われる、オープンソフトでも、METAからLlama3.1が３種類リリースされていて、一番大きいモデルは、Chat-GPT4oを超えていると評判になっていますし、GoogleからGemma 2、その他多くのLLMが発表されていて、まさに乱立状態です。

LLMの評価指標とは？

　こうしたLLMが登場すると、評価テスト結果がでて、スコアがGPT4を超えた、超えない、で騒ぎになります。

　ところでこのLLMの性能テストって、何をしているかご存じですか？

　こういう表、よく見ますよね。

　表の左側にある縦列が「評価テスト」で、よく使われるものとして、

　・MMLU（Massive Multitask Language Understanding）:
　　　多様なタスクにおけるモデルの理解力の評価
　・BBH（Big Bench Hard）
　難易度の高いタスクの評価
　・MATH
　　　数学の競技問題を解く能力の評価
　・GPQA
　　　専門家による高度な質問応答の評価　．．．

　など、多数存在しますが、主に、真実性、安全性、公平性、堅牢性、プライバシー、機械倫理、透明性、説明責任、の８つの能力が高いかどうかで評価されています。

　こうした評価テストで、いかに、他のLLMモデルに打ち勝つかが、勝負になっており、このスコアの得点を高くするためのチューニングを、各社が必死になって取り組んでいます。

スコアが高いのに能力が「微妙」な理由
　しかし、ユーザーの正直な感想として、スコアが高い、と言われてるものでも、使ってみると「あれ？そうでもないな」となることもあります。

　その理由は、評価テストのスコアを上げることにチューニングされているため、必ずしも、一般的な、日本語での様々な質問に回答することが優秀とはならないからです。

　手段が目的化してるところも問題ですが、僕がこの評価テスト方法が不適切と考える理由に、頭の良さである「IQ」だけを評価していることです。

AGIは「IQ」が高いだけでいいの？

　みなさんが想像する、汎用人工知能、いわゆるAGIは、どのようなAIを想像されますか？

　おそらく、日本人が一番思い浮かべるのは「ドラえもん」ではないでしょうか？厳密にはAI＋ロボットの組み合わせですが、ドラえもんのもつAI能力が、AGIだと思っている人が多いように感じます。

　ドラえもんはIQが非常に高くてなんでもテキパキこなすロボットかというと、そうではないようですし、また、便利な道具をただ渡すだけでもありません。話し方はのんびりしていて、のび太の気持ちを理解して、アドバイスしたり、励ましたり、時には怒ったりしますよね？　それもこれも、のび太の成長を促すため、です。

　AGIは、もちろんIQが高いことは必要だと思います。ただ、人を超えるIQを持つことがAGIだと定義され、OpenAIなどのベンダーが開発に取り組むなかで、IQだけを高めるAIの開発が行われている。そのことに、僕は前々から疑問を持っています。

　なぜなら、ドラえもんが持つような、心の知能指数である「EQ」の評価が入っていないからです。

"EQに優れたAI"開発にふさわしいのは？

EQとは

　ご存じの方も多いと思いますが、EQ（Emotional Intelligence Quotient）は、「感情知能」とも呼ばれ、人の感情を認識し、理解し、適切に管理する能力を指します。

　EQの高い人は、感情をうまく扱い、人間関係を築くのが得意です。一時期、「EQブーム」もありましたよね。

EQも高いAIは、極端な合理主義に進まない

　要するに、相手の気持ちを察する能力のことです。先の例でいうと、まさにドラえもんがそうですよね。

　AGIが、単に「IQ」が高いだけだと、どうなるのでしょうか？　人よりIQの高いAIに仕事を徐々に任せていき、OpenAIのいう「第５段階」になると、会社の経営をしたり、国家の意思決定に関与したりするでしょう。

　そんなAGIが登場すると、「AIがヒトを環境破壊の元凶と認識し、人を攻撃する」といった、ディストピア思考が起きてしまうのは無理のないことですし、合理性をAIに求めた結果、それは現実化するかもしれません。

　ですので、この先AGIを開発するに当たっては、「IQ」が高いだけでなく、「EQ」も高いAIを開発する必要があると、僕は思っています。

　特に、日本は今後高齢化社会が進み、慢性的な労働者不足が発生します。そのため、育児や医療、介護現場でAI（＋ロボット）を活躍させる必要がありますが、そこに必要な能力はIQよりもEQではないでしょうか。

EQに優れた,共感型 AI の開発

　こうした「EQ」の高いAIの開発は、「共感型AI」と呼ばれており、既に一部で取り組みが始まっていますが、まだまだ主流ではありません。

　今後も、OpenAIやGoogle、Microsoftといった大手の海外ベンダーのAI（LLM）開発競争は「IQ」を高めることに注力すると思われます。

「空気読み」ゲーム

　さて、ここでちょっと話題を転換します。いつも通り、ちゃんと次につながるので、お付き合いください。

　突然ですが、「空気読み」ゲームってご存じですか？

　日本で開発されたゲームで、今、海外で大ヒットしています。このゲームを開設するYouTube動画が数千万回再生されています。

　内容は、プレイヤーの「空気読めてる度」を診断するゲームで、日常生活のシチュエーションでどれだけ「空気を読む」ことができるかを評価するものです。

　では、試しに、１問回答してください。スタート！

ゲームを1問やってみよう

　あなたは赤色の「お前」で、電車の座席に座っています。見てのとおり、両隣、あわせて２人分の席があいています。そして自分のすぐ左にはポールがあります。座席をずれてポールの横の席には移動できません。

　そこにカップルが現れました。どうしますか？

　僕は、すぐに右側（水色の人物のすぐ隣）にずれることで席を空けたのですが、「空気が読めていない」判定されました。

　えっ、「空気を読んで」カップルが隣り合って座れるように１席ずれてあげたのに、何で？

　正解はといえば……

「わざわざ」一旦立って、ポールの前を越えて、自分の左側の席に移動する、です。

　なぜなら、僕の移動の方法では、カップルは隣り合って座れるものの、ポールを挟んで座ることになるので、かわいそうじゃないですか？（笑）。

　ゲームは、すべてがこうした感じ。この空気を読む（読めない＝KY）が海外でヒットしているのです。

空気を読む国民性ゆえ、EQが高い日本人？

　海外勢の反応によれば、彼らは、日本人の気づかいの細やかさ、相手に刺激を与えない「やんわりとした」言い回し表現などに驚いています。今や日本のアニメや音楽だけでなく、こうした「気配り」系のYouTube動画も人気で、海外で何百万再生されています。

　日本人は、空気を読む国民性ゆえに、EQが高いと言われているようです。

　そこで、です。日本が開発すべきは、大手海外ベンダーが開発した「IQ」の高いAIに、日本人ならではの「EQ」の高さをチューニングしたLLMの開発ではないでしょうか？（後で詳しく述べます）。

「EQ」の高いLLMの開発方法

　「EQ」の高いLLMは、会話を学習させるだけでは難しいと思います。なぜなら、空気を読むEQは、その場の環境や場面、相手の表情や声のトーンなどの情報が重要だからです。

　ですので、まずは真のマルチモーダルのLLMの開発が必要になります。

　Chat-GPT4oも、まだマルチモーダルではありません。今のLLMは、画像（動画）情報、音声情報の両方を入力として取り込めますが、音声は文字に変化して理解し、画像は画像解析で理解しています。要は、見たことと、聞いたことを同時に、合わせては、理解はできていません。

真のマルチモーダルとは？

　例えば、「わかった、それでいいよ」と誰かに言われたとして、その意味って声のトーンや表情により、違う解釈になりませんか？

　笑顔で朗らかな声で言ってる場合は、本当に「それでいい」ですが、しかめっ面で、低い声で言った場合、「もういいよ、それで、あきらめるわ」といったネガティブな意味になりますよね？

　でも、文字起しして、声のトーンが消えて、表情と言葉がリンクしていないと、その意味が理解できなくなってしまいます。

LLMを介護の現場に１年間設置して訓練

　そして、この先、視覚と聴覚を同時に処理するAIが登場し、LLMが真のマルチモーダル対応できたとしましょう。いよいよ、そのAIに、「EQ」を学習させていくことができます。

　その具体的な方法は？

　僕なら、LLMを介護の現場に１年間設置します。そして、介護士と介護を受けている人の会話と、その表情をセットで学習させます。

　そうすることで「EQ」の訓練を行い、LLMが「空気を読むことができる」ようにするでしょう。

日本ならではの「勝ち筋」へ

　GAFAMに代表される欧米のITベンダーが大規模言語モデルを開発しています。日本は、それに打ち勝つことはできていませんが、僕は、同じ土壌で戦う必要はないと思っています。

　彼らが「IQ」の高いAIを作るのであれば、さきにも記したように僕たちは、そのAIに気配りの要素をつけ足したり、気配り＝EQに特化した、日本ならではの小型のAIモデル（SLM：Small Language Model）を開発していきましょう。

　それを世界に普及させることが、日本のAIビジネスの「勝ち筋」だと、僕は強く確信しています。