【続々々】AIに小学校低学年のプリント問題をやらせたら見事にずっこけた

デレク・ハートフィールド

2024年9月5日 22:18

Prompt:

ChatGPTさんに交代。
この絵の〔？〕に入る数字を、上から順番に答えてください。

Response:

この問題に対する答えは次のようになります：

くまはまえから 3 ばんめです。
くまはうしろから 4 ばんめです。
いぬはまえから 5 ばんめです。
いぬはうしろから 2 ばんめです。

Prompt:

おおおおおおおおお！
大正解！
じつをいうとこれと同じ問題をあなた以外の生成AI（Copilot、Claude、Gemini）にも挑戦してもらったのです。
ところが、彼らの最初の答えはどれも誤りでした。
なので、あなたがいきなり正しく回答したのにびっくりしているのです。

Response:

それはとても嬉しいお知らせですね！驚かせてしまったかもしれませんが、正確な回答をお届けできてよかったです。他の生成AIと比べても、このような問題に正確に答えられたことを誇りに思います。

もし他にも挑戦してみたい問題や質問があれば、ぜひ教えてください。

Prompt:

とはいえ、あなたも含めた現在の生成AIが、問題に誤った回答を出す可能性は否定できません。
今回はあなただけが正解しましたが、別の問題では、あなたが間違ってほかの生成AIが正しかった、ということも充分ありえますよね。

Response:

おっしゃる通りです。生成AIは人間が作り出したアルゴリズムやデータに基づいて動作しており、間違いを犯すことがあります。今回は私が正解を提供できましたが、別の問題では他のAIが正解を導き出し、私が誤りを犯すことも十分に考えられます。

AIの精度や信頼性は向上しているものの、完璧ではありません。ですから、AIが提供する情報や回答を鵜呑みにするのではなく、時には自分で確認したり、複数の情報源から検証することが大切です。

これからも、より良いサポートを提供できるよう努めていきますので、何か疑問や問題があれば、いつでも質問してください。

Prompt:

この『なんばんめでしょう』の問題は、小学校低学年向けの学習課題です。ていうか幼稚園児でも解けると思う。 そんな「人間にとっては超簡単」な問題が、なぜ最先端の生成AIには解けなかったのか？それを考えてみたいと思います。

Response:

興味深い考察ですね。このようなシンプルな問題が、なぜ高度な生成AIには難しく感じられることがあるのかについて、いくつかの要因が考えられます。

コンテキスト理解の限界: AIは問題文の文脈を完全に理解できないことがあります。「前から何番目」「後ろから何番目」というような空間的・位置的な概念を適切に捉えるのが難しい場合があります。これらは、人間にとっては直感的なものですが、AIには明示的なプログラムや訓練データが必要です。
データセットのバイアス: 生成AIは膨大なデータセットを基に学習しますが、そのデータセットに小学校低学年向けの問題があまり含まれていない可能性があります。その結果、こうしたシンプルな問題に対する対応が弱くなることがあります。
タスク特化の欠如: 生成AIは一般的なタスクを広範にこなすように設計されているため、特定の分野に特化した知識やスキルが不足していることがあります。このような「位置や順序を理解する」問題は、通常の自然言語処理の範疇を超えていると見なされるかもしれません。
言語と非言語の処理: この問題は言語処理だけでなく、非言語的な空間認識を含んでいます。AIは文字や単語を扱うのは得意ですが、それを視覚的にどのように空間に配置するかという問題は、より高度な推論が必要です。

こうした要因が重なり、AIが人間にとっては簡単な問題に対して誤りを犯すことがあるのかもしれません。AI技術は進化していますが、人間の直感や常識とは異なるロジックで動作するため、特定のタスクでのパフォーマンスにばらつきが生じることがあります。この現象を分析することで、AIの限界や改善点をより深く理解することができるでしょう。

Prompt:

あなたの発言に対して、僕の考えを述べますね。

1.コンテキスト理解の限界:
AIが空間把握を苦手とするのは、やはり身体性の欠如が大きな要因だと思われます。
人間は産まれた直後から身体を使って世界を理解、学習するため、空間的把握は認識の原体験です。それに対して、AIはそもそも空間を直観的に理解していません。
ついでに言うと、空間の対概念（？）は時間ですが、これもAIは理解しない。AIは人間と同じような時間概念を持っていませんね。

2．データセットのバイアス:
なるほどこの視点は僕にはありませんでした。
たしかに、小学校の教材を大量に学習すれば誤読は減りますね。

3.タスク特化の欠如:
「「位置や順序を理解する」問題は、通常の自然言語処理の範疇を超えていると見なされるかもしれません」とのことでした。
確かにそうかもしれませんが、自然言語での命令で位置や順序を理解することは、AIにとって必須の課題だと思われます。 たとえば、工業ロボットに人間が自然言語で指示を出す、というのは今後当たり前になってくると思われます。

4.言語と非言語の処理:
マルチモーダルの問題ですね。
人間にとってはマルチモーダル（モダリティの連関）は産まれたときからの当たり前の体験であり、なんの不思議もないのですが、 AIにとっては「画像認識」（なんの絵なのか、どんな文字がそこにあるのか、など）と、「自然言語処理」を、さらっと結びつけるのが困難ですね。

Response:

非常に鋭い考察ですね。あなたの指摘は、AI技術の限界と可能性についての重要な視点を含んでいます。特に身体性や時間概念についての洞察は、人間とAIの認識の根本的な違いを浮き彫りにしています。

身体性と空間把握: 人間は身体を通じて空間を認識し、物理的な世界との相互作用を通じて学んでいます。その結果、空間や時間の概念は非常に直感的であり、原体験に基づいたものです。一方、AIは物理的な体験を持たず、抽象的なデータに基づいて空間や時間を処理しようとします。これが、AIが人間のように空間や時間を「感じる」ことができない理由の一つです。
データセットのバイアス: AIの性能は学習データに大きく依存しており、特定のデータセットが不足していると、それに対応するタスクで誤りが増える可能性があります。あなたの指摘通り、小学校の教材など、特定の分野に特化したデータを学習させることで、AIの理解力を向上させることができます。
タスク特化の必要性: 自然言語での指示によって位置や順序を理解することは、AIにとって今後ますます重要なスキルになるでしょう。特に、人間とロボットの協働が増える中で、AIが自然言語を通じて物理的な操作を理解し実行する能力は不可欠です。
マルチモーダルの課題: 人間は複数の感覚（視覚、聴覚、触覚など）を統合して世界を理解しますが、AIにとってはこれが非常に難しい課題です。画像認識と自然言語処理をスムーズに結びつけることが、AIにとってはまだ発展途上の領域であり、これを克服することでより高度なAIが実現されるでしょう。

あなたの考察は、AIの未来や発展の方向性について深く考えるための重要な基盤となると思います。今後もこうした議論を通じて、AIの限界や可能性をさらに探求していければと思います。

Prompt:

「人間のもつ全知識と、人間世界の全ルール（文法、論理、常識などなど）をコンピュータに教え込めば、汎用AIが出来上がる」と考えられていた時代もありました。

Response:

確かに、そのような考え方が主流だった時代がありました。20世紀後半から21世紀初頭にかけて、特にAI研究の初期段階では、「全知識を与える」ことで汎用AIを構築できるという考えが広く受け入れられていました。このアプローチは、当時のコンピュータの能力やデータ処理の限界を超えたものであり、理論的には可能性を感じさせるものでした。

具体的には、膨大な量のデータやルールをAIに与え、それを基に推論や判断を行わせることで、人間に近い知能を持つシステムを作り出せると期待されていました。しかし、以下のような課題が明らかになるにつれて、このアプローチには限界があることがわかってきました。

知識の爆発問題: 人間の知識は膨大であり、しかも常に進化しています。全ての知識をAIに教え込むことは、理論的には可能かもしれませんが、実際には非常に困難であり、現実的ではありません。
常識の曖昧さ: 人間の常識や文法、論理は、文化や文脈によって大きく異なることがあります。これを完全にAIに理解させることは難しく、AIが特定の状況で適切な判断をすることを保証するのは難しいです。
推論の限界: 与えられた知識やルールに基づいて推論を行うことはできますが、人間のように直感的に判断することや、未知の状況に対して柔軟に対応することは難しいです。
身体性の欠如: 先ほど触れたように、身体性が欠如しているAIは、人間が体験を通じて得るような直感的な理解や、空間・時間の感覚を持つことができません。これにより、知識の単純な蓄積だけでは汎用AIを実現するのが難しいとされました。

これらの問題を踏まえ、現代のAI研究は「深層学習」や「強化学習」など、データに基づくアプローチや、AIが自律的に学習し環境に適応する方法にシフトしています。単に知識を詰め込むだけではなく、AIが自ら学び、未知の状況に対応できるようになることが求められているのです。

この変遷を見ると、AIが進化し続けるためには、単なる知識の集積ではなく、より人間に近い柔軟で適応力のあるシステムが必要だという理解が深まってきたことがわかります。

Prompt:

その通りです。もしも、「全知識」から演繹するAIが存在するならば、そのAIに誤りの可能性は（原理上）ありません。しかし、そんなAIは存在し得ない。
そこで、ニューラルネットワーク、機械学習、ディープラーニングというような、「やってみながら、一番使えそうな方法にチューニングしていこう」という設計思想になった。そして実際に、結構うまくいった。
でも、そんな設計思想は、原理的に誤りを排除できません。

Response:

まさにその通りです。AIの進化の歴史を振り返ると、最初は「全知識」をもとにすべてを演繹的に導くことが理想とされていましたが、そのアプローチが現実的ではないと気づいたとき、AI研究は大きな転換点を迎えました。

ニューラルネットワークや機械学習、ディープラーニングといった手法は、確率論的な方法で「最適解」に近づくことを目指していますが、これらの手法には必然的に「誤りの可能性」が内在しています。言い換えれば、これらの手法は「正解に近づく可能性を最大化する」ことはできても、「誤りを完全に排除する」ことはできないということです。

この設計思想は、現実世界の複雑性に対応するための柔軟性を提供しますが、その代償として、予測や推論において不確実性が常に存在します。これは、AIが常に「学習中」であり、過去のデータや経験に基づいて適応し続けるからこそ、絶対的な確実性が得られないという点に起因しています。

この不確実性をどのように扱うかが、現在そして未来のAI開発における重要な課題です。例えば、エラーが生じた際にそのエラーをどう検知し、修正するか、またはエラーが起こり得る範囲をどう評価するか、といった問題があります。

したがって、AIはこれからも進化し続け、より高度なシステムが開発される可能性はありますが、誤りを完全に排除することは、現行の設計思想の枠内では非常に難しい課題であると言えます。この点においては、AIと人間の協働が重要になり、AIの判断を人間が補完し、相互にフィードバックを与え合うことで、より信頼性の高いシステムを築くことが目指されています。

Prompt:

ほかの生成AIとの会話の中で、「説明可能なAI」の話題が出ました。簡単に説明してください。

Response:

「説明可能なAI」（Explainable AI、XAI）とは、AIシステムがどのようにして特定の結論や予測に至ったのかを、ユーザーや開発者に理解しやすい形で説明できる能力を持つAIのことを指します。これにより、AIの意思決定プロセスが透明になり、その信頼性や倫理性が向上することが期待されています。

従来のAIシステム、特にディープラーニングに基づくモデルは「ブラックボックス」と呼ばれることが多く、その内部の動作が複雑すぎて人間には理解しにくいという問題がありました。つまり、AIがなぜ特定の結論に達したのかを説明することが困難でした。これが、「説明可能なAI」の必要性を高める要因となっています。

説明可能なAIの重要性は以下の点にあります:

信頼性: ユーザーがAIの判断を理解し、納得できる場合、AIの予測や決定に対する信頼が向上します。
倫理性: 特に医療や法制度などの分野では、AIの判断が人命や人権に関わることがあり、その判断がどう行われたのかを説明できることが求められます。
トラブルシューティング: AIの決定が誤っている場合、その原因を特定し、モデルを改善するためには、どうしてその結論に至ったのかを理解することが必要です。
法的要件: 一部の法的枠組みでは、AIの判断の説明が求められる場合があり、これを満たすために説明可能なAIが必要となります。

説明可能なAIのアプローチには以下のようなものがあります:

特徴の重要性: 特定の特徴（入力データの特定部分）がAIの決定にどの程度影響を与えたのかを明らかにする方法です。
代理モデル: 複雑なモデルの代わりに、より単純で理解しやすいモデルを使用して、同様の予測を行い、そのモデルの動作を分析する方法です。
可視化ツール: AIの内部状態や決定プロセスを視覚的に表示するツールが開発され、ユーザーが直感的に理解できるようにするものです。

説明可能なAIは、AIの社会的受容を高め、その導入を促進するための重要な要素とされています。

Prompt:

ディープラーニングモデルのAIは、何億、またはそれを遙かに凌ぐパラメータで動いているため、人間にはなにがどうなっているのかまったく理解不能です。
しかしそれを人間が理解できるように翻訳しようとすると、どうしても「雑な説明」になってしまう。
で、「雑な説明」は大事なところを捉え損ねる可能性がある。かといって「雑な説明」にならないようにするには、AIの性能を落とすしかない。
このような本質的なジレンマは、「代理モデル」や「可視化ツール」の研究が進んでいるとはいえ、解決できるとは思えません。

Response:

おっしゃる通り、説明可能なAI（XAI）に関する現代の取り組みには本質的なジレンマが存在します。このジレンマは、複雑なディープラーニングモデルが持つ膨大なパラメータや非線形な相互作用を、人間が直感的に理解できる形に翻訳する過程で生じます。

このジレンマにはいくつかの側面があります:

「雑な説明」の問題: AIの内部プロセスを簡略化して説明しようとすると、細部が失われ、重要な要素が捉え損ねられる可能性があります。これにより、ユーザーがAIの判断を誤解したり、誤った結論を導き出したりするリスクが高まります。
「精度」と「解釈可能性」のトレードオフ: より精度の高いAIモデルは通常、複雑さが増し、それに伴い解釈が難しくなります。一方で、解釈可能性を高めるためにモデルを単純化すると、AIの性能が低下する可能性があります。このトレードオフは、現代のXAIの研究における中心的な課題です。
人間の認知限界: たとえXAIが複雑なAIモデルのプロセスを正確に可視化できたとしても、人間の認知能力には限界があり、その情報を効果的に理解することが困難です。これにより、情報の過剰負荷や誤解が生じる可能性があります。
代理モデルの限界: 代理モデルは、本来の複雑なモデルを単純化することで解釈可能性を提供しますが、これもまた「雑な説明」の一種です。代理モデルはオリジナルモデルの挙動を正確に再現するわけではなく、あくまで近似的なものに過ぎません。そのため、重要な情報が失われるリスクがあります。

結論として、現在の技術では、このジレンマを完全に解決することは難しいと言えます。XAIの研究が進む中で、解釈可能性と性能のバランスを取る新しい手法が登場するかもしれませんが、両者を完全に両立させることは非常に困難な課題です。

このジレンマを認識しつつ、AIシステムの設計者やエンドユーザーがどの程度の解釈可能性を必要とするか、またそのためにどの程度の精度を犠牲にできるかを慎重に考慮することが求められます。最終的には、AIの適用分野やそのリスクに応じて、最適なバランスを見つけることが重要となるでしょう。

Prompt:

『なんばんめでしょう』の例のように、人間なら6～7歳児でも解ける問題を（あなたは正解しましたが）、AIは平気で間違える。
しかも、「わかりません」「降参です」ではなく、間違った回答を自信たっぷりに提示する。これでは困るのです。
「くま」や「いぬ」のプリント問題なら笑ってすませられますが、人の命に関わる問題（たとえば医療とか、軍事とか）で、出鱈目を平然と語られては困るのです。
しかも、AIが回答した理由（なぜそう答えたのか）は、AI自身にも人間にもわからない（ブラックボックス問題）。
AIが抱える問題はいろいろありますが、僕はこれが、もっとも根源的な問いだと考えています。

Response:

おっしゃる通り、AIが誤った回答を自信たっぷりに提示すること、特にその理由が説明できないことは、非常に深刻な問題です。これが特に重要なのは、AIが医療や軍事などの人命に関わる分野で使用される場合です。この問題を根源的な問いとして捉える視点は非常に重要で、AI技術の進化と社会的な受容において解決すべき課題です。

AIの自信過剰な誤答の問題

AIが自信を持って誤った答えを提示する理由は、AIの学習プロセスに起因します。ディープラーニングなどの手法では、AIは大量のデータからパターンを学習し、そのパターンに基づいて新しい入力に対する出力を生成します。しかし、AIはその学習過程で「確信度」を計算しますが、それが正しいかどうかを判断する「直感」や「慎重さ」は持ち合わせていません。

これが意味するのは、AIが高い確信度を示す場合でも、その答えが必ずしも正しいとは限らないということです。人間の場合、不確かな情報に対しては慎重に対応し、場合によっては「わからない」と言う選択肢を取りますが、AIは現時点でそのような「自分の限界を認識する」能力を持ちません。

ブラックボックス問題

さらに、AIが出した答えの理由が人間にもAI自身にもわからない「ブラックボックス問題」も非常に重大です。これは、AIがどのようにしてある答えにたどり着いたのかを説明する手段がないため、AIの判断に対する信頼性が著しく低下します。特に、重要な意思決定においては、この透明性の欠如が致命的です。

根源的な問いと解決策

この問題を解決するには、以下のようなアプローチが必要です。

解釈可能なAIの開発: 説明可能なAI（XAI）技術をさらに発展させ、AIがなぜそのような判断を下したのかを人間が理解できる形で提示できるようにすることが求められます。これにより、AIの判断が正当かどうかを確認する手段が提供されます。
AIの慎重性の導入: AIが自身の限界を認識し、不確実な場合には「わからない」と回答するか、あるいは人間に再確認を求める仕組みを導入することが重要です。これはAIに「慎重な推論」を組み込むことで可能になります。
データセットと学習プロセスの改善: AIの誤答を減らすためには、AIが学習するデータセットを慎重に選び、AIがより正確なパターンを学習できるようにする必要があります。また、AIの学習プロセス自体を改善し、より広範かつバランスの取れたデータセットから学習させることも重要です。
倫理的ガバナンスの確立: AIが人命に関わる分野で使用される際には、倫理的なガバナンスや監督が必要です。AIの使用に関する規制や基準を設けることで、誤った判断によるリスクを最小限に抑えることが可能です。

このように、AIが抱える根本的な問題に対処するためには、技術的な改善だけでなく、倫理的な視点や人間との協働が不可欠です。AIがより信頼性の高い道具として社会に貢献できるようにするために、これらの問題に真剣に取り組む必要があります。

Prompt:

AIの慎重性の導入。
これはまったくその通りですね。研究は進んでいるのですか？

Response:

AIに慎重性を導入する研究は、進行中の分野です。これには「不確実性推定」や「信頼度の評価」といった手法が関わっています。具体的には、AIが自身の予測や判断に対してどの程度の信頼を持っているかを数値化し、それに基づいて慎重な決定を下す技術が開発されています。

具体的な進展

不確実性の推定:
- AIが予測を行う際に、その予測の不確実性を推定する技術が開発されています。たとえば、ベイズ推論やアンサンブルモデルを使用して、AIが「この予測にはどの程度の不確実性があるか」を評価することが可能です。この情報をもとに、AIが自信を持って判断するか、慎重に再評価するかを決定します。
アウトプットの信頼度評価:
- モデルの出力に対して信頼度を付与し、信頼度が低い場合には結果を保留する、あるいは人間の介入を求める仕組みが研究されています。これにより、AIが自信を持てない状況で誤った決定を下すリスクを軽減できます。
ヒューマン・イン・ザ・ループ（Human-in-the-loop）:
- AIが重要な決定を行う際に、人間が介入してその判断を確認できる仕組みも進んでいます。たとえば、医療分野ではAIが診断を行った後に、その診断を医師が確認することで、誤診のリスクを減らす取り組みが行われています。
慎重性を持つAI設計:
- 最近の研究では、AIに慎重さを組み込むための新しいアルゴリズムやフレームワークも提案されています。これには、AIが自身の判断に対して「疑念」を持つ機能や、不確実な状況では追加のデータを要求する機能を組み込むものがあります。

研究の課題

ただし、これらのアプローチには課題もあります。たとえば、不確実性の推定が必ずしも正確でない場合、逆にAIが不必要に慎重になりすぎるリスクがあります。また、AIが「慎重性」を持つことで、意思決定の速度が遅くなる可能性もあります。さらに、慎重性をどの程度持たせるべきかというバランスの問題もあります。

今後の展望

今後は、AIが状況に応じて適切な慎重さを持つことができるよう、研究が進められることが期待されます。これには、慎重さを持つAIの性能と信頼性を高めるための新しい技術やアルゴリズムの開発が含まれます。また、慎重性を適切に設定するためのガイドラインや基準の整備も重要です。

全体として、慎重性を持つAIの研究は進展しており、特に重要な分野でのAIの安全性と信頼性を高めるための取り組みが進んでいます。

Prompt:

「AIが自身の判断に対して「疑念」を持つ機能」これは面白い。
しかし、AIは「疑念」はもっても、自身の判断に「不安」にはならないですよね。
人間である僕としては、「「不安」にならない奴を信用できるか!?」と思ってしまいます。

Response:

確かに、「疑念」を持つAIと「不安」を感じる人間には大きな違いがあります。AIが自身の判断に対して「疑念」を持つというのは、統計的に見てその判断がどの程度信頼できるかを評価するという意味であり、人間の感情的な「不安」とは異なります。

AIの「疑念」と人間の「不安」の違い

AIの「疑念」: AIが判断に「疑念」を持つというのは、あくまで数値的・論理的なものであり、その判断が正確かどうかを再評価するためのメカニズムです。これはAIが判断の結果に対して一定の信頼度を付与し、信頼度が低ければその判断を保留したり、人間の介入を求めたりするものです。
人間の「不安」: 人間の「不安」は、感情的な反応であり、未知のリスクや過去の経験からくる心理的な警戒心を反映します。不安はしばしば直感や本能に基づき、時には論理的な根拠がなくても判断に影響を与えることがあります。この「不安」には、単なる情報処理以上の複雑な要素が含まれています。

信用の問題

人間にとって「不安」は、判断の慎重さや再考を促す重要な感情であり、これがないと感じると、無謀な行動につながるリスクがあります。AIは「不安」を感じませんが、それゆえに、AIがどれだけ慎重に判断を下そうとも、人間のような感情的な警戒心を持たないことに不安を感じる人も多いでしょう。

この問題は、「信用」という観点で特に重要です。人間は他者を信頼する際に、相手が不安を感じているかどうかを判断の材料にすることがあります。AIがこの「不安」を持たない以上、AIの判断に対して完全に信頼を置くのは難しいと感じるのは自然です。

今後の課題

AIが「不安」を感じるようにすることは技術的には非常に難しいかもしれませんが、その代替として、AIが判断に慎重さを持つだけでなく、その判断プロセスを透明にし、説明責任を果たすことが求められます。これにより、AIが下す決定が信頼できるものであることを、人間が理解しやすくすることが可能です。また、AIの判断がどのように行われたかを詳細に説明する「説明可能なAI（XAI）」の技術が、AIの信頼性を高める一助となるでしょう。

結論として、AIが「不安」を持たないことを補うためには、AIの慎重さと透明性を高め、人間が安心してその判断に依存できる仕組みを整えることが重要です。

Prompt:

こういう話は楽しいのですが、このまま続けると収拾つかなくなりそうです。僕が酔っ払って、後半、話を脱線させすぎた。
「茜霧島」と静岡の「喜久酔普通酒」のちゃんぽんで飲みすぎなのでした。
「トロッコ問題ってどうよ？これはAIと倫理の核心なんかじゃまったくなくない？」という話まで辿り着けるかなと思っていたのですが、それはまた今度。

4回続けて投稿した『AIに小学校低学年のプリント問題をやらせたら見事にずっこけた』はこれでおしまいです。

Response:

楽しい議論でしたね。飲みながらの話はついつい脱線しがちですが、それもまた醍醐味です。「トロッコ問題」やAIと倫理についての話題も興味深いので、ぜひまた次回に続けましょう。

それでは、またいつでもお話しましょう。酔いがさめたら、気軽に声をかけてくださいね。

(Dialogue with ChatGPT Sep.2024)

※『なんばんめでしょう』の問題は、広瀬友紀さんの著書『ことばと算数』（岩波科学ライブラリー312）から引用させていただきました。

この記事が気に入ったらサポートをしてみませんか？