主要なLLMへ19個の質問をするベンチマークテストの結果が興味深かった

2023年9月18日 15:45

質問４

Sally (a girl) has 3 brothers. Each brother has 2 sisters. How many sisters does Sally have?(サリー(女の子)には3人の兄弟がいます。兄弟には2人の姉妹がいます。サリーには何人の姉妹がいますか？)

正しい答えは１

興味深いのは、テストしたLLM全部、不正解（GPT-4でさえ）
そして私も不正解ｗ

そこでChatGPTで少し意地悪な会話をしてみた。その結果

この回答にはいろいろと考えさせられる

１）まず、「１」と正答できなかった理由を聞いても、まともに回答できていない（ほとんど同語反復）
２）間違った答え「２」を、正答と間違って教えた場合、確かにそれを拒否するけど、その拒否理由が間違っている（問題自体を回答に合わせて創作している）
３）正答を導いた後、間違った答え「３」を正答と教えこんだ場合、それを正答を認めてしまう（元々、ブラウザで利用するGPT3.5だと私の文脈では「2」と答える）

人間に同じ質問をしても、正答率はたぶんすごく低いのではないかな。その同じ傾向をLLMも引きずってしまうということかな。

もう少し考えてみよう。私がどのように間違ったかを振り返ってみると

「兄弟3人で、ひとりずつに姉妹2人だから2*3で6人じゃね？」
「いやちとまて、そのうちサリーは女の子で、姉妹に含まれるから、これひっかけ！　姉妹2人の片方はサリーだから、答えは３！」

はい残念

兄弟3人に2人ずつ姉妹でも、その姉妹2人はそれぞれ同一人物だから、単純に掛け算したらダメよってことね。

つまりこの質問には人間の血縁関係や個体としての同一性という暗黙知が要請されていて、これを理解せず単純な数の足し引きをすると正答できないよう仕込まれている。しかも人間でも正答率が低そう（＝事例から学習しようがない）。そのため多重に難しい、ということだろうか。

人間が正解を聞いたら、「あっ、なるほど」と質問のトリックを理解できる。ところがChatGPT君は↑の会話みたいに、いつまでも延々と惑わされ続ける。間違いの理由を聞いたとき答えられなかった点が面白い！さらには、矛盾する指摘を与えた場合、その指摘を尊重して整合させようとするあまり、問題の方を作り変えてしまうという荒業・・・まるで人間のようだ。ある意味で。

さて、この問題、本当に興味深いのは、人間サイドのお話。

ここまで記事を読んで頂いて、最初の質問文に戻ってみてください。

なにが起きたでしょうか？

もう答えは1以外に考えられなくなっていませんか？
どうしてこんな問題まちがっちゃったんだろうって不思議に思いませんでしたか？

私は思いました。そして私はここに、アスペクトが劇的に転換する瞬間の一例を見るのです。

この記事が気に入ったらサポートをしてみませんか？