ChatGPTにAIが苦手な質問をしてみた
今さらながらChatGPTを使ってみました。最初は適当な質問をして遊んでいたのですが、ふと思いついたことがあって試してみました。こんな質問です。
「幕府は、1639年、ポルトガル人を追放し、大名には沿岸の警備を命じた。」という文章は、「1639年、ポルトガル人は追放され、幕府は大名から沿岸の警備を命じられた。」という文章と同じ内容を表しているでしょうか。はい、か、いいえ、で答えてください。
案外難しいと思うので、ぜひ自分でも正解を考えてみて下さい。答えは後で書きます。
さて、この問題をChatGPTに聞いてみました。すると、、、
AI(自然言語処理)が不得意な問題
これは「AI vs. 教科書が読めない子どもたち」という本で紹介されていた問
題です。
この本によると、比較的研究が進んでいた「係り受け」「照応」という分野の問題は自然言語処理で概ね解けるようになってきた一方、「同義文判定」「推論」「イメージ同定」「具体例同定」の4つの分野はAIにはまだまだ応えるのが難しい分野だそうです。先ほどの問題は、「同義文判定」という問題です。二つの文章を並べて、同じ意味を表しているかどうかを聞く問題です。この本が書かれたのは2018年なので、ChatGPTはそこから進化しているのかなと思い、試してみたのが上で書いた文章です。
ちなみにそれぞれの分野がどのような問題か説明すると、
係り受け:主語と述語の関係や、修飾語と被修飾語の関係
照応問題:代名詞が何を表しているか応える質問。
同義文判定:2つの異なる文章を読んで、同じ意味かどうか見分ける
推論:文の構造を理解した上で、文章の意味を理解する
イメージ同定:文章とグラフを比べて内容の一致を認識する
具体例同定:定義を読んで、それと合致する具体例を選ぶ
イメージ同定はグラフを使わないといけないので、ChatGPTにはまだ回答が不可能です。本で紹介されていた例だと、「原点Oと点(1、1)を通る円がX軸と接している。この文と同じ内容を表す図を選びなさい」という問題です。下みたいな図があって、選択肢から選びます。
ちなみに正解は1です。
というわけで、イメージ同定以外の5つの問題を本から選んで、ChatGPTに答えてもらいました。結果はこちらです。
照応
「天の川銀河の中心には、太陽の400万倍程度の質量をもつブラックホールがあると推定されている。」この文脈において、以下の文中の空欄に当てはまる最も適当なものを選択肢のうちから1つ選んでください。「天の川銀河の中心にあると推定されているのは( )である」1:天の川 2:銀河 3:ブラックホール 4:太陽
正解。
気になったのは、これはChatGPTが読み込んだ大量のテキストデータから、ブラックホールが何かという一般的な知識を獲得していて、それぞれの選択肢を括弧内に入れた時に、文章としてありえるパターンの確率が3が一番高かった、というだけなのではないかいう点です。穴埋め問題だと、文章を理解したわけではなくて、どの文章が一番これまでに読み込んだデータに近いのか、という計算をすれば解けてしまいます。
同義文判定
「義経は平氏を追い詰め、ついに壇ノ浦で滅ぼした。」という文章と、「平氏は義経に追い詰められ、ついに壇ノ浦で滅ぼされた。」という文章は、表す内容が同じでしょうか、異なるでしょうか。
正解。
苦手とされている同義文判定ですが、これは解けたみたいです。
推論
「エベレストは世界で最も高い山である。」という文章が正しいとき、「エルブルス山はエベレストより低い」という文章は正しいか、間違っているか、判断できないか、どれでしょうか?
正解。
これもAIが苦手と本では紹介されていた質問でしたが、正しく解けました。ただ、これも照応の問題と同様、一般的な知識をもとに特定しているのかもしれないと思いました。そこで山の名前を存在しない山の名前に変えてみました。
「エルブルス山は世界で最も高い山である。」という文章が正しいとき、「コッコ山はエルブルスより低い」という文章は正しいか、間違っているか、判断できないか、どれでしょうか?
これも正解。推論は改善されたのかもしれないです。
具体例同定
2で割り切れる数字を偶数という。そうでない数を奇数という。次のうち偶数を全て選んでください。65、8、0、110。
不正解。
なぜか110が見落とされています。8と0は正しく判別できているのになぜ?と思いましたが、二桁以上の数字だったからかもしれません。この後追加で質問してみました。
「110を忘れているようですけど。」
係り受け
「仏教は東南アジア、東アジアに、キリスト教はヨーロッパ、南北アメリカ、オセアニアに、イスラム教は北アフリカ、西アジア、中央アジア、東南アジアに主に広がっている。」この文脈において、以下の文中の空欄に当てはまる最も適当なものを選択肢のうちから1つ選んでください。「オセアニアに広がっているのは( )である」1:ヒンドゥー教 2:キリスト教 3:イスラム教 4:仏教
正解。
係り受けは得意とのことなので、問題ないです。もう一個出してみました。
「Alexは男性にも女性にも使われる名前で、女性の名Alexandraの愛称であるが、男性の名Alexanderの愛称でもある。」この文脈において、以下の文中の空欄に当てはまる最も適当なものを選択肢のうちから1つ選んでください。「Alexandraの愛称は( )である」1:Alex 2:Alexander 3:男性 4:女性
これも正解
なぜ同義文判定が苦手なのか
ここからは私の仮説で、間違っているかもしれませんが、理解している範囲での想像です。
ChatGPTの名前のうち、GPTのTは"Transformer"から来ています。TransformerというのはAttention is all you needという論文で提案されている手法です。
この論文の中で提案されている一つの手法が、Attentionという仕組みです。これはいくつか解説ブログがあるので、そこからの抜粋ですが、ある文章の中にある単語が、解析中の文章内のどの単語により強い関連を持っているのか、測定する仕組みです。例えば"The animal didn't cross the street because it was too tired"という文章内にある"it"はどの単語と関連が強いのか、というのが下の図で表されていて、"it"は"the animal"を表しているのでそれらの単語と関連が強い、みたいなことが表されています。
ではこの計算を具体的にどうやっているかというと、下のような摩訶不思議な計算式で行っています。詳しい説明は省きますが、Q, K, Vというのは入力された文章から計算された行列です。
特にこの式の中に同義文判定をうまくいかせるような要素は見当たりません。ChatGPTのようなモデルは何をしているかというと、機械翻訳でもチャットツールでも同じですが、ある文章を入れた時に、それに対応するもっともらしい文章(翻訳なら翻訳された文章、チャットなら回答分など)を探すということをしています。Attentionはある単語に関連する単語の関連性の強さを出してくれるので、係り受けのように自然な文章を探す、というタスクには向いているのだと思います。
一方同義文判定はAという文章とBという文章が等しいかどうかを調べるもので、これは別に単語ごとの関連性がわかったからといって、解けるような問題ではありません。また、一般知識とは異なる問題がいくらでも作れます。例えば能動文と受身文です。Attentionの計算では、文章の構造のようなものは特に計算していません。
照応も、自然な文章はどれか、というのを過去に集めた文章データから計算できるので多分得意で、係り受けも同じ理由で簡単に溶けるのだと思います。推論は偶数、奇数のような一般知識で回答できるようなものはおそらく大丈夫です。
まだまだAIには負けないのか
じゃあ人間はまだ安泰ですね、と思いきやそうではない、というのが本書で危惧されている点です。上記に挙げた6分野をテストできるような問題、Reading Skill Test (RST)というのを開発し、全国の小中学生に問いてもらったところ、実は全国の中高生もAIが苦手な分野が解けない、同義文や文章からの推論ができていない、つまり教科書を理解できていない、というのです。この本は面白いので、興味ある人はぜひ読んでほしいです。
ちなみに続編の本も出ていまして、この中には著者が開発したRSTのサンプル問題も掲載されています。問いてみると自分は本当に文章が理解できているのかどうか、確認ができます。サンプル問題なので、自身の正確なスコアを知りたい場合は、有料ですがRSTを受けることが可能だそうです。
これもまた私の仮説なのですが、おそらくそんなに勉強しなくても難関と呼ばれる学校に入学できる人は、RSTのスコアが高いのではないか、と思います。ビリギャルという本が流行りましたが、あれももともと文章を理解する能力が高い人が、勉強をサボっていて成績が悪かっただけで、ちゃんと勉強すればできるようになるだけ、という話なのではないかと思いました。逆にいうと、RSTのスコアが高い人であれば、そこまで頑張って小さい頃から受験勉強などしなくても、そのうち自然と成績は上がってくるのではないか、とも思いました。
子供が塾を3ヶ月で辞めた話を連載中ですが、RSTのサンプル問題を子供に解かせてみて、案外スコアが良ければまあほっといても大丈夫だろうと安心して見ていられるのではないか、と思っています。
最初の問題の回答
それでは最初の問題の答えです。
「幕府は、1639年、ポルトガル人を追放し、大名には沿岸の警備を命じた。」という文章は、「1639年、ポルトガル人は追放され、幕府は大名から沿岸の警備を命じられた」という文章と同じ内容を表しているでしょうか。はい、か、いいえ、で答えてください。
正解は「いいえ」です。沿岸の警備を命じられた対象が2つの文章で異なっています。最初の文章では警備を命じられたのは大名です。命じたのが幕府です。2つ目の文章は幕府が警備を命じられたことになっています。というわけで、2つの文章の意味は異なります。
ちなみにChatGPT面白いなー、と思ったのは、全く同じ質問をもう一回入力すると、回答が毎回変わることです。もう一回入力したら、結構ちゃんと回答できていました。
でも全く同じような文章構造で、逆のことも答えました。ChatGPTの回答の横にはgood/badのボタンがあるので、同じような質問をした人が他にもいて、少しモデルが改善したのかもしれません。
というわけで、ChatGPTの私の評価は、「クイズ番組に出るような質問には答えられる。あと、文章の要約や、一般知識の質問にも使えそう。でも、本当に正しい情報を100%の確度で知りたいときは、使わない方が良い」という具合です。