【遊んで考えるchatGPT】(1)「嘘をつく」?学習データの違いを海外と日本の小説から考える
この数ヶ月、非常に賑わいを見せている生成AI界隈。
chatGPTの出現でゲームチェンジが起ころうとしていますが、最近のアンケート結果では、いまだにchatGPTを知らないビジネスパーソンが数割いるようです。
知っていても、まだ使っていない人もいるようですね。
キャズムを越えるのはいつくらいになるのでしょうか。
さて、私は前職ではAIツールを使ったサービス設計を行ったり、理化学研究所AIPセンターとの共同研究(和文英訳のAIによる自動採点)をしていたりと、直接AI技術の開発には関わらないものの、それの教育利用という点ではこの数年関わってきました。
その点で、ずっとAIについての理解を広めようと四苦八苦していた数年前とは、現在は様相がちがいます。
しかし、それでもやっぱり誤解は多いなあ、と思うので、私なりにchatGPTをいじってみた際の感想などを書いてみたいな、と思いました。
以前、AI NOWというメディアでは古臭いですが、こんな記事も書いたことがあります。興味がある方はご一読をお願いします。
(1)「ChatGPTが嘘をつく」という事情について
最近、「ChatGPTが嘘をつく」とか「事実とはちがう」「間違って答える」などの発信がSNSなどで散見されます。
検索エンジンの場合との比較
従来、検索エンジンで検索する場合には、すでに公開されているサイトやページ・資料を探すことだけを我々は期待しています。
そのたどり着いた先の資料の真偽や妥当性については、検索エンジン自体に責任はないことを知っているのです。
ですから、仮に間違いが明らかにあったり、疑問があるような資料に当たれば、その資料自体を吟味しようとしはじめます。その「ページ・資料を作った人」がいることが前提なのです。
ところが、面白いことに、chatGPTの返答が間違っている場合には、そのような「検索」と「内容」の区別をしなくなります。つまり「返答」という一元的なものに対して評価しはじめるので、「chatGPTは嘘をつく」のような言い回しになります。
ここで私は、検索者というか利用者の「心持ち」が検索エンジンに対してとchatGPTに対してで、大きく変化しているという事実に注目しています。
つまり、chatGPTの振る舞いを擬人化しているのですね。
それほど、chatGPTが優秀であるとも評価できると思います。
一方で、何らかの振る舞いに特徴があれば、人間は容易く擬人化する心理的な働きがあるとも言えます。こういうところに、AI研究がひいては人間の知能の理解に寄与するという可能性を感じます。
いわゆるAIの学習データをつくっていた立場としては、あくまでも「システム」としてのchatGPTの機能的側面と、「データ」としての学習データは区別すべきだと思うのですが、実は微妙なのですよね。
個人的な感覚としては、chatGPTは確実に根拠ある回答を用意するようにされているというよりも、多少「ブレる」返答をすることで、その返答に対する利用者の「指示」「判断」さえもデータベース化しようとしているように思えます。そうすることで、より確からしい返答ができるようにしているのではないでしょうか。
利用しているのはどちらか?
AIを利用する人に寄り添うサービスをつくりながら、人間の知性をうまく利用してサービス設計をしている。
ここが、OpenAI社のすごいところです。
(2)日本と海外の古典的な推理小説を分析させてみた
さて、今日遊んでみたことを共有します。
今回、この見出しのようなことをさせてみました。chatGPTの学習データは2021年時点で、ウィキペディアに載っているものや、オンラインでライブラリー化されているような「知識項目」「文書例」メインだろう(特に英米圏)という前提のもと、それを検証したいと思いました。
「特定の本」について書くか書かないか。この「本」が有名であればあるほど、chatGPTはそれなりのクオリティのものを書いてくると予想されます。
日本の小説と海外の有名小説での実例
試してみましょう。
予想を検証するために、2021年以前に発刊された小説であっても、日本の有名小説(とは言いながら、日本ローカル)と、世界的に有名な小説で比較してみます。
使うのは、
・内田康夫『軽井沢殺人事件』・・・たまたま、目の前にあったからw
・アガサ・クリスティ『ナイルに死す』・・・上記に合わせた
やっぱり「どうとでも読める」文章になっていて、ファンとしては「まあ、そうなんだけど、一般論が書かれているなあ」という感じがします。
実は、さらに追加して尋ねるとわかるのですが、『軽井沢殺人事件』はchatGPTの学習データにないと明確に返答してくれます。では、なぜ、2段落目の最後の文章のにように「軽井沢殺事件事件でも〜〜」と回答するかというと、「浅見光彦シリーズ」の総評の文章はどこかに掲載されていて、それを使ったからだと思います。つまり、
(大前提)浅見光彦シリーズは・・・という特徴がある。
(小前提)『軽井沢殺人事件』は浅見光彦シリーズの一つである。
(結論)『軽井沢殺人事件』は、・・・という特徴がある。
という三段論法が使われているのであり、実際にchatGPTは「「軽井沢殺人事件」が他の内田康夫の作品とどのように異なるか、または独自の特徴は何かという具体的な情報については、直接その作品を読んで分析することが必要です。」と注意書きをつけてきます。
ところが、『ナイルに死す』は若干テイストが違ってきます。
内容としては、浅見光彦と同様に、ポアロ・シリーズとして「どうとでも読める」雰囲気の回答があるのですが、以下の追加質問をすると、ちゃんと具体例が出てくるのが内田康夫作品とは異なるところです。(その具体例が適切かどうかは疑問があるが。)
ちょっと予想は外れたが、学習データにあるかどうかがポイントになる
やはり学習データでの差は出てきます。アガサ・クリスティの作品くらい有名になれば、引用もできるようです。
「論じる」ことはできるのか?
人間は論じるのが好きです(私だけ?)。
例えば、こんな分析を論じることは、AIにできるのか疑問です。
上記のように、小説について分析してもらう際に期待していたのは、もっと「論じる」雰囲気が欲しかったのですよね。分析とか、着眼点に応じた読解とか。それだと、読書感想文に十分使える。
どちらかというと、ウィキペディアなどで紹介されているような「総評」的なものになってしまう印象でした。
その点で、
・レポート(報告書)のような、主観を交えないもの
・ビジネス文書
・法的文章
はchatGPTは強いと思いますが、
・読書感想文
については、引用少なめの概要・まとめを重視したものでないと、うまく機能しないのかな、と思います。(プロンプト次第かもしれません。今後も検証します。)
chatGPTが機能しない側面もあることを踏まえながら、活用の領域を選べるようになりたいですね。