生成AIがWeb上をクローリングしてデータ収集し学習を行っていることは周知のことですが、Web上にある極めて少ない限定的なデータに基づく生成AIの学習結果を比較してみました。
学習対象データ
現時点でWeb上にある極めて少ない限定的なデータとして、次のnoteの記事を想定しています。
以下にそれぞれの生成AIの学習結果を見てみます。
OpenAI ChatGPT(GPT-4o)の場合
質問文1>逆転会話のやり方を教えてください。
回答結果1>
この回答結果は、前述の記事『生成AIとの会話を楽しむ「逆転会話」のやり方』による学習結果ではなく、言葉通りの「逆転会話」のやり方の説明文を生成していることがうかがえます。
質問文2>生成AIとの逆転会話のやり方を教えてください。
回答結果2>
この回答結果は、前述の記事『生成AIとの会話を楽しむ「逆転会話」のやり方』とほぼ同等な趣旨の内容を、記事の内容に偏ることなく、説明文を生成していることがうかがえます。
この回答結果を確認した後に、そもそも、前述の記事を投稿するより以前に同じ質問を行い、その回答結果を確認しておくべきだった事を後悔しています。
Google Geminiの場合
質問文>逆転会話のやり方を教えてください。
この回答結果では、前述の記事『生成AIとの会話を楽しむ「逆転会話」のやり方』を参考記事として明示し、多少その記事の内容に偏っていますが、独自の説明文を生成していることがうかがえます。
Microsoft Copilot (非Enterprise版)の場合
質問文1>逆転会話のやり方を教えてください。
回答結果1>
この回答結果では、前述の記事『生成AIとの会話を楽しむ「逆転会話」のやり方』を参考記事として明示し、大半の内容を参考記事から、流用しており、記事の途中で途切れていることがうかがえます。
あまりにも、不自然な回答結果だったため、別のPCから、同じ質問文を投入してみました。
質問文2>逆転会話のやり方を教えてください。
回答結果2>
この回答結果では、前述の記事『生成AIとの会話を楽しむ「逆転会話」のやり方』を参考記事として明示し、その記事の内容からの転用の割合が高いことがうかがえます。
感想
Google Gemini と、Microsoft Copilot での説明文の独自性には差がありましたが、回答内容は、前述の記事に偏って生成されていることがうかがえました。
今回のように、質問している内容に関するデータが極めて少なく限定的なものである場合は、生成AIによっては、生成される内容が、その限られた記事に偏っていることがある事を認識しておく必要があるようです。