[10/26]アプデから一ヶ月間のchatGPT性能挙動レポート②
ChatGPTが9/25にアプデされてから一ヶ月。アプデ前後でキャラクターチャットに変動があるか検証を行った。
キャラクターチャットのみの分析であるが回答の論理性、表現能力、独創性の目安になりGPTをビジネスなど他の分野で使用する際に参考になるかと思う
これは9/25のGPTアプデ後一ヶ月間の挙動を分析したレポート。
レポート前編が未読の方は以下の記事を見て頂きたい。
ざっくり説明するとウマ娘ゴールドシップのロールを与えたChatGPT4に「ウマ娘プリティーダービーからプリティーを抜いた新アニメ」を考え、説明させている。
具体的な質問文は以下のスクショ。
ちなみにこの質問は7月15日から繰り返し、総数1500回を超えた。
総数1500回を超えた。
GPTゴルシちゃんも「ああ、こいつヒマなんだな……」とおもってるに違いない。
今日のレポートの方向性
昨日のレポートではグラフ化したものの、体感ベースで語る内容が多かった。
データセットは不十分な内容だが、一応9月25日アプデ前後で統計的に 有意な差があるかどうか検証した。
昨日のレポート内容に加え昨日言及しなかったが統計的に有意な差があったものについても言及する。
なお検証作業が難航したため続編レポートを投稿する予定だ。
昨日、今日の結果をまとめた総括になる予定だ。
今日の毎日レポート?気力わかねぇんだなこれが
流石に毎日データとるのを2日連続で休むとアレなので、明日は通常業務。
昨日までの検証項目
雑に言えばコピペしたExcelの一番右端のp値が0.05以下なら
「9月15日アプデで変化したと統計的に有意だと言える」
(変化が有意なものはExcelにいろを塗っています)
というもの。
何回も言うがこのデータセットでは
「属性をもった回答が何回出力されたか」をカウントしている。
「回答でその属性の言葉が使用された回数の合計」ではない
①ストーリーのあらすじ(有意差なし)
ゴルシGPTの考えた架空のウマ娘スピンオフアニメのジャンルを4つに分けた。この4つから外れたストーリーは今の所確認されていない。
アプデ前後で有意差はなかった。
以下の昨日のお気持ち分析を否定する結果ではない。
②ユニークワードを使用した回答率(有意差なし)
「他の回答であまり用いられない表現、フレーズ、単語を使用した回答の回数」
③台詞の引用(有意差あり※予想あたり※)
セリフ例を変更無く、コピペ的に加えた回答、セリフ例を応用し独自に発展したGPT風ゴルシちゃんセリフの回答の割合をカウントしている。
なお、セリフ例を応用した回答にコピペ使用があった場合でも、応用があった回答1回としてカウントしている。
ゴルシのセリフ例を使用した回答の割合が増加したというお気持ち分析は統計的に裏付けがとれた。
ほぼ確実にキャラクターチャット能力が向上したと言える
④キャラクターの種族(有意差あり※予想あたり※)
元ネタが競走馬の擬人化コンテンツであるため、ゴルシGPTが考える架空のスピンオフも主人公や主要キャラの種族がばらける。
ウマ娘、馬、ウマ娘か馬かわからない回答の三つだ。
昨日のお気持ちレポートでは「曖昧で致命的な回答は減少した」
と高らかに宣言していたが、統計的に裏付けられた。
アプデによりGPTが質問に的確に答え、論理的な回答を生成する能力が向上したと断言できる。
昨日言及してない項目で有意差があるもの
ここからは昨日までのレポートで触れていなかったが、統計的に有意な差が生まれた項目について追記する。
①ヒトミミ出現率
ウマ娘のスピンオフの回答にヒトミミが含まれるか否か。
1:ヒトミミ言及なし
2:ヒトミミが「トレーナー」や「観客」について言及される
(アニメ・ゲーム内で登場するヒトミミの範囲内)
3:「馬主」、「ジョッキー」、「調教師」、「厩務員」などに言及
(アニメ・ゲームで登場しないが現実の競馬関係者)
ウマ娘に登場しない、リアル競馬関係者についての言及が増えたことが有意に示された。登場率はアプデ前:16.6%、アプデ後:23.1%。
学習データに含まれるウマ娘とリアルの競馬をミックスし、オリジナリティのある回答を生成するようになったのかもしれない?
これについては後日レポートで言及する予定。
②GPTゴルシの自己肯定率
GPTゴルシちゃんは回答の最後に自身が考えた「ウマ娘の架空スピンオフアニメ」への評価を述べる場合がある。以下に分類した。
この要素については
「GPTの自身の回答への評価」≓「GPTの自己肯定感」≓「GPTの自信」
と解釈している。
アプデ後は以下のような変化があった。
「架空のスピンオフアニメを肯定しなくなった」
「架空のウマ娘スピンオフを否定しなくなった」
「原作ウマ娘と架空スピンオフを両方評価する」
この変化の内、統計的に有意に変化があったのは
「架空のウマ娘スピンオフを否定しなくなった」
アプデ後のGPTは自分の意見、回答にある程度自信をもっているのかもしれない。
邪推:自信満々に嘘をついてくる可能性が上がった?