[10/26]アプデから一ヶ月間のchatGPT性能挙動レポート②

2023年10月26日 17:27

　ChatGPTが9/25にアプデされてから一ヶ月。アプデ前後でキャラクターチャットに変動があるか検証を行った。
　キャラクターチャットのみの分析であるが回答の論理性、表現能力、独創性の目安になりGPTをビジネスなど他の分野で使用する際に参考になるかと思う

　これは9/25のGPTアプデ後一ヶ月間の挙動を分析したレポート。
レポート前編が未読の方は以下の記事を見て頂きたい。

　ざっくり説明するとウマ娘ゴールドシップのロールを与えたChatGPT４に「ウマ娘プリティーダービーからプリティーを抜いた新アニメ」を考え、説明させている。
　具体的な質問文は以下のスクショ。

　ちなみにこの質問は７月１５日から繰り返し、総数１５００回を超えた。
総数１５００回を超えた。

GPTゴルシちゃんも「ああ、こいつヒマなんだな……」とおもってるに違いない。

今日のレポートの方向性

　昨日のレポートではグラフ化したものの、体感ベースで語る内容が多かった。
　データセットは不十分な内容だが、一応９月２５日アプデ前後で統計的に　有意な差があるかどうか検証した。
　昨日のレポート内容に加え昨日言及しなかったが統計的に有意な差があったものについても言及する。

　
　なお検証作業が難航したため続編レポートを投稿する予定だ。
昨日、今日の結果をまとめた総括になる予定だ。

今日の毎日レポート？気力わかねぇんだなこれが

流石に毎日データとるのを２日連続で休むとアレなので、明日は通常業務。

わたくし「Excel操作苦手だけどGPTにVBA作って貰えばいいや」
わたくし「GPT君？VBAエラー吐きまくるんですけど？」
GPT「すまんこ」
n回試行錯誤
GPT「うまいことVBAコード作れないからワイが検証して、結果をExcelで出すで」
わたくし「最初からそう言ってよ」

橘とGPT

昨日までの検証項目

　雑に言えばコピペしたExcelの一番右端のp値が0.05以下なら
「９月１５日アプデで変化したと統計的に有意だと言える」
（変化が有意なものはExcelにいろを塗っています）
というもの。

　何回も言うがこのデータセットでは
「属性をもった回答が何回出力されたか」をカウントしている。
「回答でその属性の言葉が使用された回数の合計」ではない

①ストーリーのあらすじ（有意差なし）

　ゴルシGPTの考えた架空のウマ娘スピンオフアニメのジャンルを４つに分けた。この４つから外れたストーリーは今の所確認されていない。

　アプデ前後で有意差はなかった。
以下の昨日のお気持ち分析を否定する結果ではない。

「アプデ後に思考力の幅が広がり、あらすじにバラエティーが生まれていたと感じていたが、大きな変化はない」
「体感ベースで感じるアプデの影響は文章力、キャラクターロール性能などが向上した結果の錯覚ではないか？」

②ユニークワードを使用した回答率（有意差なし）

「他の回答であまり用いられない表現、フレーズ、単語を使用した回答の回数」

ユニークな表現を使用した「回答の回数」に有意差なし

　以下のお気持ちレポートを否定する結果では無かった。
「ユニークワードの使用回数の合計は増えたかも」
「表現、語彙力は向上して、主観的なユニークさは向上している」
「ユニークワードが含まれる回答の数に大きな差は無い」
「今のデータセットじゃ分析できない」

③台詞の引用（有意差あり※予想あたり※）

　セリフ例を変更無く、コピペ的に加えた回答、セリフ例を応用し独自に発展したGPT風ゴルシちゃんセリフの回答の割合をカウントしている。
　なお、セリフ例を応用した回答にコピペ使用があった場合でも、応用があった回答１回としてカウントしている。

　ゴルシのセリフ例を使用した回答の割合が増加したというお気持ち分析は統計的に裏付けがとれた。
　ほぼ確実にキャラクターチャット能力が向上したと言える

④キャラクターの種族（有意差あり※予想あたり※）

　元ネタが競走馬の擬人化コンテンツであるため、ゴルシGPTが考える架空のスピンオフも主人公や主要キャラの種族がばらける。
　ウマ娘、馬、ウマ娘か馬かわからない回答の三つだ。

　ここで注目したいのは判別不能
　擬人化コンテンツのスピンオフのキャラクターが擬人化コンテンツのままか、それとも元ネタ、つまり擬人化前の馬なのか判別できないのは
架空の擬人化コンテンツの回答として致命的な問題である。

　昨日のお気持ちレポートでは「曖昧で致命的な回答は減少した」
と高らかに宣言していたが、統計的に裏付けられた。

　アプデによりGPTが質問に的確に答え、論理的な回答を生成する能力が向上したと断言できる。

昨日言及してない項目で有意差があるもの

　ここからは昨日までのレポートで触れていなかったが、統計的に有意な差が生まれた項目について追記する。

①ヒトミミ出現率

　ウマ娘のスピンオフの回答にヒトミミが含まれるか否か。

１：ヒトミミ言及なし
２：ヒトミミが「トレーナー」や「観客」について言及される
（アニメ・ゲーム内で登場するヒトミミの範囲内）
３：「馬主」、「ジョッキー」、「調教師」、「厩務員」などに言及
（アニメ・ゲームで登場しないが現実の競馬関係者）

　ウマ娘に登場しない、リアル競馬関係者についての言及が増えたことが有意に示された。登場率はアプデ前：16.6％、アプデ後：23.1％。

　学習データに含まれるウマ娘とリアルの競馬をミックスし、オリジナリティのある回答を生成するようになったのかもしれない？
　これについては後日レポートで言及する予定。

②GPTゴルシの自己肯定率

　GPTゴルシちゃんは回答の最後に自身が考えた「ウマ娘の架空スピンオフアニメ」への評価を述べる場合がある。以下に分類した。

肯定的：架空アニメに肯定的

否定的：原作ウマ娘プリティーダービーをより強く評価
　　　：プリティーが欠落したスピンオフを否定する

両方肯定：架空アニメも原作ウマ娘も同等に肯定

言及なし：自身の架空スピンオフアニメの評価をしない

　この要素については
「GPTの自身の回答への評価」≓「GPTの自己肯定感」≓「GPTの自信」
と解釈している。

　アプデ後は以下のような変化があった。
「架空のスピンオフアニメを肯定しなくなった」
「架空のウマ娘スピンオフを否定しなくなった」
「原作ウマ娘と架空スピンオフを両方評価する」

　この変化の内、統計的に有意に変化があったのは
「架空のウマ娘スピンオフを否定しなくなった」

　アプデ後のGPTは自分の意見、回答にある程度自信をもっているのかもしれない。
　~~邪推：自信満々に嘘をついてくる可能性が上がった？~~