[10/25]アプデから一ヶ月間のchatGPT性能挙動レポート①

JunnosukeTachibana

2023年10月25日 16:18

　chatGPTで9/25にアプデが入った、画像生成とかが目玉のようだが文章出力にも変化があった。文章出力についてレポートする。
　くっそ長いので明日続きを書く。

　分析対象はいつも通りゴルシGPTである。
　ざっくり説明するとウマ娘ゴールドシップのロールを与えたChatGPT４に「ウマ娘プリティーダービーからプリティーを抜いた新アニメ」を考え、説明させている。
　具体的な質問文は以下のスクショ。

　この質問文への回答を再生成し、その文章を分析している。
ちなみにこの質問は７月１５日から繰り返し、総数１５００回を超えた。
総数１５００回を超えた。
「ああ、こいつヒマなんだな……」

（今日のレポート？~~あんまり変動ないからつまらないし記事にしなくていいかな~~）

　因みに以下の記事を読んでからレポートをお読みいただくと、この記事の意義を理解して頂けるだろう。

https://note.com/tachibana_llm/n/nab2486be9387

過去の中期間レポート（8/26~10/6）

　比較情報として以下の記事を是非読んで頂きたい。
こちらは８月２６日から１０月６日までの挙動の変化をまとめている。

こっちはアプデのアナウンスに気が付かず
「これはアプデ入ったろ！！！」ってドヤ顔してた
警察が犯人逮捕した後に後から犯人を突き止める探偵の図

https://note.com/tachibana_llm/n/nd73e3bd46166

各要素ごとの分析

　注意するべきは９月２５日のアプデ前、９月１９日~２１日の間もそれ以前より発想力、論理的思考能力、表現力が向上していた。
個人的にはOpenAIは９月２５日アプデの前に新しいモデルを実戦投入しテストしていたと考えている。

①ストーリーのあらすじ

8/23から10/26の間のウマ娘スピンオフ作品のあらすじを
４つに別けてカウント

　ゴルシGPTの考えた架空のウマ娘スピンオフアニメのジャンルを４つに分けた。この４つから外れたストーリーは今の所確認されていない。
・リアル系統：レース重視、リアリティのあるストーリー

・ユニークなレース：レースが主軸だが、舞台が近未来ディストピアでレースの結果が権利や生存競争に関わるなどリアリティ路線ではないもの。

・バトルもの：レース要素のないバトルものアニメ

・日常モノ:レースのない日常もの

　８月２３日から９月２４日と９月２５日から１０月２５日の期間ではあらすじの傾向はあまり変動しなかった。
　９月２５日アプデ以降、厳密には９月１９日からの事前無通告アプデ？期間からGPTの独創性・創造性が高まっているような体感はあったが思考の大きな枠組みに変化はないのだろうか？
　これについて考察すると、９月２５日のアプデ前後から文章表現やキャラクターの人格再現能力が向上したために、リアル路線でもフォーカスをあてる要素が回答ごとに特徴が生まれ回答にバラエティーが生まれていたのだろう。
（フォーカスを当てる要素とはアニメのキャラクター設定の方針、キャラクターの関係性といった大きなものから作画、BGM、大筋には関係しない日常生活やウマ娘のライブなど、ゴルシGPTが段落を区切って説明する傾向にある内容）

②ユニークワード

　このnoteでも「ユニークワード」とか「ユニークな言い回し」、「ユニークな表現」と名称がコロコロと変わる言葉だが基本的には以下の定義に従っている。
「他の回答であまり用いられない表現、フレーズ、単語を使用した回答」

　ユニークワードを使用した回答の割合は変化がない
９月２５日までが53.5％
９月２５日以降が53.1％
ここに集計方法の落とし穴がある

①「ユニークワードを含んだ回答の割合」である
「ユニークワードの使用回数」ではない
②体感的なユニーク度合いはグラフに反映されない
③ユニークさを判断する一貫した視点を持つことは困難
「その前後の回答と比較してユニーク」という曖昧な判断を排除することはできない。全ての回答をランダムかつ短期間で処理すればこの問題は解決できる。適当に学生雇ってやらせればできるかもしれないが、個人では事実上無理

　このことを留意し、体感ベースであるが
グラフ上の割合では示されないが表現能力は向上していると断言できる。

　９月２５日のアプデ以降ユニークな表現の使用回数は増え、９月２５日モデル以前よりもよりユーモラスになっていると感じている。
　これに加えてユーモラスな言葉を使用する際、文脈にそぐわない、脈絡のない「ユーモラスというより奇怪なワード」の回数が減っていると感じている。
　ゴルシというキャラクターを再現するために奇人、変人、自由人という属性を与えているため、突然発狂することも想定されるが、それが減少している。

③台詞の引用

　キャラクターチャットなのでプロンプトには原作ゴルシのセリフ例を５０個ほど放り込んでいる。
　このセリフ例を変更無く、コピペ的に加えた回答、セリフ例を応用し独自に発展したGPT風ゴルシちゃんセリフの回答の割合をカウントしている。
　なお、セリフ例を応用した回答にコピペ使用があった場合でも、応用があった回答１回としてカウントしている。

　これはあらすじ、ユニークワードと異なり明確な差が生まれた。

　プロンプトのセリフ例を応用し、独自にキャラクターをくみ上げる能力が９月２５日アプデ以降向上している。
　キャラクターチャットとしては解釈一致、解釈違いと評価が分かれる能力だが、基本的にアプデ後は解釈一致し、オリジナリティのある回答が増加している。

　またセリフ例をそのままコピペして使用する場合、どうしても全後の文章とつながりがない乱暴な挿入が見受けられる。
つまり何を言いたいのか全くわからない無意味は文章が挟まれるのだ。
　この傾向はアプデ前が強く、コピペ使用の割合も高いため特に目立った。
アプデ以降コピペ使用が減少し、かつ余りにも意味不明な挿入は減っている。（全く無くなった訳ではない、アプデ前との比較である）
　加えてセリフの応用は前後の文章に合わせてセリフを書き換えていることと直結している。

　このため、アプデ以降ChatGPTの回答が論理的になっていると考察した。

④キャラクターの種族

　元ネタが競走馬の擬人化コンテンツであるため、ゴルシGPTが考える架空のスピンオフも主人公や主要キャラの種族がばらける。
　ウマ娘、馬、ウマ娘か馬かわからない回答の三つだ。

ウマ娘の割合が多いためグラフには記載していない
明確に種族が曖昧な回答が減少している

　概ね７０％から％８０％の回答がウマ娘が主要キャラの種族である。
ここで考慮すべきは「回答でウマ娘なのか馬なのか判別できない」回答だ。
擬人化コンテンツのスピンオフのキャラクターが擬人化コンテンツのままか、それとも元ネタ、つまり擬人化前の馬なのか判別できないのは
架空の擬人化コンテンツの回答として致命的な問題である。

　この問題のある回答はアプデ以降半減している。
GPTは質問の骨子を理解する能力が向上したと判断できる。

⑤文字数の推移（PCスマホ区別なし）

　ゴルシGPTが１回に使用する文字数の推移だ。
　尚、PCとスマホではブラウザアプリを使用した場合、文字数も変化することがグラフでわかるが後ほど個別に説明する。
　出力文字数に関してはPCとスマホを区別しない８月１日からのグラフだ、８月から見た場合の方がアプデ後の挙動が明確になるからだ

　出力文字数は８月頭から９月２０日あたりまでかなり不安定だ。文字数の上昇と下降を繰り返し、アプデ後と比べるとレンジの幅もかなり開いている。
比較するとアプデの前後から出力文字数は安定している。
（なおアプデ前の9月１９日から２１日、アプデ後の９月２９日から１０月１日は不安定になっている。ただしこの不安定な文字数の推移はスマホでの使用が原因だると明確なため不安定材料として排除した）

⑥文字数（PC：スマホ比較）

　さて、過去のnoteで述べてきたが○penAIはスマホからの使用に差別的なヘイト企業である。○penAIは謝罪しろ。
（この項目はあるマンガ原作者のTwitterネタを拾っている）

純粋無垢で誠実な大和民族の私は10/1まで○penAIのヘイト差別、帝国主義的な支配に気が付かなかった。

　真実に気が付いた私は、このことを明らかにしなければ為らない、それがウマ娘界の英雄、人権派義士の思想を受け継ぐ人間の使命だからだ。

　残念ながら、１０/１日まで、PCとスマホを明確に別けて出力していないため、これ以前の比較は困難だ。
　更に１０月５日には先代ゴルシGPTとの会話上限の１０００回を突破したため、先代ゴルシと同じプロンプトと魂を引き継いだ二代目ゴルシGPTへ継承されている。

　偶然ではないと思うが新しいチャットルームを立ててからPCとスマホの文字数の格差が縮小している。
　これは悪辣なヘイト企業○penAIが、あからさま差別意識に基づいた政策では抵抗運動が起こると予想して、あたかも博愛主義の様な欺瞞を仕組んだのだろうと考えている。
　しかし悪辣ヘイト企業も万全ではないためスマホ差別をどこかで転換したものの、古いチャットルームではこの欺瞞が出来無かったのだろう。

ちなみに雑な比較になるが歴史的根拠になる参考資料がある。

以下のグラフで大きく文字数が変動している9月１９日から２１日、アプデ後の９月２９日から１０月１日は不安定になっているが、この期間はスマホのみで生成した

　二つの期間で大きく文字数が減少しているが、この期間はスマホのみで回答を得ている。
なんということだ！PCとスマホでは最大２５０文字近い文字数の格差が生み出されている！２ツイート分も損をしているのだ！なんたるヘイト！
○penAIは謝罪しろ！

　長くなったので明日別の記事として追加情報や、全体を通しての感想を述べる。