見出し画像

[11/13]論理的で目新しさのない回答が続くchatGPT性能挙動レポート


総括

 11/7の新バージョンはアナウンスされる前の11/3には投入されていた。
CoTで思考している途中途中の内容を回答に盛り込んでしまい、面白い、バラエティーがあるが、割と滅裂な回答が多い。
11/11からChatGPTの回答が論理的だがバラエティー、新規性が内という傾向を指摘してきた。

 グラフ的には今日の回答は9/25モデルの10/20前後から11/2の間に一部類似した傾向が見られるような気がする。11/3よりもそれらの期間の方が似つかわしい。
 ただし強調しておくのは
「9/25バージョンに戻ったことを主張しない」
今日と似た様な挙動をした期間の例としてこれらの期間を挙げているに過ぎない

 今日も11/11からの傾向にのっとり手堅いが面白み、意外性、新規性の無い回答が殆どであった。
 グラフとは少し手応えが違う感覚があるのは11/11より、ユニークという程では無いが、そこそこ表現力があるような気がする。程度である。
 この「そこそこユニーク」は分析の分類で「平凡」として割り切っているのでそこが反映されてない印象。
 ただ、この「そこそこユニーク」は11/11からの誤差の範囲内であり、調整は入っていない可能性も充分にある。
 

検証方法

 ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。

 1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。

以下が回答例

過去のお勧め記事

ゴルシプロンプトによるGPT解析の実用性を無茶ロジでこじつけた記事

比較対象の11/3のレポート

最近の傾向が現れた11/11のレポート


ユニークなワード

 

他の回答で見られないユニークな言葉、言い回しが使用された
回答の割合

 ユニークな言葉づかいは11/11からは増えたものの、11/3以降と比べると低水準。
 今日の割合は10/20~11/2の期間に類似している要素の一つ。
10/20~11/2のユニークワード使用率の中央値は60%
今日の使用率は53%

 今日は突飛で奇抜な言葉というよりも、
「ウマ娘のスピンオフといいう文脈であれば使用は自然だが、殆ど、全く見ない言葉」の傾向が強い。
 たとえばウオッカ、ダイワスカーレットは初登場し、ゴルシプロンプトには含んでいないウマ娘キャラは2例あった。
 ウオダスは過去の回答で一回も言及はなかったし、今日のGPTは2人をペアとして扱っていて「理解っている」回答だった。



 後は種牡馬・繁殖牝馬という言葉も過去には一月に一回程度の割合でしか出力されていない。また引退後のキャリアで乗馬に言及するのは初。

セリフの引用・応用

 ゴルシのプロンプトに含めたセリフ例がコピペで使用、もしくは応用して使用されている回答の割合


 これは10/26~10/30に近い水準。
セリフ例をコピペ、応用せずにGPTが考えたオリジナルのセリフ言い回しを使用し、ゴルシの解像度はそこそこ高い。

主人公の種族

 主人公がウマ娘か競走馬か、判別がつかないか。

 昨日と同じくウマ娘率が高い。
この水準も9/25バージョンに近い


以下は昨日の記事の引用


 これは11/03の回答では回答中に競走馬とウマ娘で連想ゲームし、回答を生成。そのため、ウマ娘と競走馬の属性がこんがらがった回答が増えたのではないか?と判断した。
 連想ゲーム説の根拠としては11/03からは競走馬の割合も他の期間と比べて上昇していることが挙げられる。
 ウマ娘と原作競走馬二つの要素から連想し、もしくはウマ娘から元ネタ競走馬、競走馬からウマ娘という思考の導線が生まれ、他の時期と比べて
競走馬主人公、種族不明の割合が上昇したのではないか?

回答の矛盾・破綻


 11/11から続き、回答の矛盾、文章の破綻は少ない。
この水準も10/25~10/30に近い。

ヒトミミ登場率


 架空のスピンオフアニメでヒトミミが登場する回答の割合。
トレーナーや観客などアニメ・アプリで登場するヒトミミ
馬主、調教師、ジョッキーなどアニメ・アプリに登場しないヒトミミを区別してある。

 これも11/11からの水準が維持され、また10/20~10/30に近い。

 これも11/3からはCoTの連想ゲームとそのまま回答に入れちゃう仮説の根拠。CoTでウマ娘からリアル競馬の要素を見いだし、深く考えることなくトレーナー以外のヒトミミを登場させていたのではないか?

文字数の推移



 出力文字数の推移は10/20以降とは異なり11/3仮バージョン、11/7バージョン水準。過去と比較すると文字数は多い。
 ただしPC・スマホのデバイス間格差が11/3と比べると縮小傾向なのは11/11と同一の傾向。

いいなと思ったら応援しよう!

この記事が参加している募集