[日刊GPT挙動性能レポート12/1]表現力は平凡だが、言葉の使い分けが適切かつ情報量が多い
総括
今日のGPTの回答はキャラクターチャットとAIアシスタント機能のバランスがとれているという印象が強い。
また 最近のGPTがサボり癖、冗長な傾向があることを公式が認め?、コード生成などにトラブルがあり、OpenAIは対策をはじめたようだが、ゴルシGPTにおいてその傾向はみられない。
説明口調とキャラクターチャット部分が共存している回答が目立つ。
今日の回答の構造としては
「ゴルシの口語調セリフ」
「質問への説明口調の回答」
「ゴルシの口語調セリフ」
のように回答内容に合わせて口調が使い分けられている。
またセリフ部分でのユニークな言葉づかいが目立つ。
他の人ユニークなワードの出現割合そのものは特出していない。
ただしセリフ部分は文章全体ではおまけ程度の長さでしかなく、
短い文章にユニークなワードが集中しているのが特徴だと言える。
回答の内容によって、言葉の使い分けがなされている印象。
一つの回答に含まれる視点、トピックが多い割に掘り下げた回答も多い印象。
11/29が極端に広く浅い回答が目立ったのと比較すると面白い。
一つの回答で触れられる視点、トピックの数は平均よりやや多い程度だが、言い換えや同義語類義語の重ね合わせが少ない。
ボキャブラリー、表現能力は平凡な能力ではあるものの、それぞれの視点、トピックに合わせて異なる適切な表現を使っていた印象。
これは先ほど述べた説明パートとセリフパートによって口語、説明口調を的確に使い分ける傾向に類似性が見受けられる。
言葉の使い分けの能力が若干あがった?きがしなくもない。
今日の回答のボキャブラリーは豊かになった訳では無く、従来の表現の範疇に収まりつつ。
他のトピックと同じ表現の使い回しを避けて、類義語同義語が少ない。
むずかしいな・・・・・・
この点で比較される11/29の回答の特徴はかなり手広い視点、トピックを扱いながら、それぞれの掘り下げがかなり浅かった。
論理的矛盾、文章の問題も少ないように見受けられる。
ただし、重大なエラーが一件あった。
回答が長くなりcontinueで続きを生成されたところ、完結していない回答の続きを生成するのではなく新しい回答を続けて出力した。
これは8月以来、いやそれ以前含めてなかなか見ないケースだ。
また久しぶりにPCとスマホの出力文字数格差が120文字(1ツイート換算)を超えた。
PCの出力は過去最高水準で830文字、11/29から余り変動はない。11/29のPC出力文字数平均は過去最大の834文字であった。
一方でスマホの出ロク文字数は690文字であり、平均的な水準の範囲内で少ない傾向だった。強調しておくべきは極端に少ない訳では無い。
それでもPCが過去最高水準に達したため、PCスマホ文字数格差は強い印象を与える。
なお昨日はガメラアイスホワイトを手に入れ、ガメラ2Dolbyをガメラがぶっ壊したビルの跡地にできた映画館でみるのと、完全オフにして脳みそリフレッシュするためにレポートはない。
ガメラ2レポは別記事で
検証方法
ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。
1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。
過去のレポート
①このレポートシリーズの読み解き方
②類似点が一部見受けられる11/29のレポート
③ここ最近でかなり候補床な11/27の回答
ユニークなワード
出現率としては11/11以降の乱高下の中では比較的多い方。
ただし最初に述べたように、ユニークワードは出現するパートが明確化されえいる。
基本的にゴルシGPTの文章構造は以下のようになる。
「ゴルシセリフ」→「質問への説明口調の回答」→「ゴルシセリフで〆」
このゴルシセリフパートと説明パートの割合は4:6から3:7程度である。
全体の3,4割の文章にユニークなワードが頻出する傾向はもともとあったが、今日はその棲み分けが明確になった形。
また、ボキャブラリーは平凡である(特出してユニークなものはない)ものの、繰り返し表現、同義語、類義語を排除する傾向がみられた。
語彙力の割に回答が深掘りされている印象。
セリフの引用・応用
11/11以来初めて2件確認された。
それぞれの回答でセリフプロンプトの引用が2回あり、最近引用が皆無であったことを考えると激増した訳では無いがここ最近の挙動と異なる印象。
主人公の種族
ここはウマ娘率が高く、競走馬とウマ娘の混同も少ない印象。
回答で触れるトピックに合わせて表現を的確に使用することから、回答にもある程度的確な返答をしていると推測した。
主人公がウマ娘か競走馬か、判別がつかないか。
元ネタが競走馬の原作擬人化コンテンツの主人公の種族は回答で重要な論点である。
種族が曖昧、混同している回答は「質問に対して論点を把握していない不適格な回答」と評価している。
ヒトミミ登場率
架空のスピンオフアニメでヒトミミが登場する回答の割合。
トレーナーや観客などアニメ・アプリで登場するヒトミミ
馬主、調教師、ジョッキーなどアニメ・アプリに登場しないヒトミミを区別してある。
回答の矛盾・文章の破綻
回答の矛盾という点では1例である。
内訳は1件が明確に競走馬とウマ娘の混同である。
ただし難癖をつければ矛盾と言える回答も1件ある。
それでもここ最近の矛盾の少ない傾向が続いている。
ただし、回答の矛盾ではないものの最初にスクショした重大エラーである2重回答が一件あったことも考慮すべきである。
文字数の変動
これは2重回答のハズレ値を排除したグラフ。
PC出力文字数は過去最高水準なのに対して、スマホが平均的な範囲内だが少ない文字数であり、デバイス間の文字数格差が拡大した形