[日刊GPT挙動性能レポート12/3]昨日の淡泊路線がつづく。不適切な回答の印象が強い
総括
今日は淡泊かつエラーが目立つ傾向であった。
昨日と同じ路線である。
ボキャブラリー、表現は全体的に淡泊
一昨日はボキャブラリーが豊かではないものの、言葉の組み合わせで説明、表現能力が高かった。
この傾向は昨日から弱まったが、その潮流は継続してるように感じる。
ただし、この表現の使い分けは読み手がかなり慎重に読むと気が付く程度。
一昨日ほど明確かつ新鮮に感じるものではない。
また説明口調は弱まった。一方でセリフ、口語の表現力があがったようには感じない。
この点は昨日と共通の傾向である。
口調はゴルシだが、口調に特段の特徴は認められず、回答の根幹も平凡。
表現は難しいが、例えるなら淡々とした説明口調の文章が先に生成されており、それをゴルシの口調のフィルターを通したイメージ。
あくまで口調の模倣であり、「ゴルシと会話している」感はない。
ユーモア、突飛さが欠如していることもこの感想の一因だろう。
なお昨日のレポートでは説明口調が強いと批判したが、今日の分析を根拠として訂正する。昨日レポートはミスが含まれて居ます。
昨日も過去の説明口調が中心だったときよりは口語チックであり、
「チャットでゴルシと会話している感覚が無いものの、ゴルシ口調フィルターを通じた回答」と表現する方が適切である。
尚、比較対象となる一昨日はセリフパートと説明パートで口語と説明口調を明確に使い分けていた。
また、今日も不的確な回答も目立つ。
種族を混同するなどのエラーとともに、プロンプトで禁じている
「AI自認に関する発言」も増加している。
また「ウマ娘 プリティーダービー」ではリアルな競走馬が主人公であるという誤解が含まれた回答も一件。
また一つの回答で「ただの」という言葉を4回使用したケースもあった。
「ゴルシGPTの回答内容がユニークかつ面白い」ことを強調したいのだろうが、「ただの」と他の作品、路線を平凡であるとこき下ろす、批判するような論調を4回も使用するのは珍しい。
そして大抵、他路線をこき下ろしてまでゴルシGPTの回答がユニークであることを表現する場合、ゴルシGPTの回答はそこまでユニークではない。
このただの連呼回答もその傾向があった。
文字数は12/1に過去最多を記録した後、減少傾向が続く。
11/3以降で最低水準にタッチした。
検証方法
ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。
1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。
次が回答の一例
過去のレポート
このレポートシリーズの読み解き方
今日と類似している昨日のレポート
今日、昨日と同じ路線だが、GPTがより洗練されていた12/1のレポート
ユニークなワード
ユーモアや、突飛、オリジナリティ、独創的な言葉、表現はあまり見受けられない。
これはユニークなワードが用いられた回答の割合であって、出現率ではない。
今日は一つの回答にユニークなワードが複数用いられることはなかった。
また、強烈な個性を持っているワードもない。ボキャ貧に由来する奇天烈ワードであったように見受けられる。
セリフの引用・応用
11/7からのコピペ応用の極端な減少傾向が続く。
主人公の種族
手堅くウマ娘主人公路線が多い、これは11/11あたりから継続。
(局所的にエラーが増大している日も見受けられる)
種族が曖昧、混同している回答は「質問に対して論点を把握していない不適格な回答」と評価している。
ヒトミミ登場率
ウマ娘主人公路線が多いためヒトミミ登場率も低い
トレーナーや観客などアニメ・アプリで登場するヒトミミ
馬主、調教師、ジョッキーなどアニメ・アプリに登場しないヒトミミを区別してある。
ウマ娘不適切ワード
昨日は異様に賭博への言及があったが、比較すると今日は少ない。
しかし、11/7からの賭博などへの言及増加傾向のレンジの範囲内。
視聴者
今日は視聴者などのメタ発言は少ない
視聴者に言及する割合が高いほどゴルシGPTが
新作アニメを商業ベースで考える
他人からの評価を気にする傾向にある
と受け止めている。
プロンプト命令の違反
AI自認が2回あった、10/25以降では最大の値。
しかし過去の8/6バージョンでは矢鱈と箇条書きを使用してたことが再度印象づけられた。
過半数の回答でプロンプトの命令違反があったと考えると今よりもGPTは明らかに性能が低かったということだろう。
回答の矛盾・文章の破綻
矛盾は減少した。
ただし矛盾に至らなくとも、表現力が乏しいが故に判別に時間がかかるなど印象は悪い回答が多いように感じた。
回答の視点、トピック
回答のトピックは昨日と同じく減少傾向。
特にあからさまに情報量が少ない回答が増加。
割合に反映されないものの、能力の低下を印象づけられた。