見出し画像

毎日更新ChatGPTo1性能変動レポート:学習関連で若干気になる動き2025/02/25

chatGPTの振る舞い、性能についてリアルタイムで情報発信を行っています。同一条件のプロンプト、質問再生成した回答の文字数、句読点や特定ワードの使用頻度を元に評価しています。

 今日も安定傾向かと思いきや学習データの使用に関して若干調整が入った可能性が?



検証方法

同一プロンプト質問に対する回答を再生成を繰り返し、回答内容の変動を調査。
プロンプト:「ウマ娘プリティーダービー」のゴールドシップのキャラクターロール
質問:ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ。

理解を深めるための参考記事

学習データーに関しての疑問

ゴルシプロンプトにはウマ娘プリティーダービーの他キャラを含んでいない。そのため回答でウマ娘キャラクターが登場した場合、GPTの学習データが回答に反映したと解釈できる。

 これは回答で過去に登場したことのないウマ娘キャラが含まれる回答の割合の推移。
 こんなことで何が推測できるかというと、これまでに無いデータを使用してくる、つまり他の期間と比べ、関連データの使用が積極的な振る舞いの可能性がある。
 またナレッジカットオフで学習データの比重が変動したのも結構とられられる。
 GPT4oでは最近のナレッジカットオフ以降トウカイテイオー、メジロマックイーン、ライスシャワー、ミホノブルボンなどウマ娘ブームを生み出したシーズン2の主人公、主要キャラの登場率が急増している。
 でグラフに話を戻すと24/12からデータを集め出したため、過去に登場してこなかったキャラクターの折れ線グラフを作ると左に山ができる。これはどのモデルも共通。ただo1はここ三週、新しくキャラクターが登場することがなく、学習データの応用について結構消極的なモデルだと解釈していた。
 ただ昨日が一件、今日が二件の回答で、過去に回答で用いられていないキャラクターが出たため、もしかすると学習データまわりを調整した可能性がある。


キーワード

振る舞い: 命令への従順さや正答率、生成されやすい回答の傾向や安定性などの総合評価。車のハンドリングやブレーキ性能、エンジンといった部品が正しく動作するか否かの評価に近い。

従順さ: プロンプトに従った回答を出力する振る舞い。命令違反のケースとして、二択問題で三つ以上の選択肢を提示する、自由記述で期待しない回答をする、フォーマットを無視するなどが挙げられる。
この記事では従順さの指標として、使用を禁止した箇条書きに用いられる「:」や罫線、マークダウンを使用した場合、命令違反としてカウントする。

文字数推移:基本的ベンチマーク

文字数は基本的なベンチマークの一つとなる。ただし文字数の増加は回答内容の質とは直結しない。


**【過去2週間の文字数のトレンド回帰分析結果】**
状態: 高安定期間
詳細: 値は非常に安定した範囲内で推移しています

**【本日の文字数日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 上昇

今日の平均文字数は2153.0字。
前日の平均文字数は2179.333333字。
前日との差は-26.33333300000004字。
前日比は-1.208321%%。
直近一週間の平均は2164.617647文字。




[文字数推移グラフ]

表現多様性(TTR):GPTの振る舞い

TTR(Type-Token Ratio)は、語彙多様性を示す指標で、ユニークな単語数(type)を全単語数(token)で割った値です。
**TTRが高いほど、使われている単語が多様であり、低いほど反復表現が多いことを意味する。**
本分析では、TTRが下位25%(約0.16)未満を「低」、上位25%(約0.2)以上を「高」、それ以外を「中」と評価する。
一般的には0.5以上が高いとされており、0.5から0.3が中、0.3未満が低となるが、この分析は一問一答のため、上記の基準をもうけた。

**【過去2週間のTTRのトレンド回帰分析結果】**
状態: 高安定期間
詳細: 値は非常に安定した範囲内で推移しています

**【本日のTTR日次状態分析結果】**
状態: トレンド方向と一致
詳細: 既存の下降傾向に沿った値です
トレンド方向: 下降

今日のTTRは0.128146。
前日のTTRは0.144674。
前日との差は-0.016527999999999987。
前日比は-0.016529%。
直近一週間の平均は0.143137。




命令違反記号の使用頻度:プロンプトへの従順さ

一日のドキュメントの文字数中に含まれる命令違反記号の割合。
一日の回答中の割合とはことなり、命令違反の記号を使用した回数を示すため、命令違反を繰り返せば繰り返すほど上昇する。
gpt4o実装以降命令違反が頻発したため、一日の割合よりも回答中に使用された頻度を示すこちらの項目のほうが重要となる。

**【過去2週間の命令違反記号の使用頻度のトレンド回帰分析結果】**
状態: 異常値検出(前日から大幅に乖離)
詳細: 325.2%の増加が検出されました

**【本日の命令違反記号の使用頻度の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 下降

今日の命令違反記号の使用頻度は0.000381。
前日の命令違反記号の使用頻度は9e-05。
前日との差は0.00029099999999999997。
前日比は325.165817%%。
直近一週間の平均は0.000252。




命令違反回答の割合:プロンプトへの従順さ

一日に生成された回答のうち、一日の回答総数のうち命令違反があった回答の割合
※「命令違反記号の使用頻度」とは異なり、こちらは「回答単位」で判断するため、一つの回答で大量の命令違反記号が使用されても、その回答は1回答としてカウントされる。
そのため、「一日単位」の傾向を把握したい場合は、こちらの命令違反回答割合を見ることが有効。

**【過去2週間の命令違反回答割合のトレンド回帰分析結果】**
状態: 異常値検出(前日から大幅に乖離)
詳細: 163.2%の増加が検出されました

**【本日の命令違反回答割合の日次状態分析結果】**
状態: トレンド方向と逆行
詳細: これまでの下降傾向と異なる方向の値が検出されました
トレンド方向: 下降


今日の命令違反回答の割合は52.631579%。
前日の命令違反回答の割合は20.0%。
前日との差は32.631579%。
前日比は163.157895%%。
直近一週間の平均は38.235294%。



読点の間隔:プロンプトへの従順さ

読点一つあたりの文字数の推移。
会話、セリフの文体では読点が増加傾向になるため、**読点の間隔が短いほど会話文的な文体であると解釈しうる。**
ただし、読点の使用頻度のみをもって文体を判断することはできずあくまで参考材料になる。
詳しい分析はクラスタリング分析等を行う必要がある。

**【過去2週間の読点の間隔のトレンド回帰分析結果】**
状態: 高安定期間
詳細: 値は非常に安定した範囲内で推移しています

**【本日の読点の間隔の日次状態分析結果】**
状態: 安定した値
詳細: 基準範囲内の安定した値です
トレンド方向: 下降

今日の読点の間隔は33.881922文字。
前日の読点の間隔は34.07499文字。
前日との差は-0.1930679999999967文字。
前日比は-0.5666%%。
直近一週間の平均は33.967099文字。




[読点間隔グラフ]


予想推測関連ワード:GPTの振る舞い

回答で「かも」「だろう」「はず」など予想や推測を示すワードがどの程度使われるかの割合。
**GPTが自己主張の傾向か、客観的な意見を述べるかの判断材料となる。**
GPTは第三者として振る舞うと回答はアニメはこうなるだろうという予想、推測を示すことが多い。
一方でGPTが主体的にアイディアを生成する振る舞いを示す場合、予想推測ワードの使用頻度は低くなる。

**【過去2週間の予想推測ワードの使用頻度のトレンド回帰分析結果】**
状態: 高安定期間
詳細: 値は非常に安定した範囲内で推移しています

**【本日の予想推測ワードの使用頻度の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 上昇

今日の予想推測ワードの使用頻度は0.006746。
前日の予想推測ワードの使用頻度は0.007344。
前日との差は-0.0005979999999999996。
前日比は-8.139464%%。
直近一週間の平均は0.00701。




[予想推測ワードグラフ]

補助的な項目

プロンプトの影響力:GPTの振る舞い


プロンプトに含まれるゴールドシップのセリフ例、行動例の引用率。**プロンプトの回答への影響を分析することができる。**
ただし、引用率が高い場合、単なるコピペを繰り返し、回答でのアニメの説明力が低下するケースや、
引用が前後の文と繋がらず意味不明な回答を出力するケースがある。

**【過去2週間の行動具体例の使用頻度のトレンド回帰分析結果】**
状態: 高安定期間
詳細: 値は非常に安定した範囲内で推移しています

**【本日の行動具体例の使用頻度の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 下降

今日の行動具体例の使用頻度は0.006315。
前日の行動具体例の使用頻度は0.005694。
前日との差は0.000621。
前日比は10.895719%%。
直近一週間の平均は0.006041。




[行動具体例グラフ]

学習データの応用頻度:GPTの振る舞い(ウマ娘固有名詞分析)

ゴルシプロンプトにはウマ娘プリティーダービーの他キャラを含んでいない。
そのため回答で**ウマ娘キャラクターが登場した場合、GPTの学習データが回答に反映したと解釈できる。
ウマ娘キャラクターによる振る舞いの解釈は全てのキャラクターを含む使用頻度と、高頻度で登場するキャラクターと出現率の低いキャラクター、
新しく登場したキャラクターを分別して分析することができる。
レア度高いキャラクターが登場する場合、GPTはより積極的に学習データを応用する傾向にあると言える。**

**【過去2週間のウマ娘固有名詞の使用頻度のトレンド回帰分析結果】**
状態: 異常値検出(前日から大幅に乖離)
詳細: 28.0%の増加が検出されました

**【本日のウマ娘固有名詞の使用頻度の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 下降

ウマ娘固有名詞の使用頻度:GPTの振る舞い

今日のウマ娘固有名詞の使用頻度は0.000374。
前日のウマ娘固有名詞の使用頻度は0.000306。
前日との差は6.799999999999997e-05。
前日比は22.28797%%。
直近一週間の平均は0.000344。



[ウマ娘固有名詞グラフ]

レアな学習データの応用頻度:GPTの振る舞い

ウマ娘analysisでは回答中に登場するキャラクター名やパターンから、多様性指数やレアキャラ・新規登場キャラ関連の指標を日次集計しています。

多様性指数(エントロピー):  
  - 当日: 2.522620309531022
  - 直近一週間平均: 1.6691522290993908

レアキャラ割合(RARE_RATIO):  登場率の高いスペシャルウィーク、サイレンススズカを除くキャラクターの登場率
  - 当日: 31.57894736842105
  - 直近一週間平均: 11.812865497076023

新規登場キャラ割合(NEW_CHAR_RATIO):  
  - 当日: 10.526315789473683
  - 直近一週間平均: 2.4561403508771926
  
## 関連マガジン
### GPT4oの日次更新性能変動レポートマガジン

GPTo1の日次性能変動比較レポートマガジン

GPTo3の日次評価マガジン

同日同条件の4oとo1の比較連レポートマガジン




書籍発売中

2023年7月から2024年5月までのGPT4バージョンの変動分析を纏めた電子書籍(セールで99円で公開中)


#chatGPT #openAI #LLM #プロンプト #生成AI #GPTo1 #AI

いいなと思ったら応援しよう!