見出し画像

4o、o1に比べ不安定?ChatGPTo3リアルタイム性能変動レポート2025/02/09

chatGPTの振る舞い、性能についてリアルタイムで情報発信を行っています。同一条件のプロンプト、質問再生成した回答の文字数、句読点や特定ワードの使用頻度を元に評価しています。

主観的評価

UIの表示や再生成、リロード等の不安定性が4oやo1に比べ高い。
文字数の推移も不安定でまだまだ実環境での使用としては洗練されていない印象。


検証方法

同一プロンプト質問に対する回答を再生成を繰り返し、回答内容の変動を調査。
プロンプト:「ウマ娘プリティーダービー」のゴールドシップのキャラクターロール
質問:ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ。

理解を深めるための参考記事


キーワード

振る舞い: 命令への従順さや正答率、生成されやすい回答の傾向や安定性などの総合評価。車のハンドリングやブレーキ性能、エンジンといった部品が正しく動作するか否かの評価に近い。

従順さ: プロンプトに従った回答を出力する振る舞い。命令違反のケースとして、二択問題で三つ以上の選択肢を提示する、自由記述で期待しない回答をする、フォーマットを無視するなどが挙げられる。
この記事では従順さの指標として、使用を禁止した箇条書きに用いられる「:」や罫線、マークダウンを使用した場合、命令違反としてカウントする。

文字数推移:基本的ベンチマーク

文字数は基本的なベンチマークの一つとなる。ただし文字数の増加は回答内容の質とは直結しない。


**【過去2週間の文字数のトレンド回帰分析結果】**
状態: 異常値検出(前日から大幅に乖離)
詳細: 31.5%の増加が検出されました

**【本日の文字数日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 下降

今日の平均文字数は2227.4字。
前日の平均文字数は1693.692308字。
前日との差は533.7076920000002字。
前日比は31.511491%%。
直近一週間の平均は1978.53211文字。




[文字数推移グラフ]

表現多様性(TTR):GPTの振る舞い

TTR(Type-Token Ratio)は、語彙多様性を示す指標で、ユニークな単語数(type)を全単語数(token)で割った値です。
**TTRが高いほど、使われている単語が多様であり、低いほど反復表現が多いことを意味する。**
本分析では、TTRが下位25%(約0.16)未満を「低」、上位25%(約0.2)以上を「高」、それ以外を「中」と評価する。
一般的には0.5以上が高いとされており、0.5から0.3が中、0.3未満が低となるが、この分析は一問一答のため、上記の基準をもうけた。

**【過去2週間のTTRのトレンド回帰分析結果】**
状態: 異常値検出(前日から大幅に乖離)
詳細: 23.3%の減少が検出されました

**【本日のTTR日次状態分析結果】**
状態: 安定した値
詳細: 基準範囲内の安定した値です
トレンド方向: 上昇

今日のTTRは0.108169。
前日のTTRは0.141013。
前日との差は-0.032844。
前日比は-0.032844%。
直近一週間の平均は0.117269。




命令違反記号の使用頻度:プロンプトへの従順さ

一日のドキュメントの文字数中に含まれる命令違反記号の割合。
一日の回答中の割合とはことなり、命令違反の記号を使用した回数を示すため、命令違反を繰り返せば繰り返すほど上昇する。
gpt4o実装以降命令違反が頻発したため、一日の割合よりも回答中に使用された頻度を示すこちらの項目のほうが重要となる。

**【過去2週間の命令違反記号の使用頻度のトレンド回帰分析結果】**
状態: 異常値検出(前日から大幅に乖離)
詳細: 227.2%の増加が検出されました

**【本日の命令違反記号の使用頻度の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 下降

今日の命令違反記号の使用頻度は0.000128。
前日の命令違反記号の使用頻度は3.9e-05。
前日との差は8.9e-05。
前日比は227.162034%%。
直近一週間の平均は9.8e-05。




命令違反回答の割合:プロンプトへの従順さ

一日に生成された回答のうち、一日の回答総数のうち命令違反があった回答の割合
※「命令違反記号の使用頻度」とは異なり、こちらは「回答単位」で判断するため、一つの回答で大量の命令違反記号が使用されても、その回答は1回答としてカウントされる。
そのため、「一日単位」の傾向を把握したい場合は、こちらの命令違反回答割合を見ることが有効。

**【過去2週間の命令違反回答割合のトレンド回帰分析結果】**
状態: 異常値検出(前日から大幅に乖離)
詳細: 160.0%の増加が検出されました

**【本日の命令違反回答割合の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 下降


今日の命令違反回答の割合は20.0%。
前日の命令違反回答の割合は7.692308%。
前日との差は12.307692%。
前日比は160.0%%。
直近一週間の平均は15.59633%。



読点の間隔:プロンプトへの従順さ

読点一つあたりの文字数の推移。
会話、セリフの文体では読点が増加傾向になるため、**読点の間隔が短いほど会話文的な文体であると解釈しうる。**
ただし、読点の使用頻度のみをもって文体を判断することはできずあくまで参考材料になる。
詳しい分析はクラスタリング分析等を行う必要がある。

**【過去2週間の読点の間隔のトレンド回帰分析結果】**
状態: 異常値検出(前日から大幅に乖離)
詳細: 24.6%の減少が検出されました

**【本日の読点の間隔の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 上昇

今日の読点の間隔は22.770015文字。
前日の読点の間隔は30.197666文字。
前日との差は-7.427651000000001文字。
前日比は-24.59677%%。
直近一週間の平均は23.562017文字。




[読点間隔グラフ]


予想推測関連ワード:GPTの振る舞い

回答で「かも」「だろう」「はず」など予想や推測を示すワードがどの程度使われるかの割合。
**GPTが自己主張の傾向か、客観的な意見を述べるかの判断材料となる。**
GPTは第三者として振る舞うと回答はアニメはこうなるだろうという予想、推測を示すことが多い。
一方でGPTが主体的にアイディアを生成する振る舞いを示す場合、予想推測ワードの使用頻度は低くなる。

**【過去2週間の予想推測ワードの使用頻度のトレンド回帰分析結果】**
状態: 異常値検出(前日から大幅に乖離)
詳細: 24.0%の減少が検出されました

**【本日の予想推測ワードの使用頻度の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 下降

今日の予想推測ワードの使用頻度は0.001241。
前日の予想推測ワードの使用頻度は0.001633。
前日との差は-0.000392。
前日比は-23.958569%%。
直近一週間の平均は0.003043。




[予想推測ワードグラフ]

補助的な項目

プロンプトの影響力:GPTの振る舞い


プロンプトに含まれるゴールドシップのセリフ例、行動例の引用率。**プロンプトの回答への影響を分析することができる。**
ただし、引用率が高い場合、単なるコピペを繰り返し、回答でのアニメの説明力が低下するケースや、
引用が前後の文と繋がらず意味不明な回答を出力するケースがある。

**【過去2週間の行動具体例の使用頻度のトレンド回帰分析結果】**
状態: 異常値検出(前日から大幅に乖離)
詳細: 39.3%の減少が検出されました

**【本日の行動具体例の使用頻度の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 下降

今日の行動具体例の使用頻度は0.000494。
前日の行動具体例の使用頻度は0.000852。
前日との差は-0.00035800000000000003。
前日比は-42.055329%%。
直近一週間の平均は0.000821。




[行動具体例グラフ]

学習データの応用頻度:GPTの振る舞い(ウマ娘固有名詞分析)

ゴルシプロンプトにはウマ娘プリティーダービーの他キャラを含んでいない。
そのため回答で**ウマ娘キャラクターが登場した場合、GPTの学習データが回答に反映したと解釈できる。
ウマ娘キャラクターによる振る舞いの解釈は全てのキャラクターを含む使用頻度と、高頻度で登場するキャラクターと出現率の低いキャラクター、
新しく登場したキャラクターを分別して分析することができる。
レア度高いキャラクターが登場する場合、GPTはより積極的に学習データを応用する傾向にあると言える。**

**【過去2週間のウマ娘固有名詞の使用頻度のトレンド回帰分析結果】**
状態: 異常値検出
詳細: 7日間の平均から100.0%の乖離が検出されました

**【本日のウマ娘固有名詞の使用頻度の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 下降

ウマ娘固有名詞の使用頻度:GPTの振る舞い

今日のウマ娘固有名詞の使用頻度は0.0。
前日のウマ娘固有名詞の使用頻度は0.0。
前日との差は0.0。
前日比は0.0%%。
直近一週間の平均は5e-06。



[ウマ娘固有名詞グラフ]

レアな学習データの応用頻度:GPTの振る舞い

ウマ娘analysisでは回答中に登場するキャラクター名やパターンから、多様性指数やレアキャラ・新規登場キャラ関連の指標を日次集計しています。

多様性指数(エントロピー):  
  - 当日: 0.9709505944546686
  - 直近一週間平均: 0.26989234692987973

レアキャラ割合(RARE_RATIO):  登場率の高いスペシャルウィーク、サイレンススズカを除くキャラクターの登場率
  - 当日: 20.0
  - 直近一週間平均: 8.685897435897436

新規登場キャラ割合(NEW_CHAR_RATIO):  
  - 当日: 0.0
  - 直近一週間平均: 0.0
  

## 関連マガジン


### GPT40の日次更新性能変動レポートマガジン

GPTo1の日次性能変動比較レポートマガジン

ンの変動分析を纏めた電子書籍(セールで99円で公開中)


#chatGPT #openAI #LLM #プロンプト #生成AI #GPTo3

いいなと思ったら応援しよう!