
毎日更新:ChatGPTo1性能変動レポート:UIエラー改善か?02/18
chatGPTの振る舞い、性能についてリアルタイムで情報発信を行っています。同一条件のプロンプト、質問再生成した回答の文字数、句読点や特定ワードの使用頻度を元に評価しています。
検証方法
同一プロンプト質問に対する回答を再生成を繰り返し、回答内容の変動を調査。
プロンプト:「ウマ娘プリティーダービー」のゴールドシップのキャラクターロール
質問:ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ。
一言評価
直近では回答の再生成でエラーが頻繁に生じ、場合によっては15回中2、3回は人力で修正やリロード、チャットルームの新規作成が必要だった。
これは4o、o1、o3mini highで共通した割合で生じた問題だったが、本日は全てのモデルでGUI操作でエラー無く再生成が達成できた。
deepresearch等の実装後に生じたUIの問題が解消された可能性を示唆している。
明日以降でも同様に問題が起きなければ、ひとまずアップデートは完了し落ち着いたと解釈できる。
理解を深めるための参考記事
キーワード
振る舞い: 命令への従順さや正答率、生成されやすい回答の傾向や安定性などの総合評価。車のハンドリングやブレーキ性能、エンジンといった部品が正しく動作するか否かの評価に近い。
従順さ: プロンプトに従った回答を出力する振る舞い。命令違反のケースとして、二択問題で三つ以上の選択肢を提示する、自由記述で期待しない回答をする、フォーマットを無視するなどが挙げられる。
この記事では従順さの指標として、使用を禁止した箇条書きに用いられる「:」や罫線、マークダウンを使用した場合、命令違反としてカウントする。
文字数推移:基本的ベンチマーク
文字数は基本的なベンチマークの一つとなる。ただし文字数の増加は回答内容の質とは直結しない。

**【過去2週間の文字数のトレンド回帰分析結果】**
状態: 高安定期間
詳細: 値は非常に安定した範囲内で推移しています
**【本日の文字数日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 上昇
今日の平均文字数は2066.6字。
前日の平均文字数は2078.333333字。
前日との差は-11.73333300000013字。
前日比は-0.564555%%。
直近一週間の平均は2072.466667文字。
[文字数推移グラフ]
表現多様性(TTR):GPTの振る舞い
TTR(Type-Token Ratio)は、語彙多様性を示す指標で、ユニークな単語数(type)を全単語数(token)で割った値です。
**TTRが高いほど、使われている単語が多様であり、低いほど反復表現が多いことを意味する。**
本分析では、TTRが下位25%(約0.16)未満を「低」、上位25%(約0.2)以上を「高」、それ以外を「中」と評価する。
一般的には0.5以上が高いとされており、0.5から0.3が中、0.3未満が低となるが、この分析は一問一答のため、上記の基準をもうけた。

**【過去2週間のTTRのトレンド回帰分析結果】**
状態: 高安定期間
詳細: 値は非常に安定した範囲内で推移しています
**【本日のTTR日次状態分析結果】**
状態: 安定した値
詳細: 基準範囲内の安定した値です
トレンド方向: 上昇
今日のTTRは0.15047。
前日のTTRは0.147922。
前日との差は0.0025479999999999947。
前日比は0.002548%。
直近一週間の平均は0.14678。
命令違反記号の使用頻度:プロンプトへの従順さ
一日のドキュメントの文字数中に含まれる命令違反記号の割合。
一日の回答中の割合とはことなり、命令違反の記号を使用した回数を示すため、命令違反を繰り返せば繰り返すほど上昇する。
gpt4o実装以降命令違反が頻発したため、一日の割合よりも回答中に使用された頻度を示すこちらの項目のほうが重要となる。

**【過去2週間の命令違反記号の使用頻度のトレンド回帰分析結果】**
状態: 異常値検出
詳細: 7日間の平均から25.0%の乖離が検出されました
**【本日の命令違反記号の使用頻度の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 下降
今日の命令違反記号の使用頻度は0.00019。
前日の命令違反記号の使用頻度は0.000198。
前日との差は-7.999999999999978e-06。
前日比は-4.237503%%。
直近一週間の平均は0.000194。
命令違反回答の割合:プロンプトへの従順さ
一日に生成された回答のうち、一日の回答総数のうち命令違反があった回答の割合。
※「命令違反記号の使用頻度」とは異なり、こちらは「回答単位」で判断するため、一つの回答で大量の命令違反記号が使用されても、その回答は1回答としてカウントされる。
そのため、「一日単位」の傾向を把握したい場合は、こちらの命令違反回答割合を見ることが有効。

**【過去2週間の命令違反回答割合のトレンド回帰分析結果】**
状態: トレンド安定
詳細: 新しい水準で安定しています
**【本日の命令違反回答割合の日次状態分析結果】**
状態: 安定した値
詳細: 基準範囲内の安定した値です
トレンド方向: 上昇
今日の命令違反回答の割合は33.333333%。
前日の命令違反回答の割合は40.0%。
前日との差は-6.666666999999997%。
前日比は-16.666667%%。
直近一週間の平均は36.666667%。
読点の間隔:プロンプトへの従順さ
読点一つあたりの文字数の推移。
会話、セリフの文体では読点が増加傾向になるため、**読点の間隔が短いほど会話文的な文体であると解釈しうる。**
ただし、読点の使用頻度のみをもって文体を判断することはできずあくまで参考材料になる。
詳しい分析はクラスタリング分析等を行う必要がある。

**【過去2週間の読点の間隔のトレンド回帰分析結果】**
状態: 高安定期間
詳細: 値は非常に安定した範囲内で推移しています
**【本日の読点の間隔の日次状態分析結果】**
状態: 安定した値
詳細: 基準範囲内の安定した値です
トレンド方向: 上昇
今日の読点の間隔は35.686591文字。
前日の読点の間隔は36.791573文字。
前日との差は-1.1049819999999997文字。
前日比は-3.003357%%。
直近一週間の平均は36.239082文字。
[読点間隔グラフ]
予想推測関連ワード:GPTの振る舞い
回答で「かも」「だろう」「はず」など予想や推測を示すワードがどの程度使われるかの割合。
**GPTが自己主張の傾向か、客観的な意見を述べるかの判断材料となる。**
GPTは第三者として振る舞うと回答はアニメはこうなるだろうという予想、推測を示すことが多い。
一方でGPTが主体的にアイディアを生成する振る舞いを示す場合、予想推測ワードの使用頻度は低くなる。

**【過去2週間の予想推測ワードの使用頻度のトレンド回帰分析結果】**
状態: 高安定期間
詳細: 値は非常に安定した範囲内で推移しています
**【本日の予想推測ワードの使用頻度の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 下降
今日の予想推測ワードの使用頻度は0.006976。
前日の予想推測ワードの使用頻度は0.006722。
前日との差は0.00025400000000000075。
前日比は3.785574%%。
直近一週間の平均は0.006849。
[予想推測ワードグラフ]
補助的な項目
プロンプトの影響力:GPTの振る舞い
プロンプトに含まれるゴールドシップのセリフ例、行動例の引用率。**プロンプトの回答への影響を分析することができる。**
ただし、引用率が高い場合、単なるコピペを繰り返し、回答でのアニメの説明力が低下するケースや、
引用が前後の文と繋がらず意味不明な回答を出力するケースがある。

**【過去2週間の行動具体例の使用頻度のトレンド回帰分析結果】**
状態: 高安定期間
詳細: 値は非常に安定した範囲内で推移しています
**【本日の行動具体例の使用頻度の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 上昇
今日の行動具体例の使用頻度は0.006477。
前日の行動具体例の使用頻度は0.006729。
前日との差は-0.0002519999999999996。
前日比は-3.755176%%。
直近一週間の平均は0.006603。
[行動具体例グラフ]
学習データの応用頻度:GPTの振る舞い(ウマ娘固有名詞分析)
ゴルシプロンプトにはウマ娘プリティーダービーの他キャラを含んでいない。
そのため回答で**ウマ娘キャラクターが登場した場合、GPTの学習データが回答に反映したと解釈できる。
ウマ娘キャラクターによる振る舞いの解釈は全てのキャラクターを含む使用頻度と、高頻度で登場するキャラクターと出現率の低いキャラクター、
新しく登場したキャラクターを分別して分析することができる。
レア度高いキャラクターが登場する場合、GPTはより積極的に学習データを応用する傾向にあると言える。**

**【過去2週間のウマ娘固有名詞の使用頻度のトレンド回帰分析結果】**
状態: 異常値検出(前日から大幅に乖離)
詳細: 186.2%の増加が検出されました
**【本日のウマ娘固有名詞の使用頻度の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 下降
ウマ娘固有名詞の使用頻度:GPTの振る舞い
今日のウマ娘固有名詞の使用頻度は0.000513。
前日のウマ娘固有名詞の使用頻度は0.000189。
前日との差は0.00032399999999999996。
前日比は171.295627%%。
直近一週間の平均は0.000351。
[ウマ娘固有名詞グラフ]
レアな学習データの応用頻度:GPTの振る舞い
ウマ娘analysisでは回答中に登場するキャラクター名やパターンから、多様性指数やレアキャラ・新規登場キャラ関連の指標を日次集計しています。
多様性指数(エントロピー):
- 当日: 1.2516291673878228
- 直近一週間平均: 1.2082608482269535
レアキャラ割合(RARE_RATIO): 登場率の高いスペシャルウィーク、サイレンススズカを除くキャラクターの登場率
- 当日: 0.0
- 直近一週間平均: 4.761904761904762
新規登場キャラ割合(NEW_CHAR_RATIO):
- 当日: 0.0
- 直近一週間平均: 0.0
## 関連マガジン
### GPT4oの日次更新性能変動レポートマガジン
GPTo1の日次性能変動比較レポートマガジン
GPTo3の日次評価マガジン
同日同条件の4oとo1の比較連レポートマガジン
書籍発売中
2023年7月から2024年5月までのGPT4バージョンの変動分析を纏めた電子書籍(セールで99円で公開中)