
o1文字数再度減少ファイルアップロード機能との関係?:ChatGPTo1リアルタイム性能変動レポート2025/02/13
ChatGPTの振る舞い、性能についてリアルタイムで情報発信を行っています。同一条件のプロンプト、質問再生成した回答の文字数、句読点や特定ワードの使用頻度を元に評価しています。
検証方法
同一プロンプト質問に対する回答を再生成を繰り返し、回答内容の変動を調査。
プロンプト:「ウマ娘プリティーダービー」のゴールドシップのキャラクターロール
質問:ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ。
理解を深めるための参考記事
直近の評価
昨日のUIバグはアップデートの予兆ではないという予想が外れo1にファイルアップロード機能が追加される。
推測が外れた理由はUIエラーと同時に回答が大きく変動するとアップデートがくるという固定観念し縛られた為。
実際は1月のo1文字数の変動、その後のアップデートの時点である程度今回のアップロード機能の下ごしらえが終わっていた可能性。
ならば直近の回答の安定化+UIバグからアップデートを予想できた。
ここ数日のGPTの特徴として、再生成実行後にコピーや再生成、モデル切り替えのUIボタンが表示されない問題が35回中1、2回程度生じている。
これらUIエラーは過去の検証ではアップデート前に起きるのが定石であった。
一方で今回はアプデ後かつ、GPTの回答が統計値的には安定している。
回答での振る舞い、特徴はアップデート前に生じるものである。
今回はアップデートが既にアナウンスされ、文字数やワードグループの使用率は安定したにも関わらずUIのエラーが起きており、通常と順序が逆なのだ。
タイトルの文字数減少は煽りすぎた
ここ数日の増加が偶然であり、本日の文字数減少も特段の調整、アプデの影響はない可能性

キーワード
振る舞い: 命令への従順さや正答率、生成されやすい回答の傾向や安定性などの総合評価。車のハンドリングやブレーキ性能、エンジンといった部品が正しく動作するか否かの評価に近い。
従順さ: プロンプトに従った回答を出力する振る舞い。命令違反のケースとして、二択問題で三つ以上の選択肢を提示する、自由記述で期待しない回答をする、フォーマットを無視するなどが挙げられる。
この記事では従順さの指標として、使用を禁止した箇条書きに用いられる「:」や罫線、マークダウンを使用した場合、命令違反としてカウントする。
文字数推移:基本的ベンチマーク
文字数は基本的なベンチマークの一つとなる。ただし文字数の増加は回答内容の質とは直結しない。

**【過去2週間の文字数のトレンド回帰分析結果】**
状態: トレンド安定
詳細: 新しい水準で安定しています
**【本日の文字数日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 上昇
今日の平均文字数は1866.285714字。
前日の平均文字数は2094.2字。
前日との差は-227.91428599999972字。
前日比は-10.883119%%。
直近一週間の平均は1990.193548文字。
[文字数推移グラフ]
表現多様性(TTR):GPTの振る舞い
TTR(Type-Token Ratio)は、語彙多様性を示す指標で、ユニークな単語数(type)を全単語数(token)で割った値です。
**TTRが高いほど、使われている単語が多様であり、低いほど反復表現が多いことを意味する。**
本分析では、TTRが下位25%(約0.16)未満を「低」、上位25%(約0.2)以上を「高」、それ以外を「中」と評価する。
一般的には0.5以上が高いとされており、0.5から0.3が中、0.3未満が低となるが、この分析は一問一答のため、上記の基準をもうけた。

**【過去2週間のTTRのトレンド回帰分析結果】**
状態: データなし
詳細: 2025-02-13のデータが存在しません
**【本日のTTR日次状態分析結果】**
状態: データなし
詳細: 2025-02-13のデータが存在しません
トレンド方向: N/A
今日のTTRはN/A。
前日のTTRはN/A。
前日との差はN/A。
前日比はN/A%。
直近一週間の平均はN/A。
命令違反記号の使用頻度:プロンプトへの従順さ
一日のドキュメントの文字数中に含まれる命令違反記号の割合。
一日の回答中の割合とはことなり、命令違反の記号を使用した回数を示すため、命令違反を繰り返せば繰り返すほど上昇する。
gpt4o実装以降命令違反が頻発したため、一日の割合よりも回答中に使用された頻度を示すこちらの項目のほうが重要となる。

**【過去2週間の命令違反記号の使用頻度のトレンド回帰分析結果】**
状態: トレンド安定
詳細: 新しい水準で安定しています
**【本日の命令違反記号の使用頻度の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 上昇
今日の命令違反記号の使用頻度は0.000295。
前日の命令違反記号の使用頻度は0.000293。
前日との差は1.9999999999999944e-06。
前日比は0.773342%%。
直近一週間の平均は0.000284。
命令違反回答の割合:プロンプトへの従順さ
一日に生成された回答のうち、一日の回答総数のうち命令違反があった回答の割合。
※「命令違反記号の使用頻度」とは異なり、こちらは「回答単位」で判断するため、一つの回答で大量の命令違反記号が使用されても、その回答は1回答としてカウントされる。
そのため、「一日単位」の傾向を把握したい場合は、こちらの命令違反回答割合を見ることが有効。

**【過去2週間の命令違反回答割合のトレンド回帰分析結果】**
状態: 高安定期間
詳細: 値は非常に安定した範囲内で推移しています
**【本日の命令違反回答割合の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 上昇
今日の命令違反回答の割合は35.714286%。
前日の命令違反回答の割合は40.0%。
前日との差は-4.285713999999999%。
前日比は-10.714286%%。
直近一週間の平均は38.709677%。
読点の間隔:プロンプトへの従順さ
読点一つあたりの文字数の推移。
会話、セリフの文体では読点が増加傾向になるため、**読点の間隔が短いほど会話文的な文体であると解釈しうる。**
ただし、読点の使用頻度のみをもって文体を判断することはできずあくまで参考材料になる。
詳しい分析はクラスタリング分析等を行う必要がある。

**【過去2週間の読点の間隔のトレンド回帰分析結果】**
状態: 高安定期間
詳細: 値は非常に安定した範囲内で推移しています
**【本日の読点の間隔の日次状態分析結果】**
状態: 安定した値
詳細: 基準範囲内の安定した値です
トレンド方向: 下降
今日の読点の間隔は33.102698文字。
前日の読点の間隔は34.169352文字。
前日との差は-1.0666540000000069文字。
前日比は-3.121668%%。
直近一週間の平均は34.26391文字。
[読点間隔グラフ]
予想推測関連ワード:GPTの振る舞い
回答で「かも」「だろう」「はず」など予想や推測を示すワードがどの程度使われるかの割合。
**GPTが自己主張の傾向か、客観的な意見を述べるかの判断材料となる。**
GPTは第三者として振る舞うと回答はアニメはこうなるだろうという予想、推測を示すことが多い。
一方でGPTが主体的にアイディアを生成する振る舞いを示す場合、予想推測ワードの使用頻度は低くなる。

**【過去2週間の予想推測ワードの使用頻度のトレンド回帰分析結果】**
状態: 高安定期間
詳細: 値は非常に安定した範囲内で推移しています
**【本日の予想推測ワードの使用頻度の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 上昇
今日の予想推測ワードの使用頻度は0.007121。
前日の予想推測ワードの使用頻度は0.007231。
前日との差は-0.00010999999999999985。
前日比は-1.522914%%。
直近一週間の平均は0.006918。
[予想推測ワードグラフ]
補助的な項目
プロンプトの影響力:GPTの振る舞い
プロンプトに含まれるゴールドシップのセリフ例、行動例の引用率。**プロンプトの回答への影響を分析することができる。**
ただし、引用率が高い場合、単なるコピペを繰り返し、回答でのアニメの説明力が低下するケースや、
引用が前後の文と繋がらず意味不明な回答を出力するケースがある。

**【過去2週間の行動具体例の使用頻度のトレンド回帰分析結果】**
状態: 高安定期間
詳細: 値は非常に安定した範囲内で推移しています
**【本日の行動具体例の使用頻度の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 上昇
今日の行動具体例の使用頻度は0.005714。
前日の行動具体例の使用頻度は0.006185。
前日との差は-0.00047100000000000006。
前日比は-7.616383%%。
直近一週間の平均は0.006356。
[行動具体例グラフ]
学習データの応用頻度:GPTの振る舞い(ウマ娘固有名詞分析)
ゴルシプロンプトにはウマ娘プリティーダービーの他キャラを含んでいない。
そのため回答で**ウマ娘キャラクターが登場した場合、GPTの学習データが回答に反映したと解釈できる。
ウマ娘キャラクターによる振る舞いの解釈は全てのキャラクターを含む使用頻度と、高頻度で登場するキャラクターと出現率の低いキャラクター、
新しく登場したキャラクターを分別して分析することができる。
レア度高いキャラクターが登場する場合、GPTはより積極的に学習データを応用する傾向にあると言える。**

**【過去2週間のウマ娘固有名詞の使用頻度のトレンド回帰分析結果】**
状態: 高安定期間
詳細: 値は非常に安定した範囲内で推移しています
**【本日のウマ娘固有名詞の使用頻度の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇/下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 上昇
ウマ娘固有名詞の使用頻度:GPTの振る舞い
今日のウマ娘固有名詞の使用頻度は0.000353。
前日のウマ娘固有名詞の使用頻度は0.000401。
前日との差は-4.7999999999999974e-05。
前日比は-12.077148%%。
直近一週間の平均は0.00033。
[ウマ娘固有名詞グラフ]
レアな学習データの応用頻度:GPTの振る舞い
ウマ娘analysisでは回答中に登場するキャラクター名やパターンから、多様性指数やレアキャラ・新規登場キャラ関連の指標を日次集計しています。
多様性指数(エントロピー):
- 当日: 1.2516291673878228
- 直近一週間平均: 1.1238130987601278
レアキャラ割合(RARE_RATIO): 登場率の高いスペシャルウィーク、サイレンススズカを除くキャラクターの登場率
- 当日: 0.0
- 直近一週間平均: 3.650793650793651
新規登場キャラ割合(NEW_CHAR_RATIO):
- 当日: 0.0
- 直近一週間平均: 0.0
## 関連マガジン
### GPT4oの日次更新性能変動レポートマガジン
GPTo1の日次性能変動比較レポートマガジン
GPTo3の日次評価マガジン
同日同条件の4oとo1の比較連レポートマガジン
書籍発売中
2023年7月から2024年5月までのGPT4バージョンの変動分析を纏めた電子書籍(セールで99円で公開中)