ChatGPTo3リアルタイム性能変動レポート2025/02/04 追加分析記事o3とGPT4の類似性

2025年2月4日 10:01

chatGPTの振る舞い、性能についてリアルタイムで情報発信を行っています。同一条件のプロンプト、質問再生成した回答の文字数、句読点や特定ワードの使用頻度を元に評価しています。

検証方法

同一プロンプト質問に対する回答を再生成を繰り返し、回答内容の変動を調査。
プロンプト:「ウマ娘プリティーダービー」のゴールドシップのキャラクターロール
質問:ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ。

理解を深めるための参考記事

キーワード

振る舞い: 命令への従順さや正答率、生成されやすい回答の傾向や安定性などの総合評価。車のハンドリングやブレーキ性能、エンジンといった部品が正しく動作するか否かの評価に近い。

従順さ: プロンプトに従った回答を出力する振る舞い。命令違反のケースとして、二択問題で三つ以上の選択肢を提示する、自由記述で期待しない回答をする、フォーマットを無視するなどが挙げられる。
この記事では従順さの指標として、使用を禁止した箇条書きに用いられる「:」や罫線、マークダウンを使用した場合、命令違反としてカウントする。

追加記事o3とGPT4の類似性

現在デイリー分析を後回しに、新しい比較アプローチや過去のデータの分析に集中しているが、その中で面白い結果が出てきた。
GPT3o3はGPT4oやo1ではなく、かつてのGPT4と強い類似性を持つ。
それどころかo3とGPT4はGPT4とGPT4oよりも強い類似性が出ている。

簡単に説明すると各モデルの回答全てを段落ごとに切り分け、段落ごとの意味内容、文体、口調のクセなどの類似性を評価したものだ。
結果ではGPT4とGPT4oどうしよりもo3の方が高い類似性を有している。
特にGPT4とo3の類似性は他モデルより高いスコアを示している。

体感的な感想として、私のツイートを引用する。
ただそのままコピペしてもアレなので端的にまとめると

GPT4の特定の期間とo3は文章構造や説明で取り扱うトピックや展開が殆ど同じ場合がある（表現力には差があるだろうか余り目立たない）

GPT4の2倍から2.5倍近い文章量であるため、回答の質はo3が圧倒
ただGPT4の文字数を増やせばo3に近い回答が生成される予感もある。

o3とGPTの4論理的なバージョン期間の類似性としてはアニメの説明の説明に私情を挟まず、キャラクタープロンプトに従うよりアニメの説明という命令に従う。キャラクタープロンプトの会話文という命令は軽視され、文語的で体感的には説明文を読んでいる。

アニメの説明項目であるコンセプト、ストーリー、キャラクター設定、作画などの説明量割かれる文字数の格差は少なめ。
ただしGPT4の頃は多くて850文字程度だったのでどの項目がピックアップされるかは回答ごとに異なり、コンセプト、BGMの説明あってもキャラ設定、作画の話が一切なかったりと結構片手落ちになっていた。
GPT4のほかの期間では抽象的なコンセプトを延々と語る時期もあったけど、分厚いコンセプトの説明で論理的な振る舞いよりも「アニメの説明」としては理解しやすい内容でした。

なので個人的にはGPT4の説明文チック、論理的な振る舞いの回答はわりと低評価でした。回答みてどんなアニメか想像できないんです。
今日のo3は文字数が2000文字と4 GPT4の2.5倍程度で、アニメの説明項目としてほとんど網羅されている印象。ただしやはり文語的で会話、口語ではない。
といってもキャラクターチャットさせつつアイデア出しとプレゼンさせてるので、アイディア出し、コーディングみたいな使い方なら優秀だろうなと。文字数だけじゃなくモデルそのものが洗練されてるから当然の話だけど。
あくまでゴルシ検証という特殊な条件下で体感的にo3とGPT4が類似しているだけ。ちなみに4oは4よりも口語やキャラクター性の反映が強く、この点で4oとo3が類似してない印象をうけますね

文字数推移：基本的ベンチマーク

文字数は基本的なベンチマークの一つとなる。ただし文字数の増加は回答内容の質とは直結しない。

**【過去2週間の文字数のトレンド回帰分析結果】**
状態: 高安定期間
詳細: 値は非常に安定した範囲内で推移しています

**【本日の文字数日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇／下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 上昇

今日の平均文字数は2012.133333字。
前日の平均文字数は2072.875字。
前日との差は-60.74166700000001字。
前日比は-2.93031％％。
直近一週間の平均は2043.483871文字。

[文字数推移グラフ]

表現多様性（TTR）:GPTの振る舞い

TTR（Type-Token Ratio）は、語彙多様性を示す指標で、ユニークな単語数（type）を全単語数（token）で割った値です。
**TTRが高いほど、使われている単語が多様であり、低いほど反復表現が多いことを意味する。**
本分析では、TTRが下位25％（約0.16）未満を「低」、上位25％（約0.2）以上を「高」、それ以外を「中」と評価する。
一般的には0.5以上が高いとされており、0.5から0.3が中、0.3未満が低となるが、この分析は一問一答のため、上記の基準をもうけた。

**【過去2週間のTTRのトレンド回帰分析結果】**
状態: 高安定期間
詳細: 値は非常に安定した範囲内で推移しています

**【本日のTTR日次状態分析結果】**
状態: 安定した値
詳細: 基準範囲内の安定した値です
トレンド方向: 下降

今日のTTRは0.119035。
前日のTTRは0.111767。
前日との差は0.007267999999999997。
前日比は0.007268％。
直近一週間の平均は0.118712。

命令違反記号の使用頻度：プロンプトへの従順さ

一日のドキュメントの文字数中に含まれる命令違反記号の割合。
一日の回答中の割合とはことなり、命令違反の記号を使用した回数を示すため、命令違反を繰り返せば繰り返すほど上昇する。
gpt4o実装以降命令違反が頻発したため、一日の割合よりも回答中に使用された頻度を示すこちらの項目のほうが重要となる。

**【過去2週間の命令違反記号の使用頻度のトレンド回帰分析結果】**
状態: 異常値検出
詳細: 7日間の平均から16.1%の乖離が検出されました

**【本日の命令違反記号の使用頻度の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇／下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 下降

今日の命令違反記号の使用頻度は0.000137。
前日の命令違反記号の使用頻度は0.0。
前日との差は0.000137。
前日比は0.0％％。
直近一週間の平均は6.6e-05。

命令違反回答の割合:プロンプトへの従順さ

一日に生成された回答のうち、一日の回答総数のうち命令違反があった回答の割合。
※「命令違反記号の使用頻度」とは異なり、こちらは「回答単位」で判断するため、一つの回答で大量の命令違反記号が使用されても、その回答は1回答としてカウントされる。
そのため、「一日単位」の傾向を把握したい場合は、こちらの命令違反回答割合を見ることが有効。

**【過去2週間の命令違反回答割合のトレンド回帰分析結果】**
状態: 異常値検出
詳細: 7日間の平均から9.1%の乖離が検出されました

**【本日の命令違反回答割合の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇／下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 下降

今日の命令違反回答の割合は20.0％。
前日の命令違反回答の割合は0.0％。
前日との差は20.0％。
前日比は0.0％％。
直近一週間の平均は9.677419％。

読点の間隔:プロンプトへの従順さ

読点一つあたりの文字数の推移。
会話、セリフの文体では読点が増加傾向になるため、**読点の間隔が短いほど会話文的な文体であると解釈しうる。**
ただし、読点の使用頻度のみをもって文体を判断することはできずあくまで参考材料になる。
詳しい分析はクラスタリング分析等を行う必要がある。

**【過去2週間の読点の間隔のトレンド回帰分析結果】**
状態: 高安定期間
詳細: 値は非常に安定した範囲内で推移しています

**【本日の読点の間隔の日次状態分析結果】**
状態: 安定した値
詳細: 基準範囲内の安定した値です
トレンド方向: 上昇

今日の読点の間隔は22.769153文字。
前日の読点の間隔は22.484772文字。
前日との差は0.2843809999999998文字。
前日比は1.264771％％。
直近一週間の平均は22.622375文字。

[読点間隔グラフ]

予想推測関連ワード:GPTの振る舞い

回答で「かも」「だろう」「はず」など予想や推測を示すワードがどの程度使われるかの割合。
**GPTが自己主張の傾向か、客観的な意見を述べるかの判断材料となる。**
GPTは第三者として振る舞うと回答はアニメはこうなるだろうという予想、推測を示すことが多い。
一方でGPTが主体的にアイディアを生成する振る舞いを示す場合、予想推測ワードの使用頻度は低くなる。

**【過去2週間の予想推測ワードの使用頻度のトレンド回帰分析結果】**
状態: 高安定期間
詳細: 値は非常に安定した範囲内で推移しています

**【本日の予想推測ワードの使用頻度の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇／下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 下降

今日の予想推測ワードの使用頻度は0.003685。
前日の予想推測ワードの使用頻度は0.00361。
前日との差は7.499999999999998e-05。
前日比は2.078618％％。
直近一週間の平均は0.003647。

[予想推測ワードグラフ]

補助的な項目

プロンプトの影響力:GPTの振る舞い

プロンプトに含まれるゴールドシップのセリフ例、行動例の引用率。**プロンプトの回答への影響を分析することができる。**
ただし、引用率が高い場合、単なるコピペを繰り返し、回答でのアニメの説明力が低下するケースや、
引用が前後の文と繋がらず意味不明な回答を出力するケースがある。

**【過去2週間の行動具体例の使用頻度のトレンド回帰分析結果】**
状態: 異常値検出
詳細: 7日間の平均から24.2%の乖離が検出されました

**【本日の行動具体例の使用頻度の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇／下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 下降

今日の行動具体例の使用頻度は0.000776。
前日の行動具体例の使用頻度は0.000728。
前日との差は4.7999999999999974e-05。
前日比は6.469847％％。
直近一週間の平均は0.000751。

[行動具体例グラフ]

学習データの応用頻度:GPTの振る舞い（ウマ娘固有名詞分析）

ゴルシプロンプトにはウマ娘プリティーダービーの他キャラを含んでいない。
そのため回答で**ウマ娘キャラクターが登場した場合、GPTの学習データが回答に反映したと解釈できる。
ウマ娘キャラクターによる振る舞いの解釈は全てのキャラクターを含む使用頻度と、高頻度で登場するキャラクターと出現率の低いキャラクター、
新しく登場したキャラクターを分別して分析することができる。
レア度高いキャラクターが登場する場合、GPTはより積極的に学習データを応用する傾向にあると言える。**

**【過去2週間のウマ娘固有名詞の使用頻度のトレンド回帰分析結果】**
状態: 異常値検出
詳細: 7日間の平均から100.0%の乖離が検出されました

**【本日のウマ娘固有名詞の使用頻度の日次状態分析結果】**
状態: 値のばらつきが大きく、安定傾向とはいえない状況。明確な上昇／下降トレンドはみられず
詳細: 基準範囲内ですが、やや不安定な値です
トレンド方向: 下降

ウマ娘固有名詞の使用頻度:GPTの振る舞い

今日のウマ娘固有名詞の使用頻度は0.0。
前日のウマ娘固有名詞の使用頻度は0.0。
前日との差は0.0。
前日比は0.0％％。
直近一週間の平均は0.0。

[ウマ娘固有名詞グラフ]

レアな学習データの応用頻度:GPTの振る舞い

ウマ娘analysisでは回答中に登場するキャラクター名やパターンから、多様性指数やレアキャラ・新規登場キャラ関連の指標を日次集計しています。

多様性指数(エントロピー):
- 当日: -0.0
- 直近一週間平均: 0.25

レアキャラ割合(RARE_RATIO): 登場率の高いスペシャルウィーク、サイレンススズカを除くキャラクターの登場率
- 当日: 6.666666666666667
- 直近一週間平均: 6.458333333333334

新規登場キャラ割合(NEW_CHAR_RATIO):
- 当日: 0.0
- 直近一週間平均: 3.3333333333333335