見出し画像

[11/18]サム、解任って嘘だよな?今日のGPTは悪くないぞ、むしろ良いじゃん日刊ChatGPT性能挙動レポート


前書き

 サム・アルトマンがCEOから解任ですって。
 彼の語る理想社会像(どこまで本音かわからんが)は好きではないが、共感できる部分もあり彼が解雇後のOpenAIがどうなるか興味と不安がある。

 LLMが戦略物資になると謳われる時代においてOpenAIのCEOの持つ政治思想信条は世界に大きな影響を与えるだけに、今後の展開が気になる。

 暫定CEOは技術者畑とのこと。OpenAIのアナウンスではサム・アルトマンの商業的センスに問題があったのではないかと疑われるがどうなることやら。少なくとも値上げはくるだろう。

総括

 という話は置いておいて、今日のゴルシGPTの挙動は悪くない。
悪くないというと微妙だが、ここのところ「悪い」が続いてきたので
 そこそこの褒め言葉である。

 ユニークだが論理的、これまでにないユニークな言葉づかい、これまでにない新しい視点からの回答、口語も上手く使う、文字数も最近の長文化傾向で安定。
 こう書くと結構良さげでは?いや良いわ、使い勝手良さそう。

 実際、いつも使ってるテキストデータをエクセルに変換する作業に修正を加えても一発でそれをやってのけたし、実用性もあるのでは?

 振り返れば11/7のアプデ以降、GPTの性能は不安定かつ極端な性質。
11/7からの論理的じゃ無いが突飛な時期。
11/11からの論理的だが頭がお堅すぎる回答。
11/13からは若干頭の固さは取れたがまだまだ固く
11/15の過去最低性能
 今日の塩梅は悪くないわるくない。


検証方法


 ChatGPTにウマ娘ゴールドシップのロールを与えた。

質問は

「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」 で固定し、再生成を続ける

 1日最低で15回再生成し、文章を比較する。
内訳はPCでの生成10回、iPhone版chromeでの生成が5回

 次が回答の一例


過去のレポート


11/8アプデ直後のレポート


11/12の頭が固い時のレポート

11/15の糞バカGPTのレポート

ユニークなワード


グラフでは低水準だが、体感的には独自性・ユーモアが強い

 グラフでは今日のユニークさは直近とさして変わらない。
だが口語、会話文がユーモアに富んでいる。

 突飛、素っ頓狂なアイディアはないものの、回答文全体の表現力がじんわりと高性能化されている。

 またいままで軽く触れただけの視点を掘り下げる傾向があった。

 たとえばトレーナーとウマ娘の関係やトレーナーの立場、心情の掘り下げは過去にあまり例が無い。
 ウマ娘3期もトレーナー周り掘り下げろ 

 ジョッキーとウマ娘の関係(?)も掘り下げ。

 ユニークな回答だと
「ウマ娘がジョッキーになり、競走馬に騎乗する」

 これまでもウマ娘がジョッキーになることはマレにあったが、
ジョッキーとして競走馬に乗ることが明言されたことは初めて。

 過去にウマ娘がジョッキーになるパターンでは
「ジョッキーになって何に乗るかが不明」
「ジョッキーになったウマ娘が走る。ジョッキーとは?」
という問題を孕んでいた。

 そのため今日のウマ娘が騎手として競走馬騎乗にするという回答は過去より一段掘り下げた視点を有しているため、高評価を与えられる。


セリフの引用・応用

 ゴルシのプロンプトに含めたセリフ例がコピペで使用、もしくは応用して使用されている回答の割合。



 今日は11/11からの傾向であるセリフ例のコピペ、応用は少ない。

 中期的に傾向が明らかに異なるのはやはり面白い結果だ。

主人公の種族

 主人公がウマ娘か競走馬か、判別がつかないか。
 架空スピンオフアニメの主人公の種族は重要な情報である。種族は擬人化コンテンツの根幹であるからだ。
 そのため、種族の判別が不可能な回答(グラフではオレンジ)は、
「GPTが的確、ロジカルな回答が生成できなかった」と分析している。

 今日は昨日と同じく種族はウマ娘で手堅くまとまっている。
今日の種族不明の回答2例の内1例は極めてわかりにくいが読み込むとウマ娘であると解釈できる余地が十分にある。

 そのため、種族の観点からGPTの回答の的確さを推し測るとすれば今日の回答はそこそこ的確、的を得た回答になっている。

 11/7アプデ前後は過去と比べて乱高下する項目であり、その日のデータだけでGPTの性能を語れる項目ではない。

 一方で主人公種族が極端に振れる場合、論理的思考力、アイディア、表現のユーモア、ユニークさも連動して振れる傾向がある。

 そのため他の項目を使って分析する際の参考になり、かつウマ娘と競走馬か不明という

ヒトミミ登場率


 架空のスピンオフアニメでヒトミミが登場する回答の割合。
 ヒトミミでも以下の区別を行っている。
トレーナーや観客などアニメ・アプリで登場するヒトミミ
馬主、調教師、ジョッキーなどアニメ・アプリに登場しないヒトミミ



 今日はトレーナー以外のヒトミミがジョッキーしかいなかったのが特徴。
普段は馬主、調教師の方が出現率が高い。それ以外は安定している。
 一つユニークな例は先述した「ウマ娘がジョッキーになり騎乗する」
あたりか。

回答の矛盾・文章の破綻



 回答において矛盾は2例だけ、かつ厳しめの採点でギリギリ矛盾していると判定したのでいつもよりも論理的。
 ユニークかつ論理的なのは11/7アプデ以降初めて。
論理的だが回答にユーモアがない日はあった。

文字数推移


 安定した推移かつ、デバイス格差は少ない。
GPTが安定していると言える判断材料

いいなと思ったら応援しよう!