マガジンのカバー画像

ChatGPT挙動レポート[ほぼ毎日更新]

89
ウマ娘ゴールドシップのロールを与えたChatGPTの回答を再生成させ、回答傾向を可能な限り短いスパンでの変化を分析する。 目的 公式アナウンスのない調整やエラーの確認 SNSで…
運営しているクリエイター

#LLM

ゴルシChatGPT4性能・挙動レポートの目的・前提

ゴルシChatGPT4性能・挙動レポートの目的・前提

 このシリーズでは可能な限り毎日ChatGPT4の回答の特徴、変化を分析した情報を提供する。
 

目的

①OpenAI、ChatGPTからのアナウンスないモデル調整やバージョンアップ、なんらかのエラー発生をある程度信頼できるように確認する

②同じ質問文への回答再生成により、「なんとなく違う」ではなく、ChatGPTの変更、エラーを明確にする。

③試験の正答率や攻撃的質問文へのChatGPT

もっとみる
[日刊GPT挙動性能レポート12/1]表現力は平凡だが、言葉の使い分けが適切かつ情報量が多い

[日刊GPT挙動性能レポート12/1]表現力は平凡だが、言葉の使い分けが適切かつ情報量が多い


総括 今日のGPTの回答はキャラクターチャットとAIアシスタント機能のバランスがとれているという印象が強い。

 また 最近のGPTがサボり癖、冗長な傾向があることを公式が認め?、コード生成などにトラブルがあり、OpenAIは対策をはじめたようだが、ゴルシGPTにおいてその傾向はみられない。

 説明口調とキャラクターチャット部分が共存している回答が目立つ。

今日の回答の構造としては
「ゴルシ

もっとみる
[11/15]過去最悪レベルのchatGPT。回答回数上限制限するのに性能下がってるGPT-1.0性能挙動レポート

[11/15]過去最悪レベルのchatGPT。回答回数上限制限するのに性能下がってるGPT-1.0性能挙動レポート

 すみません、-1.0はゴジラ見てきただけです。
いやでもGPTの性能下がったのも本当なんです。
 今日はゴルシとチャットしてる感じが全くなく、ゴルシモドキGPTと会話してるという感想だったので辛口。
 んで回答上限などが改悪されたので、もう罵詈雑言です。
いろいろグラフ化したケド本題。
の後にゴジラの感想

明示されない回答回数上限制限 結論はGPT4回答上限が減った、しかも上限は時価?みたいな

もっとみる
[11/14]今日のChatGPT性能挙動レポート土日挙動違う説&調整確定※追記今日はバカ

[11/14]今日のChatGPT性能挙動レポート土日挙動違う説&調整確定※追記今日はバカ


総括 chatGPTの回答傾向は昨日と類似点が多い、従ってアプデ前後、11/11から11/12の調整、11/13から再度調整が入った可能性が高い。
 体感的には11/13,14よりも回答にユーモア、表現の幅が広がったが、11/3から比較すると手堅い回答という印象。
 回答傾向は11/3-11/10、11/11-11/12はそれぞれ異なる特徴を持っていた。
 

 ただし昨日と大きく異なる変動した

もっとみる
[11/13]論理的で目新しさのない回答が続くchatGPT性能挙動レポート

[11/13]論理的で目新しさのない回答が続くchatGPT性能挙動レポート


総括 11/7の新バージョンはアナウンスされる前の11/3には投入されていた。
CoTで思考している途中途中の内容を回答に盛り込んでしまい、面白い、バラエティーがあるが、割と滅裂な回答が多い。
11/11からChatGPTの回答が論理的だがバラエティー、新規性が内という傾向を指摘してきた。

 グラフ的には今日の回答は9/25モデルの10/20前後から11/2の間に一部類似した傾向が見られるよう

もっとみる
[1108]アプデとエラーがセットのChatGPT性能挙動レポート

[1108]アプデとエラーがセットのChatGPT性能挙動レポート

 風邪というかインフルかコロナなんだろうけど、38度出てるが、んまぁ驚き屋として美味しいタイミングなのでレポートしていこう。

 いつも通りゴルシのロールを与えて。
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
と質問している

 さて、過去にも何度か
GPTに調整が入るとエラーが起こる、
逆にエラーが起きてる時は高確

もっとみる

風邪!のためChatGPTアプデ直後あっさりレポ

 先々週熱出て、今日も熱。六本木駅から北800キロの都心ではインフルが猛烈に増えてるのでそれかもしれない。
 しかも体感38度有りそうなのに37.5。なんじゃこりゃ、パッと熱出て治ってほしいものである。
 葛根湯をガバガバ飲む、容量内で。
 驚き屋モドキとしてはGPTアプデ当日という稼ぎ時なのに悔しい限りである。

 
GPTはぁ、昨日の勢いで変なこと言ってほっぽり出して文脈チグハグの印象が一変し

もっとみる
[11/03]実質11/07verアプデだった11/03GPT性能挙動レポート

[11/03]実質11/07verアプデだった11/03GPT性能挙動レポート

 風邪気味で更新でき無かった11/03の記事です。
11/04.05は余り挙動の変化が無かったので後ほど二日分まとめてnoteにします。
  11/03は機能が回復を超えて、性能が向上したと判断しています。
10/31は9/25アプデ以降最悪の著しい性能低下、11/01.02は性能回復したものの、低水準におちついていたのですが。
 ただし単に性能が向上したと言っても、回答は若干不安定さを残しており

もっとみる
[11/2]最低水準からの脱却、凡庸な回答が目立つChatGPT性能挙動レポート

[11/2]最低水準からの脱却、凡庸な回答が目立つChatGPT性能挙動レポート

 さっきもnote書いたが、当日生成した回答じゃないと目がすべるのは何故だろう?と思う
 んまぁ普段の二倍作業するから印象が残らないのか、なんなのか。

 今日のGPTは平凡、平凡は説明が難しい。
 例えるなら800円の個人営業ラーメン、こだわりみたいなポイントはあるし、たしかにそれはわかるが、総合評価だと値段相応のラーメンの方がしっくりクルだろうか・・・・・・?

改めて8/6バージョンとの比較

もっとみる
[10/31]アプデ後、最悪の性能。ChatGPT性能挙動レポート

[10/31]アプデ後、最悪の性能。ChatGPT性能挙動レポート

 今日はchatGPTの性能が著しく低下している。
 9月25日のアプデ後に起きた極端な低下は10月13日に確認されているが、総合的な能力は今日のChatGPTの方が低く、性能はアプデ後最悪の水準といえる。
 実際、GPTの回答を見ていてつまらないどころか嫌気がさしたレベルである。
 なお片頭痛が激しいため、いつもよりも文章に乱れがあるかもしれない。

最近の推移
 先週金曜から日曜にかけて性能が

もっとみる
[10/30GPT挙動性能レポート]予想は微妙に外れた、奥歯にものが挟まったような・・・・・・

[10/30GPT挙動性能レポート]予想は微妙に外れた、奥歯にものが挟まったような・・・・・・

  昨日はドヤ顔で「性能アップだ!よっしゃ!他の機能でアプデが来たからこの路線は確定!」と騒いだが・・・・・・
 うーん、今日の回答ではその予想は外れたような、外れてないような・・・・・・
 金曜日の性能アップ路線以降と比べると今日は物足りないが、金曜以前ともちょっと違う。
 複数の要素が同時に変動しているために今日のデータだけでは明確な判断できない。
 過去の「短期間の調整による挙動変化」という

もっとみる
[10/29](妄言だった)アプデ予想を超え!性能挙動がパワーアップしたChatGPT解説

[10/29](妄言だった)アプデ予想を超え!性能挙動がパワーアップしたChatGPT解説


前置き 10/27金曜日から「GPTの性能挙動が良い方にかわった」と唱えつつづけてきた。
但し「その挙動の変化は短期的なものであろう」という前置きを置いていた。
その前置きをぶっ飛んだ結果が生まれた。

 今日、「画像認識、生成周りでアプデが入った」という一報。

 文章での応答以外でもアプデが入ると、本業の文章の方もアプデで今後この方向性が推移するってのはほぼ確定なんですよ。

 性能上がって

もっとみる
[ビジネス・論理的思考能力]ゴルシGPTの分析で何がわかるか?前編

[ビジネス・論理的思考能力]ゴルシGPTの分析で何がわかるか?前編

 ちょと短めの記事だが、私の分析レポートをどのように解釈すべきか一つの説明を加える。

 私の分析はゴールドシップのキャラロールとのチャットを分析している。
ぱっとみオタクの戯れに見えるかもしれないが、
この分析はGPTをビジネス、日常でのチョットした利用についても示唆的な内容を含んでいる。

①GPTの立案能力に関する分析 ゴルシGPTには架空のスピンオフアニメを説明させている。

新しいアニメ

もっとみる
(!予想当たり!)[10/28]調整が確定したChatGPT性能挙動レポート

(!予想当たり!)[10/28]調整が確定したChatGPT性能挙動レポート

 昨日のレポートで短期的な調整が入っているだろうという予想をしたが、今日の結果は調整の予想を裏付けるものであった。

※追記※ 
2023/10/29にアプデが来ました。調整入ったのは当たり。
短期的な調整はハズレ。
ジャスティンパレス切ったみたいなものですね。 

総括 昨日の調整からChatGPTが普段よりユニーク、独創性が高い傾向がみられる。
 全体的に表現に幅が生まれつつ、単なる表現がユニ

もっとみる