マガジンのカバー画像

ChatGPT挙動レポート[ほぼ毎日更新]

89
ウマ娘ゴールドシップのロールを与えたChatGPTの回答を再生成させ、回答傾向を可能な限り短いスパンでの変化を分析する。 目的 公式アナウンスのない調整やエラーの確認 SNSで…
運営しているクリエイター

記事一覧

固定された記事
ゴルシChatGPT4性能・挙動レポートの目的・前提

ゴルシChatGPT4性能・挙動レポートの目的・前提

 このシリーズでは可能な限り毎日ChatGPT4の回答の特徴、変化を分析した情報を提供する。
 

目的

①OpenAI、ChatGPTからのアナウンスないモデル調整やバージョンアップ、なんらかのエラー発生をある程度信頼できるように確認する

②同じ質問文への回答再生成により、「なんとなく違う」ではなく、ChatGPTの変更、エラーを明確にする。

③試験の正答率や攻撃的質問文へのChatGPT

もっとみる
[GPTは馬鹿からアホへ]ChatGPT性能挙動レポート[GPTstore実装一週間]

[GPTは馬鹿からアホへ]ChatGPT性能挙動レポート[GPTstore実装一週間]

 久しぶりのGPTレポートです。
 今回は世間を騒がせたり、驚き屋を大量発生させたGPTstore実装後のGPTの挙動を前後一週間で比較します。

 因みにレポート出してなかったのは2023/7からのサンプルを読み返していたのでさぼってるわけじゃないです。kindle本にしようと奮闘中。

序論「GPTは賢くなったのか?」

 GPTは1月のアプデで賢くなったのか?と問われれば
アンバランスな能力

もっとみる
[GPTレポート1/5~1/7]GPTストアアプデ直前のGPT荒ぶりレポート

[GPTレポート1/5~1/7]GPTストアアプデ直前のGPT荒ぶりレポート


ブログ的なサムシング

 明日1/8からGPTストアが実装されるので、恐らくGPT4そのものにもアプデが来るだろうということで久々のレポート。

 毎日レポートをしているとどうしても、驚き屋本に必要なインプット、アウトプットの時間が割けないのでしかたないと割り振り。

 まずアプデ前に性能が乱高下するのはマガジンで何度も説明している。
とその前に過去記事やら紹介

検証方法

 ChatGPTに

もっとみる

[簡易版GPT毎日レポート]

1/1
文体は比較的口語セリフチック

五感の情報はすくなく、抽象的、概念的

文章構造は箇条書きではなく台本的に説明がすすむ

トピックのジャンルは「作品の概要・アウトライン」が中心
「アウトライン」の説明が多く、抽象的で回答が十分ではない
アニメの演出等のジャンルが少なく、セリフ的にアウトラインの説明が続く
個々のトピックは大きく、ぼんやりしている
トピックはジャンル横断しているが、つながりが

もっとみる
[GPT毎日レポート]アンケートのお願い

[GPT毎日レポート]アンケートのお願い

 ゴルシGPTの回答を分析する際、客観的視座を取り入れるため

簡単
でもない
アンケートにご回答いただければ幸いです。

このアンケートを基に今後GPTの分析を進めてまいります

[日刊GPT挙動性能レポート12/18]アプデ前特有の動きを確認。GPT4.5実装は本当か?

[日刊GPT挙動性能レポート12/18]アプデ前特有の動きを確認。GPT4.5実装は本当か?

 GPT4.5の噂が飛び交っている、はたしてそれは真実なのだろうか。
私の意見としては
①GPTがアプデ前特有の無告知の挙動変化は確認されている

②アプデを否定する材料が特にない

③GPT4.5が実装されるかは別としてアップデートの可能性はかなり高い

④GPT4.5の実装、機能の追加、既存GPT4のアプデなどのアナウンス今後数日以内になされる可能性が高い

 ちなみに過去の記事でもアプデを予

もっとみる
[12/17日刊GPT挙動性能レポート]不的確回答上昇、健全会話に警告のエラー発生(GPT4.5実装疑)

[12/17日刊GPT挙動性能レポート]不的確回答上昇、健全会話に警告のエラー発生(GPT4.5実装疑)


検証方法

 ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。

 1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。

総括今日は健全会話がエッチ認定されたのでそっちの解説

もっとみる
[毎日GPT挙動性能レポート12/16]表現力は向上するも近視眼的な回答が目立つ

[毎日GPT挙動性能レポート12/16]表現力は向上するも近視眼的な回答が目立つ


検証方法

 ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。

 1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。

総括 今日は近視眼的、視野狭窄という印象の回答が目立

もっとみる
[日隔GPT挙動性能レポート12/15]昨日のプロンプト理解力向上が維持される。4.5に望む事は?

[日隔GPT挙動性能レポート12/15]昨日のプロンプト理解力向上が維持される。4.5に望む事は?


総括(グラフ化は後ほど追加)
 12月に入ってから、という基準で言えば12/15の性能は比較的高い。
特にプロンプト理解力が高まったように感じる。
 
 Python、VBAのコード作成能力も向上していることもこの感想を補強する。
 今日は一回の指示で望んだ結果を生み出すコードを生成した。
 一昨日までPythonやVBAコードに関して指示を繰り返してもエラーが発生する、目的を達成できないコード

もっとみる
[日隔GPT挙動性能レポート12/14]GPT4.5の噂について

[日隔GPT挙動性能レポート12/14]GPT4.5の噂について


総括 今日のGPTは悪くない、知性を感じた。

 一つの回答から全体像を読み取ることができるように感じたし、
具体的、抽象的な説明の使い分け、段落ごとに扱うテーマの分割もここ数日とは明らかに異なる。

 ただし、これはここ数日との比較であり、この数日は本当に酷い性能だった。
 ここ数日は読み込めるプロンプトの長さこそ3.5を凌駕しているが、
過去最も性能差を感じない。

 そのためこれまでの回答

もっとみる
[日隔chatGPT挙動性能レポート12/13]昨日に続きバカ・・・・・・性能低下が目立つ&12月GPTはサボる?

[日隔chatGPT挙動性能レポート12/13]昨日に続きバカ・・・・・・性能低下が目立つ&12月GPTはサボる?


総括今日の特徴は
回答ごとに説明が具体的か抽象的か極振りされてて、回答からアニメの作品のイメージがつかない

内容の掘り下げが浅い 矛盾が割と多い

セリフチックに箇条書きを展開するから読ませる文章じゃない

8月みたいに突飛な内容出してくるけど浅い、具体的すぎるので作風が掴めないので妄言を読んでる感が強い

 またエラーが3回あった。
回答の途中でコネクションエラーが起きるのが2例
スマホで出

もっとみる
[日隔GPT挙動性能レポート12/12]バカで思慮が浅い。アプデ後最高にバカなchatGPT

[日隔GPT挙動性能レポート12/12]バカで思慮が浅い。アプデ後最高にバカなchatGPT


総括 今日のchatGPTは酷い、回答内容の質、基礎と応用ともに表現の質が低 い。
 私は11月アプデの特徴を「ノリと勢い」と表現しているが、この特徴の悪い側面が強く出た。
 日本語は変だし、類語、同義語どころか同語の繰り返し使用、
回答の本筋からの逸脱。

 しかも日本語は変になってるのにユニークさ面白みが一切ない。
過去の回答で日本語が変な時って大体クセのあるいちもつを腹に抱えてそうなのだが

もっとみる
[日隔GPT挙動性能レポート12/11]かなり地味、地味すぎて印象にのこらない傾向がつづく

[日隔GPT挙動性能レポート12/11]かなり地味、地味すぎて印象にのこらない傾向がつづく


総括 今日のGPTは手堅くまとまっているが面白くない回答がおおい。
一方セリフの再現度など、プロンプトへの忠実度は上がっている。
 これは7月ゴルシとの最大の違いだろう。
7月ゴルシはセリフの再現度こそ低いもののユニークな回答が目立った。

 この地味で淡泊な回答は12/7から継続した特徴。
この路線でしばらくGPTの方針はかたまるのだろうか?

 今日の特徴で散見された矛盾点のあらすじは
「ウ

もっとみる
[日隔GPT挙動性能レポート12/7]かなり地味、地味すぎて印象にのこらない

[日隔GPT挙動性能レポート12/7]かなり地味、地味すぎて印象にのこらない


総括 今日は淡泊というより、印象に残らない回答が目立つ。
酷く説明口調でもないがユニークな口語もない。
ユニークでもないし、矛盾もない
トピックは少ないわけでもないが掘り下げも浅い。

 バランスがとれたという評価はできない、地味

 前回のレポートは12/6。
12/6はユニークな特徴があり、それまでを淡泊と表現してきたが
今日は淡泊というか印象に残らない。

検証方法

 ChatGPTにウ

もっとみる