マガジンのカバー画像

[月刊]ChatGPT性能挙動一ヶ月ごとの分析レポート

18
毎日更新のChatGP性能挙動レポートを一ヶ月間隔で分析。 ゴルシのキャラクターロールチャットの分析ですが、ビジネスや他分野でGPTを使用する際の目安にもなるでしょう。 キャラク…
運営しているクリエイター

#AI

チェンジポイント検出で読み解くGPTアプデ(前半:11/7アプデまで)

チェンジポイント検出で読み解くGPTアプデ(前半:11/7アプデまで)

 統計処理によってGPTのアップデートが事前にある程度予知する事が判明した。
 今回は3/19に行われたアップデートを例に解説していく。
 尚アップデートの内容や前後の回答の文章の内容の分析には触れないものの、その後に起きたcontinue generateのエラーなどアプデ前後でありがちなエラーについては触れていく。

検証方法
 ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウ

もっとみる
エラー頻発・8月、9月モデルに先祖返り?[週刊chatGPT性能挙動レポート]

エラー頻発・8月、9月モデルに先祖返り?[週刊chatGPT性能挙動レポート]

 GPTのメンション機能が実装され、若干盛り上がっているGPT界隈。
だがGPTの挙動は不安定かつ、使用に耐えうるものではないと判断した。

検証方法

 これまでクソ真面目な雰囲気だったが、やりかたはオタク遊びだ。

メンション機能後のエラー というのも、長文になった際続きを書かせる「continue」ボタンを押しても続きが生成されず新しい回答がはじまる。
 ネットワークエラー率100%が続く、

もっとみる
[GPTは馬鹿からアホへ]ChatGPT性能挙動レポート[GPTstore実装一週間]

[GPTは馬鹿からアホへ]ChatGPT性能挙動レポート[GPTstore実装一週間]

 久しぶりのGPTレポートです。
 今回は世間を騒がせたり、驚き屋を大量発生させたGPTstore実装後のGPTの挙動を前後一週間で比較します。

 因みにレポート出してなかったのは2023/7からのサンプルを読み返していたのでさぼってるわけじゃないです。kindle本にしようと奮闘中。

序論「GPTは賢くなったのか?」

 GPTは1月のアプデで賢くなったのか?と問われれば
アンバランスな能力

もっとみる
[GPTレポート1/5~1/7]GPTストアアプデ直前のGPT荒ぶりレポート

[GPTレポート1/5~1/7]GPTストアアプデ直前のGPT荒ぶりレポート


ブログ的なサムシング

 明日1/8からGPTストアが実装されるので、恐らくGPT4そのものにもアプデが来るだろうということで久々のレポート。

 毎日レポートをしているとどうしても、驚き屋本に必要なインプット、アウトプットの時間が割けないのでしかたないと割り振り。

 まずアプデ前に性能が乱高下するのはマガジンで何度も説明している。
とその前に過去記事やら紹介

検証方法

 ChatGPTに

もっとみる
[ChatGPTレポート12/26]GPTアプデ予想は外れるのか?

[ChatGPTレポート12/26]GPTアプデ予想は外れるのか?

最近のGPTざっくりレポート

 12/17から直近にGPTのアプデが来ると予想し、騒ぎまくってたが
ほぼ10日経過したのになんもアナウンスがない。

 タダの驚き屋よりタチが悪いや。

でも出力文字数の変動、荒ぶりかたは12/17から異様なんですよね

 昨日なんて再生成一回おしただけで二回分の回答が同時に出力されました。
 この現象は10回叩いて2回起きたので
私の経験則「UIエラーがアプデ前

もっとみる
[GPT毎日レポート]アンケートのお願い

[GPT毎日レポート]アンケートのお願い

 ゴルシGPTの回答を分析する際、客観的視座を取り入れるため

簡単
でもない
アンケートにご回答いただければ幸いです。

このアンケートを基に今後GPTの分析を進めてまいります

[日隔GPT挙動性能レポート12/19]回答は昨日にくらべ大きく劣化、アプデ前不安定説

[日隔GPT挙動性能レポート12/19]回答は昨日にくらべ大きく劣化、アプデ前不安定説


検証方法

 ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。

 1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。

 ギャグ満載といってるのにギャグがない.
筋肉痛がバ

もっとみる
[日刊GPT挙動性能レポート12/18]アプデ前特有の動きを確認。GPT4.5実装は本当か?

[日刊GPT挙動性能レポート12/18]アプデ前特有の動きを確認。GPT4.5実装は本当か?

 GPT4.5の噂が飛び交っている、はたしてそれは真実なのだろうか。
私の意見としては
①GPTがアプデ前特有の無告知の挙動変化は確認されている

②アプデを否定する材料が特にない

③GPT4.5が実装されるかは別としてアップデートの可能性はかなり高い

④GPT4.5の実装、機能の追加、既存GPT4のアプデなどのアナウンス今後数日以内になされる可能性が高い

 ちなみに過去の記事でもアプデを予

もっとみる
[chatGPT定点観察]7月と12月のGPT4比較

[chatGPT定点観察]7月と12月のGPT4比較


総括 GPTの回答の変遷を同人誌かなんかにまとめたい、
ということで7月と12月の回答を比較していた。

 感想としては明らかに7月と12月には回答の質が異なる。
 100個ほど比較したが、もうすでにランダムに抽出した7月と12月の回答を判別できるようになった

簡単にまとめると

台詞再現というかキャラクターの口調の模倣 12月>7月

人間としゃべってる感 12<7

一回答内のトピック

もっとみる
[ビジネス・論理的思考能力]ゴルシGPTの分析で何がわかるか?前編

[ビジネス・論理的思考能力]ゴルシGPTの分析で何がわかるか?前編

 ちょと短めの記事だが、私の分析レポートをどのように解釈すべきか一つの説明を加える。

 私の分析はゴールドシップのキャラロールとのチャットを分析している。
ぱっとみオタクの戯れに見えるかもしれないが、
この分析はGPTをビジネス、日常でのチョットした利用についても示唆的な内容を含んでいる。

①GPTの立案能力に関する分析 ゴルシGPTには架空のスピンオフアニメを説明させている。

新しいアニメ

もっとみる

9/29chatGPT新バージョン感想、性能など

 身内の不幸で六本木駅北800キロの都内試される大地から池袋へ。
 時間がなさそうだし、最近レポート質が下がっているのでお休みしようかと思ったけど時間があり、案外頭が回ったので今日は更新。
 ゴルシプロンプトの挙動は別記事とする。
 今回は9/25の新バージョンと実装前の9/19.20の突発的短期間の性能向上挙動について、8/6の旧バージョンなども含めて考察する。

所感
 これまで近いうちのch

もっとみる

chatGPT9/25バージョンの感想2

 出先でマトリクス表作れない、キーボード使いにくい環境なのでふわっとした感想になります。

 9/25にchatGPTはバージョンアップしたとアナウンスされましたがまだまだ調整中だろう。
 プロンプトの順守、文字数に対する情報効率、プロンプトの応用能力が大幅に向上したが、回答に含まれるトピックが減り、ブレストの叩き台などの使用目的によっては致命的であると言える。
 
 今日は箇条書きが全く使用され

もっとみる
[10/25]アプデから一ヶ月間のchatGPT性能挙動レポート①

[10/25]アプデから一ヶ月間のchatGPT性能挙動レポート①

 chatGPTで9/25にアプデが入った、画像生成とかが目玉のようだが文章出力にも変化があった。文章出力についてレポートする。
 くっそ長いので明日続きを書く。

 分析対象はいつも通りゴルシGPTである。
 ざっくり説明するとウマ娘ゴールドシップのロールを与えたChatGPT4に「ウマ娘プリティーダービーからプリティーを抜いた新アニメ」を考え、説明させている。
 具体的な質問文は以下のスクショ

もっとみる