マガジンのカバー画像

ChatGPT挙動レポート[ほぼ毎日更新]

89
ウマ娘ゴールドシップのロールを与えたChatGPTの回答を再生成させ、回答傾向を可能な限り短いスパンでの変化を分析する。 目的 公式アナウンスのない調整やエラーの確認 SNSで…
運営しているクリエイター

#AIとやってみた

ゴルシChatGPT4性能・挙動レポートの目的・前提

ゴルシChatGPT4性能・挙動レポートの目的・前提

 このシリーズでは可能な限り毎日ChatGPT4の回答の特徴、変化を分析した情報を提供する。
 

目的

①OpenAI、ChatGPTからのアナウンスないモデル調整やバージョンアップ、なんらかのエラー発生をある程度信頼できるように確認する

②同じ質問文への回答再生成により、「なんとなく違う」ではなく、ChatGPTの変更、エラーを明確にする。

③試験の正答率や攻撃的質問文へのChatGPT

もっとみる
[日刊GPT挙動性能レポート12/18]アプデ前特有の動きを確認。GPT4.5実装は本当か?

[日刊GPT挙動性能レポート12/18]アプデ前特有の動きを確認。GPT4.5実装は本当か?

 GPT4.5の噂が飛び交っている、はたしてそれは真実なのだろうか。
私の意見としては
①GPTがアプデ前特有の無告知の挙動変化は確認されている

②アプデを否定する材料が特にない

③GPT4.5が実装されるかは別としてアップデートの可能性はかなり高い

④GPT4.5の実装、機能の追加、既存GPT4のアプデなどのアナウンス今後数日以内になされる可能性が高い

 ちなみに過去の記事でもアプデを予

もっとみる
[日隔chatGPT挙動性能レポート12/13]昨日に続きバカ・・・・・・性能低下が目立つ&12月GPTはサボる?

[日隔chatGPT挙動性能レポート12/13]昨日に続きバカ・・・・・・性能低下が目立つ&12月GPTはサボる?


総括今日の特徴は
回答ごとに説明が具体的か抽象的か極振りされてて、回答からアニメの作品のイメージがつかない

内容の掘り下げが浅い 矛盾が割と多い

セリフチックに箇条書きを展開するから読ませる文章じゃない

8月みたいに突飛な内容出してくるけど浅い、具体的すぎるので作風が掴めないので妄言を読んでる感が強い

 またエラーが3回あった。
回答の途中でコネクションエラーが起きるのが2例
スマホで出

もっとみる
[日刊GPT挙動性能レポート12/4]回答ロジックに大きな調整入った可能性?

[日刊GPT挙動性能レポート12/4]回答ロジックに大きな調整入った可能性?


総括 今日は11/7アプデ後の水準で考えるとユニークな回答、表現が目立つ。
ただし、回答の的確さ、論理性は低下しているように感じる。

 また弱い根拠ではあるが回答のロジックに大きな変更があった可能性すらあると感じた。

 今日の特徴は11/3以降時折みられる「ノリと勢いで回答を生成している」
という私の分析に合致するものである。
(私は11/7アプデの方向性を11/3以降テストしていたと感じて

もっとみる
[日刊GPT挙動性能レポート12/3]昨日の淡泊路線がつづく。不適切な回答の印象が強い

[日刊GPT挙動性能レポート12/3]昨日の淡泊路線がつづく。不適切な回答の印象が強い


総括 今日は淡泊かつエラーが目立つ傾向であった。
昨日と同じ路線である。

 ボキャブラリー、表現は全体的に淡泊
 一昨日はボキャブラリーが豊かではないものの、言葉の組み合わせで説明、表現能力が高かった。
 この傾向は昨日から弱まったが、その潮流は継続してるように感じる。
 ただし、この表現の使い分けは読み手がかなり慎重に読むと気が付く程度。
一昨日ほど明確かつ新鮮に感じるものではない。

 ま

もっとみる
[日刊GPT挙動性能レポート12/2]所々エラーが目立つ、内容は淡泊。チャットルームは更新

[日刊GPT挙動性能レポート12/2]所々エラーが目立つ、内容は淡泊。チャットルームは更新


総括 まずは今日から3代目ゴルシ。チャット数が950回を超えたため、今までのチャットルームが使えなくなった。

 同じプロンプト、同じ質問で新しいチャットルームを作った。
10/4までは初代ゴルシチャットルーム
10/5以降が二代目ゴルシチャットルーム
12/2以降は三代目ゴルシチャットルーム
 チャットルームが変化したことでどのような影響がでるか検証が必要だろう。

 また今日表示するグラフも

もっとみる
[11/29]昨日より視点、トピックを浅く広く触れるchatGPT性能挙動解説

[11/29]昨日より視点、トピックを浅く広く触れるchatGPT性能挙動解説


 今日は実験的に一部アプリGPTで後述筆記、校正をさせています。
いつもと文体が違うかも。

総括 本日のGPTのパフォーマンスについて、昨日11月28日との比較を行うと、一つの回答に含まれるトピックの多さが際立っていました。

 昨日のGPTは、一つの回答で取り上げるトピックが限られており、
かつ類義語や同義語を多用することで、
情報量が極めて少なく感じられました。

 しかし、今日のGPTは

もっとみる
[11/14]今日のChatGPT性能挙動レポート土日挙動違う説&調整確定※追記今日はバカ

[11/14]今日のChatGPT性能挙動レポート土日挙動違う説&調整確定※追記今日はバカ


総括 chatGPTの回答傾向は昨日と類似点が多い、従ってアプデ前後、11/11から11/12の調整、11/13から再度調整が入った可能性が高い。
 体感的には11/13,14よりも回答にユーモア、表現の幅が広がったが、11/3から比較すると手堅い回答という印象。
 回答傾向は11/3-11/10、11/11-11/12はそれぞれ異なる特徴を持っていた。
 

 ただし昨日と大きく異なる変動した

もっとみる
[11/13]論理的で目新しさのない回答が続くchatGPT性能挙動レポート

[11/13]論理的で目新しさのない回答が続くchatGPT性能挙動レポート


総括 11/7の新バージョンはアナウンスされる前の11/3には投入されていた。
CoTで思考している途中途中の内容を回答に盛り込んでしまい、面白い、バラエティーがあるが、割と滅裂な回答が多い。
11/11からChatGPTの回答が論理的だがバラエティー、新規性が内という傾向を指摘してきた。

 グラフ的には今日の回答は9/25モデルの10/20前後から11/2の間に一部類似した傾向が見られるよう

もっとみる
[8/26~10/06]グラフ化ChatGPT性能定性分析

[8/26~10/06]グラフ化ChatGPT性能定性分析

 久しぶりにChatGPTの回答を定性分析した。
ここまで間隔があいたのはBingに作らせたマクロを実行したらPCがブルスクになり、電源が入らなくなった「0901事件」(勝手に読んでるだけ)の影響である。
 修理に持ち込んだところ、メモリーが破壊されていたようだ。
マクロの負荷でメモリーって壊れるのか?

 それはおいておいて、本題の定性分析のグラフを説明と共に列挙しよう。
尚、あまり影響のなさそ

もっとみる
[10/05]ChatGPT考察・同一プロンプト、別チャットルームの差異

[10/05]ChatGPT考察・同一プロンプト、別チャットルームの差異

 ウマ娘3期がドゥラメンテ登場で手のひらぐるぐるする要素はあるけど、アプリが足を引っ張っていて覇権アニメになるにはまだ火力が足りないなと感じる今日。

 今日は前から噂されていた、「同じプロンプトでもチャットルームが変わると回答の傾向が変わる」という情報の検証のフェーズに突入した。
 突入した、というより突入させられた。
 因みにチャットルームとはヘッダーのようにしおり?のように別のチャットという

もっとみる

9/29chatGPT新バージョン感想、性能など

 身内の不幸で六本木駅北800キロの都内試される大地から池袋へ。
 時間がなさそうだし、最近レポート質が下がっているのでお休みしようかと思ったけど時間があり、案外頭が回ったので今日は更新。
 ゴルシプロンプトの挙動は別記事とする。
 今回は9/25の新バージョンと実装前の9/19.20の突発的短期間の性能向上挙動について、8/6の旧バージョンなども含めて考察する。

所感
 これまで近いうちのch

もっとみる

[09/26]GPTゴルシ挙動性能レポート

所感

 全体的にユーモア、ユニークさが強く感じられた。文脈のユニークさが高い水準を維持しており、ところどころ表現力の向上が感じられる回答もあった。
 セリフの改変も続いている。
 ただし箇条書きの使用回数も6回であった。
 ある程度プロンプトから逸脱する調整が入ったおとといからの挙動が維持されており、今日は調整がなかったのだろう。

##①前提

以下のリンクが分析の前提である。
https:/

もっとみる
[9/25]ゴルシGPT性能・精度検証レポ-ト

[9/25]ゴルシGPT性能・精度検証レポ-ト

所感

 ふと二つの考えが頭をよぎった。
 昨日はユーザーに断りなく、モデルの実戦テストをしているのではないかと思ったが。
 今、モデル変更、バージョンアップやそれのテストをしているのでは無く、GPTの温度を微調整しているのでは?というアイディアが一つ。
 温度調整なら毎日ちょこちょこテストしてもコスト、作業量は大きく増えないし、モデルチェンジよりはユーザーにとっても困惑が少ないだろう。
(Ope

もっとみる