マガジンのカバー画像

ChatGPT挙動レポート[ほぼ毎日更新]

89
ウマ娘ゴールドシップのロールを与えたChatGPTの回答を再生成させ、回答傾向を可能な限り短いスパンでの変化を分析する。 目的 公式アナウンスのない調整やエラーの確認 SNSで…
運営しているクリエイター

2023年9月の記事一覧

chatGPT9/25バージョンの感想2

 出先でマトリクス表作れない、キーボード使いにくい環境なのでふわっとした感想になります。

 9/25にchatGPTはバージョンアップしたとアナウンスされましたがまだまだ調整中だろう。
 プロンプトの順守、文字数に対する情報効率、プロンプトの応用能力が大幅に向上したが、回答に含まれるトピックが減り、ブレストの叩き台などの使用目的によっては致命的であると言える。
 
 今日は箇条書きが全く使用され

もっとみる

9/29chatGPT新バージョン感想、性能など

 身内の不幸で六本木駅北800キロの都内試される大地から池袋へ。
 時間がなさそうだし、最近レポート質が下がっているのでお休みしようかと思ったけど時間があり、案外頭が回ったので今日は更新。
 ゴルシプロンプトの挙動は別記事とする。
 今回は9/25の新バージョンと実装前の9/19.20の突発的短期間の性能向上挙動について、8/6の旧バージョンなども含めて考察する。

所感
 これまで近いうちのch

もっとみる

[09/26]GPTゴルシ挙動性能レポート

所感

 全体的にユーモア、ユニークさが強く感じられた。文脈のユニークさが高い水準を維持しており、ところどころ表現力の向上が感じられる回答もあった。
 セリフの改変も続いている。
 ただし箇条書きの使用回数も6回であった。
 ある程度プロンプトから逸脱する調整が入ったおとといからの挙動が維持されており、今日は調整がなかったのだろう。

##①前提

以下のリンクが分析の前提である。
https:/

もっとみる
[9/25]ゴルシGPT性能・精度検証レポ-ト

[9/25]ゴルシGPT性能・精度検証レポ-ト

所感

 ふと二つの考えが頭をよぎった。
 昨日はユーザーに断りなく、モデルの実戦テストをしているのではないかと思ったが。
 今、モデル変更、バージョンアップやそれのテストをしているのでは無く、GPTの温度を微調整しているのでは?というアイディアが一つ。
 温度調整なら毎日ちょこちょこテストしてもコスト、作業量は大きく増えないし、モデルチェンジよりはユーザーにとっても困惑が少ないだろう。
(Ope

もっとみる

[9/24] ゴルシGPT性能挙動レポート

所感

 個人的な憶測だが、OpenAIは新しいバージョンを手探りで決めている最中、もしくは実装前のテスト中であるように感じる。

 9月19日20日に一時的な能力向上があったことは繰り返しているが、今日はこの期間とこれまでの水準の間に当たる。極めて能力が向上した訳では無いが、ここ数日の水準よりも高い能力を有している。

 具体的にはユニークな文脈、単語の使用水準はたかまった訳では無いが、一方でこ

もっとみる

[しばらく不定期更新]ゴルシChatGPT4性能・挙動レポート

  私用によりごたごたしており、しばらく更新が不定期になります
今回は9月20日から9月23日をまとめて紹介させていただきます。校正する時間もないため、フォーマットも異なります。

 所感
9月19日、20日は衝撃的といえるほど文章表現が改善された。
だが21日には前の水準に戻り、文字数も減少した。
9月19日、20日水準は大型アップデートが来たかと思うほどであり、そこからの水準低下は残念である。

もっとみる
[9/19]ゴルシChatGPT4性能・挙動レポート

[9/19]ゴルシChatGPT4性能・挙動レポート

小言
 最近復帰したのに案外早くチムレ6を維持している。
イクノディクタス実装時にガチャをぶん回せるように溜めておこう。
 サポカ?引きませんよ・・・・・・

所感

 私が所属する界隈からGPTの回答がユニーク、表現力が改善したという報告があった。
 検証したところ大きなあらすじはリアル路線でユニークではないがリアル路線の回答であっても表現が豊かであったり、全体の文脈に影響を与えないがユニークな

もっとみる
ゴルシChatGPT4性能・挙動レポートの目的・前提

ゴルシChatGPT4性能・挙動レポートの目的・前提

 このシリーズでは可能な限り毎日ChatGPT4の回答の特徴、変化を分析した情報を提供する。
 

目的

①OpenAI、ChatGPTからのアナウンスないモデル調整やバージョンアップ、なんらかのエラー発生をある程度信頼できるように確認する

②同じ質問文への回答再生成により、「なんとなく違う」ではなく、ChatGPTの変更、エラーを明確にする。

③試験の正答率や攻撃的質問文へのChatGPT

もっとみる

[はじめに]ChatGPT性能・挙動レポートプロンプト解説

ゴルシプロンプトの概要

 今回は私が質問を与えているウマ娘キャラクターゴルシのプロンプトの概略を説明する。
 ウマ娘は二次創作に厳しい制約があり、全文を公開することは躊躇われるので概要にとどめる。

 ゴルシプロンプトは以下の要素から構成され、合計2050文字である。
意外な事にこのプロンプトでは「ゴルシ」がウマ娘のキャラクターであることを一切説明していない。ということに気が付いた。
 ゴルシG

もっとみる
「初めに」ゴルシChatGPT性能・挙動分析:ゴルシGPTの回答例

「初めに」ゴルシChatGPT性能・挙動分析:ゴルシGPTの回答例

私はウマ娘のキャラクターであるゴールドシップのロールを与えたGPTに対し、同一の質問を続けその傾向が時系列でどのような変化があるか分析を行っている。

定性分析では9項目とその他特記事項から分析し、
定量分析では回答された文字数や品詞ごとの使用率をカウントしている。

しかしこれらの項目をいくら説明したところで、実際の回答例がなければ理解が困難であろう。
ウマ娘は二次創作に制約がおおいコンテンツで

もっとみる

[9/10]ChatGPT4挙動レポート



前提

結論
発想、語彙のユニークさ、表現力は9月4日以降の高水準を維持している。
一方でプロンプトで禁じられた箇条書きの多用など、懸念材料が残る。
一部界隈で昨日から出力内容の品質低下が報告されており、関連性がある可能性があるが不明

① プロンプトで禁止した箇条書きの異常な使用(特筆すべき点)


15回の出力中10回が箇条書きを使用されており、偶然と片付けるには多すぎる。プロンプトでは

もっとみる

[9/11]ChatGPT4挙動レポート

結論
プロンプトに違反する箇条書きの多用が機能と同水準。
プロンプト軽視、命令無視であるのでプロンプトへの理解についての挙動が変化した可能性がある。

語彙、表現力は9月4日?のアプデ以降の高水準を保っている。これまであまり使用されてこなかったような単語が表現力を高めている。
今日の回答では口語語彙力が向上しているように見えた。

また、うまぴょい伝説、ルドルフ、オグリ、エルなど関連ワードやウマ娘

もっとみる

[9/12]ChatGPT挙動レポート

9/12のChatGPTの回答傾向のレポート

結論
ユニークな文脈を持つ回答が増えた、一方でユニークな単語、フレーズは少ない。しかし使用された単語には特徴的であった。
文脈がユニークな場合、ユニークな単語の使用回数も比例することが多いため珍しい傾向である。

懸念材料であったおとといから急増した箇条書きの使用が大きく減った。
ただし、おととい以前の水準よりも依然として箇条書きの使用は多く今後も注

もっとみる
[9/13]ChatGPT挙動レポート

[9/13]ChatGPT挙動レポート

9/13のChatGPTの回答傾向のレポート
見出し画像はウマ娘プリティーダービーをこどおじ向けであると暗に表現している可能性のゴルシ

結論
昨日減少した箇条書き使用は再度増加した。
気になる点がある、GPTの回答への自己評価である。
体感ではあるが、最近のGPTの傾向として自分が出力した内容への評価を賛否で示すことが増加している。
ユニークな文脈での回答は増加したものの、過去に出力例の無いよう

もっとみる