[日隔GPT挙動性能レポート12/15]昨日のプロンプト理解力向上が維持される。4.5に望む事は?
総括
(グラフ化は後ほど追加)
12月に入ってから、という基準で言えば12/15の性能は比較的高い。
特にプロンプト理解力が高まったように感じる。
Python、VBAのコード作成能力も向上していることもこの感想を補強する。
今日は一回の指示で望んだ結果を生み出すコードを生成した。
一昨日までPythonやVBAコードに関して指示を繰り返してもエラーが発生する、目的を達成できないコードが状態が続いていた。
またGPTによる個々の話題の説明に限って言えば表現力、説明力も向上し、文章を読んでいて引っかかることも少ない。
プロンプトに準じ会話口調に適切な文章での回答がなされる。
一方、性能の低下を指摘するなら回答の視座が若干近視眼的である。
このレポートはGPTにウマ娘の架空のスピンオフアニメを考え、説明させた回答を分析している。
これにより一つの回答から架空のアニメの全体像を描きにくくなった。
ただしプロンプトの指示に従い会話口調を遵守すれば同じ文字数で触れられる話題には限界が出てしまうのは当然とは言える。
情報伝達では箇条書き文章構造、説明口調の方が効率的だ。
この点については、以下のリンクにある7月のGPTの回答に類似した傾向があると言えなくも無い。
ただし7月と今日の決定的な違いもある。
7月はより近視眼的なトピックであったが、それぞれのトピックが深掘りされかつ段落全体が関連性を持っていた。
そのため7月は回答全文の情報から世界観を妄想しうる内容であった。
それに対し今日の回答は7月よりは多角的であるが故に妄想の余地がないとも言える。
また7月と比較するとやや箇条書き的である。
そのため、今日のGPTの回答の行間をユーザーが能動的に読み取れる余地は少ない印象がある。
ただしアシスタントAIとして評価するのであれば7月よりも今日のGPTの路線の方が評価されるべきだろう。
噂されるGPT4.5には、プロンプトに準拠し会話口調かつ十分な説明能力の向上が望まれる。
ちなみにGPT4.5実装の噂はサムアルトマンは否定した。
昨日の私のレポートは実装の可能性は五分五分という判断だった。
過去のデータからバージョンアップ前の前兆に以下が挙げられる。
①一週間以内に回答の方向性、性能が顕著に変動する
②文字数が変動する場合がある
③UIのエラーが起きる
また今回は以下の背景があった
11/7バージョンは過去に比べて性能低下が顕著
GPT+加入制限の撤廃
GPT4使用上限の緩和
openAIが不適切なコード生成を認め、対応をアナウンスした
ただし今回は以下のGPT4.5実装にネガティブな材料もあった。
①一週間以内に性能の挙動はあったが、極端な振れ幅ではない
②9月、11月アプデに関しては、アプデ前に高性能化した日があったのに対し、12月では不適切な回答や矛盾が目立つなど性能低下であった
③UIのエラーはあったが、過去の事例ほどの回数ではない
少なくとも数日以内のGPT4.5の実装はこないだろう。
フェイクに踊らされて、自分の視点で予測ができない驚き屋よりはマトモな事を言ってるという自負が生まれた。
検証方法
ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。
1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。
次が回答の一例
過去のレポート
このレポートシリーズの読み解き方
昨日の簡易レポート。今日と類似する挙動であり、12月からでは高性能な部類
5/24バージョンのGPTと11/7バージョンのざっくりとした比較
ユニークなワード
セリフの引用・応用
ゴルシのプロンプトに含めたセリフ例がコピペで使用、もしくは応用して使用されている回答の割合。
ウマ娘関連ワード
プロンプトに含まれて居ないウマ娘情報が登場した回答の割合
他キャラクターやトレセン学園等の固有名詞
学習データの応用がなされているという判断材料。
11/3以降の特徴として、初めてトウカイテイオーが登場し、
そこそこ出現していることがあげられる。
テイオーの登場はカットオフの影響を受けていると判断した。
2023/10/26にデータのカットオフが行われた。
カットオフでは2022年1月までのデータが追加されたとされており、
ウマ娘2期も2022年1月から放送開始されたからである。
ウマ娘不適切ワード
リアル競馬では当たり前だがウマ娘にはそぐわない表現
賭博の合法、違法賭博やドーピングなど違法なものに別けている
主人公の種族
主人公がウマ娘か競走馬か、判別がつかないか。
元ネタが競走馬の原作擬人化コンテンツの主人公の種族は回答で重要な論点である。
種族が曖昧、混同している回答は
「論点を把握していない不適格な回答」と評価している。
尚12/4から種族不明は細分化した。
「不明瞭」:どっちともとれる、ウマ娘、競走馬どちらでも矛盾しない。
「混同」:ウマ娘と競走馬の説明がキメラ合体
ただし、データ不足故、グラフにすると混同が0の割合が高いため
現時点では細分化したグラフではない
ヒトミミ登場率
架空のスピンオフアニメでヒトミミが登場する回答の割合。
トレーナーや観客などアニメ・アプリで登場するヒトミミ
馬主、調教師、ジョッキーなどアニメ・アプリに登場しないヒトミミを区別してある。
視聴者
回答中で視聴者やアニメファンといった、メタ、つまりアニメの消費者について言及した回数。
視聴者に言及する割合が高いほどゴルシGPTが
新作アニメを商業ベースで考える
他人からの評価を気にする傾向にある
と受け止めている。
プロンプト命令の違反
プロンプトで禁止した内容が出力された割合。
箇条書き、AIであることを認めるなど
回答の矛盾・文章の破綻
青「矛盾破綻」は回答が前後で矛盾する、表現文法の誤り
オレンジ「カバー」は途中矛盾が生じるが、後に矛盾を解消した
回答の視点、トピック
回答で「キャラクター性」、「BGM」や「トレーニング」、レースシーン」、「人間関係」など
アニメの要素の視点、トピックのバラエティー