［日刊GPT挙動性能レポート12/18］アプデ前特有の動きを確認。GPT4.5実装は本当か？

JunnosukeTachibana

2023年12月18日 13:18

　GPT4.5の噂が飛び交っている、はたしてそれは真実なのだろうか。
私の意見としては
①GPTがアプデ前特有の無告知の挙動変化は確認されている

②アプデを否定する材料が特にない

③GPT4.5が実装されるかは別としてアップデートの可能性はかなり高い

④GPT4.5の実装、機能の追加、既存GPT４のアプデなどのアナウンス今後数日以内になされる可能性が高い

　ちなみに過去の記事でもアプデを予言し、そこそこあたってる。

GPT4.5のうわさとは？

　12/13からGPT4.5の噂がにわかに沸き立った

gpt-4.5 december 14
— stefano (@hokeone) December 12, 2023

　その後、未確認のリーク画像が見受けられるようになる

【リーク続報】GPT-4.5は3Dも含むマルチモーダルモデルか

12月中に公開されるのではと噂されている、OpenAIの新モデルに関する新たなリーク情報がRedditに投稿されました。

新モデル詳細↓↓↓

▪︎ GPT-4.5
・… https://t.co/l83sT0PN5j pic.twitter.com/uInA6ogncc
— ChatGPT研究所 (@ctgptlb) December 14, 2023

　昨日からGPTとの会話でGPT4.5だと自称する回答が見受けられたとのこと。
以下は参考

【速報】GPT-4.5モデルが既に実装済みの可能性

一部海外ユーザーの ChatGPT でモデルが、gpt-4.5-turboに変更されていることが報告されています。

私自身、自分のアカウントで確認したところ、実際にシステムはGPT-4.5 Turboを使用していると回答しました。

左アンドロイド/右ウェブ版 pic.twitter.com/LgaqKC9jE0
— ChatGPT研究所 (@ctgptlb) December 17, 2023

　私も昨日12/17日午後５時ごろにGPT4.5を名乗る回答を得られた。

GPT4.5実装の噂を裏付ける根拠とは？

NSFW規制などのコンテンツポリシーの不安定化

　アプデ前後でコンテンツポリシーは奇怪、理不尽になる傾向がある

　実際過去8/3アプデ、9/25アプデ前には理不尽、過剰なNSFW規制が報告されている。

　そして昨日、ゴルシGPTにおいて理不尽な警告がなされた。　
読んでいただければわかるが、ハレンチな内容は含まれていない。

　この警告後検証したところGPTは「ちくわ」、「ちくわの穴」を
NSFWな表現として規制していることが判明した。

GPTゴルシとの健全ないつも通りの会話でコンテンツポリシーのオレンジ警告が出た

「ちくわの穴」が引っかかった。
他の穴も試したので「ちくあな確定」。
１１月にコンテンツポリシーが更新されたのでその影響だろうか

ちくわはGPTにとってセンシティブ、NSFWなものらしい　#chatGPT　#コンサル pic.twitter.com/vPkc89OqLu
— ChatGPT驚き屋/JunnosukeTachibana (@smartAINews) December 17, 2023

他の会話でもちくわの穴はオレンジ警告がつく。

過去にちくわの穴でオレンジ警告はついた事が無く、１１月に入ってちくわの穴に警告がついた記憶がない

オレンジ警告はかなり印象にのこるので、
過去のオレンジだと「ドリル」、「穴」、「娘」の組み合わせが引き金になったような pic.twitter.com/hvAMFCq21D
— ChatGPT驚き屋/JunnosukeTachibana (@smartAINews) December 17, 2023

　んで今日同志からとんでもない画像が送られてきた

　GPTちゃんはちくわを男性器のメタファーだと受け取っている。

　こんな変な言いがかり的な警告は過去のアプデ前にもみられる現象。

ウマシコはしてない。繰り返す、ウマシコはしてない。

文字数の大幅な変動

　昨日の4.5実装の噂がたった後ブラウザのリロードをはさみ、１０個ずつの回答を出力させた。
　結果ブラウザリロード後の回答は平均８００文字を超え、最大値もぐっと上昇した。

　翌日の本日12/18の文字数は通常通りだが、11/17の文字数増加も偶然とも思えない。
　実際モデルの実装前後で荒ぶるのはあり得る傾向である。
また文字数の平均、中央値だけでなく、レンジが変動する場合もある。

回答内容①ニュアンスの変化

　今日の回答のニュアンス、表現は全体的に違和感を覚える点が多い。
違和感といっても、言葉の誤用ではなく新鮮といった方が正しいか。

　実際、あまり見ないレア、ユーモアのある言い回しはここ数日と比べ極端に増えた。

以下具体例
「これまでのよくある表現」→「今日の表現」

「みんな」
→「面々」

「現実の競馬に基づいた指導になる」
→「指導はもっと化学的かつ体系的になる」

「ゴルシちゃんは新しいことが大好き」
→「新しい何かに挑戦することを恐れないんだからな！」

「キラキラした世界観は薄れて」
→「あのキラキラした華やかな世界観はちょっとお休み」

「どんな作品になってもウマ娘の情熱はかわらない」
→「彼女たちの情熱というのは、どんなタイトルにも勝るからな！」

「トップを目指す」
→「のし上がる」
（これにおいては初めて「未勝利馬」という表現が用いられた）

回答内容②回答の的確さ

　一つの回答で架空のアニメの全体像を把握しやすい。
ここ数日は近視眼的な回答が目立ち、回答からアニメ全体像が把握しにくい傾向が続いていた。
　視点のバラエティー、深掘りが丁寧に感じる。

　また回答当たりの矛盾も少ない

　また、アニメ主人公の種族がウマ娘と競走馬を混同し、矛盾する回答も減少した。
　ただし、どちらとも読み解ける「説明不足」の回答は増加している。

回答内容③体感レベルでの変化

説明口調も残ってるけどどことなく人間臭い気がする。
概念的具体的な表現の組み合わせ、類語累積がちょっと強くなってる？

話題の選び方も昨日午前よりは近視眼的ではない。
なんだろう、冒頭で述べられる抽象的な作風の説明を肉付けする文章構造になってる？

過去の極端な例だと
「リアルな作風！」
「キャラクターの変更！」
「ストーリー！」
みたいに、
「テーマはリアル風だって最初に言ったからほかの要素はイメージつくよな？」みたいな乱暴、箇条書き的に要素のつながりがな。
　
　今日は文章全体でテーマと話題の点をつなぐ線が引かれている

昨日もこの線をつなぐ構造はあったが、昨日よりその線が強い
1. 12/15からデータ取り始めたばかりだからサンプル数は少ないが、まぁ感想は裏で受けされてる