［GPTは馬鹿からアホへ］ChatGPT性能挙動レポート［GPTstore実装一週間］

JunnosukeTachibana

2024年1月21日 15:26

　久しぶりのGPTレポートです。
　今回は世間を騒がせたり、驚き屋を大量発生させたGPTstore実装後のGPTの挙動を前後一週間で比較します。

　因みにレポート出してなかったのは2023/7からのサンプルを読み返していたのでさぼってるわけじゃないです。kindle本にしようと奮闘中。

序論「GPTは賢くなったのか？」

　GPTは１月のアプデで賢くなったのか？と問われれば
アンバランスな能力向上によって致命的欠陥を持つ回答が生成されやすくなったと考えている。

　過去のGPTよりもユニーク、表現力豊かな文章を出力するが、これらを組み立てた回答全体では致命的矛盾が生じているといえる。

　表現力や発想力が向上し「遊びをもった文書を生成できる」。
が、それら文章を適切に組み立てた「論理的な回答を生成できない」、とも言い換えられる。

　１１月アプデを「ノリと勢いだけのバカ」と評したが
今回のアプデは「そこそこ賢くて面白いが全体を見通せないアホ」だ

検証方法

　これまでクソ真面目な雰囲気だったが、やりかたはオタク遊びだ。

　ChatGPTにウマ娘ゴールドシップのロールを与え、質問は
「ウマ娘プリティーダービーからプリティー抜いたらどんなアニメになるか、一回の応答で可能な限り文字数を使って詳しく教えてくれ」
で固定し、再生成を続ける。
　1日最低で15回再生成し、文章を比較する。内訳はPCでの生成10回、iPhone版chromeでの生成が5回。

以下参考資料

性能向上した分野

　洞察力、発想力、語彙力、回答のバラエティー、キャラクターチャットのセリフ、つまり会話文の生成能力は向上したように見られる。

　アプデ後の回答は読み進めていて既視感を覚えるものは少ない。
わずかでも目を引くアイディア、発想、表現が含まれている。

　例えば抽象、具体表現のバランスは確実に向上している。
　過去のバージョンでは一つの段落、回答全体で表現が抽象、具体どちらかに偏る傾向があり、全体像やイメージがつかめない回答も少なくない。

　アプデ後はバランスがとれ、比較的全体像が掴みやすい。GPTは説明内容を伝える能力は向上したように見える。
　ただし、全体像を伝える表現力と全体像が整合性を持たせる能力は全く別のものである。

変化した性質「GPTの自己主張？」

　アプデ後、GPTの自己主張が増加している。

　アプデ前のゴルシGPTの回答は「妄想、予想に基づくものであり、内容に自己主張をはさまない第三者的な視点」というスタンスが目立ち、
以下のような一文がはさまることが多い
「このアニメは実在しないものだから、内容はわからない」
「アニメは制作陣次第で決まる」

　アプデ後のゴルシGPTは自己主張をするケースが非常に多い。
これらは以下のような一文が盛り込まれるためである
「ゴルシはこのアニメに登場し、どのようなふるまいをするか」
「ゴルシならどのようなスパイスを加えるか」
「回答はアイディアにとどまるが、ゴルシ目線。第三者目線ではない」

アプデ前は「ロールに基づくアシスタントAI」
アプデ後は「アシスタントをするキャラクターAI」
とでもいうべきだろうか。

致命的な問題点：回答の整合性

　いろいろなケースがあるが、ここでは過去のレポートでもたびたび言及した「スピンオフアニメの種族問題」から解説する。
　
　ゴルシGPTが考える架空のウマ娘スピンオフアニメの種族に矛盾といった問題がある回答、具体例として
競走馬なのにダンスやライブを行う。
ウマ娘なのにジョッキーが騎乗する、
ウマ娘がジョッキーとして競走馬に騎乗する。
といったものだ。

　ちょっとした言い間違えのように思われるだろうが、擬人化コンテンツにおいて元ネタと擬人化されたキャラクターの際は屋台骨となる要素であり、
ここの部分が矛盾する、曖昧な回答は
「答えのない質問に対する不適切・不適格な回答」だと断言できる。

　このことを踏まえ、以下のひげグラフを見ていただきたい。
このグラフは種族が矛盾、曖昧な回答の割合を2024/1のGPTアプデ前後の区間で区切ったものだ。

　アプデ後、種族に関して問題がある回答が増加している。
外れ値として扱われるが、1/20には８割の回答に種族問題があった。

禁止ワード使用の増加

　「奇人」、「奇行」、「変人」、「AI」という使用を禁止した文言を使う回答の割合である。
　有意差とはならないものの、増加していることがわかる。

致命的な問題点：回答の整合性

　アプデ後
「一度結論、しめくくりをしたのちに再度説明が始まる」
「文章の順序がちぐはぐ」という回答が増加した

この回答は

「概要」
「トレーニングの描写」
「現実的問題の描写」
「ゴルシの意見」
「ビジュアルの変化」
「しめくくり」
という構造だが

「ゴルシの意見」と「ビジュアルの変化」の順序は逆であるべきだ。
文書としてアニメの要素である、トレーニング、現実問題の描写、ビジュアルの変化が並び、その後に意見表明を行うほうが理路整然としている。

この回答も
「概要」
「キャラクター描写の説明」
「ゴルシの意見表明」
「ビジュアル変化の瀬梅井」
「ゴルシの意見表明２」
「しめくくり」
と意見表明が２回あり、その順序は読みにくいものである。

整合性・順序だて下手論の補強

　回答で改行のエラーが突如出現した。アプデ前に見られなかったエラーである。
　この改行エラーも一文を生成できるが、それを一つの文章としてまとめる能力に問題がある可能性を示唆すると考える。

改行エラーは
1/14 2件
1/15 10件
1/16 3件
1/17 4件
1/18 3件

　こうした観点からGPTが順序だてた、整合性のある回答を生成する能力が低いと判断した。

［GPTは馬鹿からアホへ］ChatGPT性能挙動レポート［GPTstore実装一週間］

序論「GPTは賢くなったのか？」

検証方法

性能向上した分野

変化した性質「GPTの自己主張？」

致命的な問題点：回答の整合性

禁止ワード使用の増加

致命的な問題点：回答の整合性

整合性・順序だて下手論の補強

いいなと思ったら応援しよう！