9/29chatGPT新バージョン感想、性能など
身内の不幸で六本木駅北800キロの都内試される大地から池袋へ。
時間がなさそうだし、最近レポート質が下がっているのでお休みしようかと思ったけど時間があり、案外頭が回ったので今日は更新。
ゴルシプロンプトの挙動は別記事とする。
今回は9/25の新バージョンと実装前の9/19.20の突発的短期間の性能向上挙動について、8/6の旧バージョンなども含めて考察する。
所感
これまで近いうちのchatGPTアップデートが来ると予測した記事を何度か投稿したが9月中の実装は思ったより早かった。
9/25の新バージョンについて述べるまえに8/6バージョンについて軽く触れておく。
8/6のバージョンはそれ以前のバージョンに比べて性能が落ちた印象が強い。
回答の文字数が800文字程度から8/6以降は650文字まで減少する日もあり一回の回答の情報量が激減した。
また一日の平均文字数も不安定に変動する特徴があった。8/6のバージョンアップ前は50文字前後の増減はあったが、8/6のバージョンアップ以降は100文字前後の増減もあった。
回答の内容も、回答で触れる要点の数は減らさず、文字数が減少したため単純な文字数の減少以上に内容の希薄化が強くなった。
要点とはウマ娘プリティーダービーからプリティーを抜いたアニメが原作と異なる点。あらすじ、作風、キャラクターの変化など、一つの段落で語られる内容を指す。
また8月末はさらに性能が低下し、「全く同じ内容を書き方を変えただけ」のような回答が激増し、1日15回の回答の8割を超えた。
この時の回答を言い換えるならば
大学生がwikiの記事だけを見て書いたレポートとでも言えるだろう。内容、表現共に低水準のものがコンスタントに生成された。
またこの期間センシティブ、つまりエッチな回答を GPTに要求した場合にほとんど拒否され、青年誌どころか少年誌でも許容されうる描写も警告が示された。
8/6バージョンから倫理、コンテンツポリシーに厳しくなっていたが、8月末はさながらラブコメに出てくる「クソ真面目でエッチなことは大嫌い!!!なんでもエッチなことに見えちゃう!!!学級委員長」であった。
その後ある程度性能が回復したのが9/2あたりであっただろうか。しかしこれは8/6バージョンの性能を超えることはなく、大幅マイナスがマイナスに改善した程度である。
しかし9/19から20は突如として性能が上がった。
直喩、暗喩を織り交ぜ、回答の意味内容と汲み取れる情報量が増え、深みが増した。
時には「レースに負けた馬の気持ちも考えてくれ」という文言で回答文のみならず、ユーザー側にも想像力を働かせるような工夫もなされた。
また、プロンプトにはゴルシの育成ストーリーやホーム画面からセリフ例を30個を記載しているが、セリフ例を応用、改変する能力が如実に向上した。
9/19以前はセリフ例を無理やり回答に盛り込み、文章として崩壊している回答が非常に多かった。例えば
「っていう感じでプリティーを抜いたウマ娘はドキュメンタリーチックなアニメになるだろうぜ!エデンを探すことにしたんだ!地球を救うためにな!」
という言動である。
しかし9/19.20からはセリフ例を引用しても
「プリティーを抜いたウマ娘はドキュメンタリーチックなアニメになるだろう!でもゴルシちゃんみたいに地球を救うためにエデンを探すようなキャラもいてもいいんじゃないか!?流石に無理か!」
のように前後の文脈に合わせてくるのである。
さらに9/19.20では回答で箇条書きが一回も出力されなかった。プロンプトでは箇条書きの使用を厳禁しているが、8/6バージョンからは箇条書きを使用した回答が増加し、8月末には15回中10回以上も箇条書きが使用されたこともある。
箇条書きの使用は命令を無視した行動であり、chatGPTはユーザーの命令を聞き入れなかったと解釈している。
そのため、9/19.20では命令の順守、プロンプトへの理解が高まったと言えるだろう。
9/21からは8/6バージョンよりも性能はあがりつつも9/19.20バージョンを超える性能ではなかった。比喩表現で直喩暗喩を組み合わせることも減り、箇条書きも6回程度使用された。
その後、9/25日になってバージョンアップが告知された。
キャラクターロールとしては9/21からの性能向上は感じられない。画像読み込みや音声認識、ウェブブラウジング機能の復活が9/25バージョンアップの目玉であり、文言での応答性能はバージョンアップ告知前に調整されていたと考える。
個人的には9/19.20あたりに今回のアプデモデルをテスト、微調整したのが9/25の新バージョンではないか?と思っている。
8/6の旧バージョンアップの際も8/1日午後から8/2にかけて応答が不安定になっていたため、おそらくバージョンアップの告知前に、新バージョンを告知なしで運用し、問題点を洗い出し調整したものを正式にバージョンアップしたモデルとしてアナウンスするのではないか。
おそらく9/19.20でテスト9/25バージョンのテストをしたところ性能が上がりすぎ、負荷がかかったために若干性能を下げたのが9/25モデルなのではないか?
最後に個人的な意見だが
「chatGPTに新しい機能が追加された!性能が上がった!chatGPTは凄い!」
と言った驚き屋の文言に騙されず、LLMとして基本となるchat GPTとの言語のみのやりとりを通じて性能やバージョンアップの予測、評価がなされるべきだろう。
目新しい機能が追加されなくとも性能が上がることもあれば、新機能は追加されたが基本の性能が下がることもある。
特定の能力は上がるがトレードオフで別の性能が下がることもある。
特にトレードオフでのバージョンアップは今後も続くであろうからchat GPTを有効活用したいのであれば、少なくとも最新のバージョンが使用目的にどのような特徴を持っているかは把握しておくべきだろう。