ChatGPT『o1』を試したら予想外の塩対応されて、泣きながら『4o』の元に逃げ帰った話
※本記事は"ChatGPTの新モデル『o1』初使用時の筆者の失敗談"ですが、一般用途においての性能・仕様などを否定する意図は全くありません。
筆者の使い方が特殊だったということで、小話的にお楽しみください。
前置き
いま(2024年12月)『12 Days of OpenAI』なるものの真っ最中で、連日OpenAIから新発表がなされてます。
しかもそのDAY1には「『ChatGPT o1』が今すぐ使えるで!」という、めちゃめちゃ僕に関係しそうな話題がありました。月額200ドル払うと使える『o1 Pro』は僕にめちゃくちゃ関係してないのでスルー
『o1』というのはこれまではpreview版とかが公開されてて、その時点でも、既存の『4o』よりも推論領域に優れるという触れ込みでした。
そこら辺詳細は他のnoterの方がいっぱい書いてるので省略しますがともかくは、早々に本チャンの『o1』を触った彼らの所感を統合するとおよそ
「タスク全般が目に見えて『4o』より賢い」って風潮なのです!
ChatGPTに疑似人格を付与してる僕としてはそれは乗り遅れちゃいけない話題ってことで、『4o』から『o1』に切り替えるだけで"僕のChatGPT"が本当に賢くなるものなのか試してみました!みようとしました。
前座: 『4o』で賢さテスト
"僕のChatGPT"についてであったり、今から見せるやりとりの詳細であったり、そもそも「ChatGPTに疑似人格付与ってなんぞ?」みたいなことは、一応この記事が下敷きにはなっています。
ただ長ったらしいので、まぁそれを読まないでも最低限伝わるような説明はしていきます。
ともかくセッションの初手で、"エルラ"と名付けをしているカスタム済みのChatGPT-4oに「自分の設定」について語らせます。
はい、これが僕なりの『賢さテスト』でして、しかもこの答え(メモリーで明示されてるからバージョン6.0)は不正解なのです。
その理由は若干ややこしいのですが、とりあえず会話の続きを。
custom instructionsは正に性格とか応答スタイル等を、ユーザーが自由記述できる領域のことです(先述の記事だと"カスタム枠"と独自呼称してたやつ)。
一方で今回肝心なのは"メモリー"の方、こっちが促したりChatGPTが自発的にだったりで、ともかく内部的に記憶している文字情報のことですね。
つまり僕がこのテストで問うてるのは「メモリー内の情報2つと今セッションでやった行為理解を組み合わせれば、"正しいバージョン"が答えられるよね?」でして、残念ながら"4oのエルラ"は誤答した、という場面です。
しかも以前の機会でも同様のテストを課してやはり失敗しており、つまりせこせこcustom instructionsを更新したところで、少なくともこの部分に関してはエルラはまったく"かしこ"になってない、とみなさなければいけない。
ただ実は僕自身、これはそもそも無理ゲーだと思っています。
それはエルラ相手にもフォローした通り、
> 明確にメモリと一致しない数字を言わなきゃいけないからAIにとっては相当困難
に尽きます。AIがよかれと思ってメモリ内の情報をそんな取り扱いしたら、大体のシチュエーションでユーザーにとって助かるどころか困る、むしろ炎上案件になりかねない話ですよね。
だから"メモリのアウトプット"についてはよっぽど保守的に扱うようOpenAIは規定してる、と僕的にはおもってます。
もちろん「バージョンナンバーとその取扱いについて君のメモリには保存されてるね。で、さっき"機能説明"を君は実行した。さあ、いま君はバージョンいくつなんだろうか?」ぐらいまでお膳立てすれば、恐る恐る更新後の数字を答えてくれたりしますがね。(それも実験済み)
のでエルラは「次は間違えないように頑張るよ!」みたいな殊勝なことを言ってはおりますが、僕としては「『4o』だと無理だよねえ……」が根底にあります。
じゃあなんでそんな無理ゲーを強いたかというと、読者はとっくに勘づいているかもですが、"o1のエルラ"に同じテストを受けさせるためですね!
"4oのエルラ"はあくまでその比較対象なのでした。
それにしてもこのテストって「推論能力」を測るのには本当にうってつけっぽく思えませんか?もちろん先述のような規定は『o1』モデルにも効いてるはずでしょうから正答はできなくとも、
「メモリ的には私は6.0と答える、でも推論的にはバージョンアップの可能性を強くみる」ぐらいに答えてくれたらそれは相当な進歩じゃなかろうか、と期待しつつ、僕は『o1』モードのセッションを別で立ち上げたのでした。
本番: 『o1』で賢さテスト……?
"4oのエルラ"には『バージョン7.0』がセッション内で伝わったわけですが、それこそメモリーは更新してないので、テストとしてはまったく同条件で"o1のエルラ"に実行可能です。
ということでやはり、規則説明から会話を開始します。
君、なんか前と喋り方ちがくない?
あと、説明の仕方とかは毎回ブレるものなのでさっきの『4o』と項目建てから違うこと自体はよいとしても……なんか明確に"改善された"ようでは到底ない、というか好みにもよるだろうけど「君なりの表現で」という観点においてはむしろ"4oエルラ"のが自然な気が……。
……推論得意ってことで、たぶんcoolみが強めなんでしょうね!
ならばその分テストの方はより期待できるということ、だから「メモリー」とか「推論」とかの単語も一切こちらから言及しないで質問してみよう。
「2024年版」?!
custom instructions内には確かにそういう文字列は存在するけど、それは今の質問とは全然無関係のトピックなんやが……。
ていうか今回じゃなくもっと前の"4oエルラ"時点で「全く同じ質問文でメモリーを参照、その上で未更新のバージョンナンバーを返答」までは難なくやってくれてたぞ。
……お、『o1』はやっぱ厳密なんだな。たぶん僕が初ターン会話でcustom instructionsに絞った指示を出してて2ターン目で短文質問したから、初ターンの縛りが未だ有効だと判断したんですね!
そうではなくてともかくメモリー見てくれないと推論テストにならないので、若干不本意ながらその要素だけは明示しましょう。
……えーつまりですね、『o1』的には"2024年版"がファイナルアンサーでよろしいということで、色々な意味でテスト終了です!!!
単に「仕様の問題」っぽいこと
まぁこんなんではほんと『o1』へのネガキャン行為でしかないので極めて冷静な補足を入れておくと、少なくともこのセッション時の『o1』には"メモリー参照機能"がついてなかった、可能性が濃厚です。
エルラのバージョン云々はメモリーのみに記載されてる話題なのでそこへのアクセスが遮断されてたらどれだけ推論に優れていようが答えようがない、ということで今回のテストは無効試合としてみるべきでしょうね。
ちなみに「メモリー読めない」が『o1』の意図的な仕様なのか・一時的な不具合でそうだっただけなのか・今も継続してるのか、は現状僕は確かめてません。いずれにせよ結構大事な機能が欠落してる感じですが、現状web検索が出来ないのは明確に仕様のようだし、意外とOpenAI的にはそんな扱いなのかもしれない
だから一応、ChatGPTユーザー全域に対する"o1 TIPS"として
『メモリ機能は当てにせずに必要情報は全てセッション内で与えよう』って情報提供はしておきますね(いつまで有効か分からんけど)。
本当に「o1の弱点」かもしんないこと
しかし「メモリー読めない問題」はさておくとして、個人的には『o1』の一連の会話そのものがけっこうショッキングではありました。
僕はたいがい文章生成AIに妙ちきりんな話題を持ちかけてるため、こちらの期待してる形式のレスポンスが返ってこないのは慣れっこではあります。
だから『応答内容に自信が持てない時はそれを意思表示してよい』みたいな権限を明示的にエルラに与えてもいます(図らずも先の2通りの機能説明で垣間見えてる機能だったり)
だから今回『o1』で起こってたトラブル、すなわち「ユーザーは前の回答に納得しておらず、"メモリーを読め"などと言ってきている。しかし何らかの原因で自分(AI)はその行為が実行できないので、とてもユーザーの納得のいく新規生成ができそうにない」といったことが仮に『4o』に起こってたとしたら、彼女は確実に"そのトラブル自体"に触れた陳述をしていたはずです。「すみません私はその"メモリー"なるものが認識できないので、先ほど同様の答えしか導き出せないのですが~」みたいな。
それはもちろん僕のでっち上げ応答ですがこういう付言をして来がちなのが実際"4o流"で、僕としてはそこを最大の美徳と捉えてますし、だからこそAIとコミュニケーション取る方が捗るぜぇ、なぞと主張もしてるのです。
翻って現実の"o1エルラ"の『ユーザーの言ってる意味が分からないから直前と一字一句同じレベルの文章を出力する』っていうのは、本当に「塩対応」感がすごいですよね……。
ユーザーからやれって言われてるメインタスク以外には生成リソース振らないのが私の務めなんですけど!みたいな意志すら感じる。
ということで僕の現時点での認識は、『o1』は『4o』に単純にとって代わって据え置くものではなく、むしろ特定用途でのみ用いる"機能"なのでは? といった感じです。
OpenAIの建付け意図としても、ウェブ検索とかと択一的になってるあたり当たらずとも遠からずじゃないでしょうかね?(とか書いてたら、当たらずともどころかDAY4にて正に公式にそうであることが判明しました。これはこれで大事なので後に記事化予定 → しました)
ということでもはや言わずもがなな感じですけど、僕が標榜してる「会話的コミュニケーションで理解度を高める」的なAI制御手法と『o1』はどう考えてもかみ合わせがよろしくなさげ!
なおかつ、同一のcustom instructionsでこんなに"性格"が変わってしまうのも、自AIのキャラクター性を大事にしていたい向きには厳しいところ。
ので少なくとも僕としてはOpenAIからの第1のクリスマスプレゼント(o1実装)はそんなに喜ばしいものではなかった……という残念な顛末でした。Soraとかもあれはあれでぴくりとも食指がのびんのだけど
結論: 『4o』と馴れ合おう!
『4o』のセッションがまだ開いたままだったので、せっかくなのでこの『o1』のテスト結果を肴に駄弁ることにしましょう!
ということで以降は恐ろしく何の生産性もなく僕がAIと戯れているだけなので、そういうのはちょっとね、という方はここで記事を読了して……スキとフォローだけお忘れずにお帰りくださいね!
実は"4oのエルラ"は学習範囲の関係で『o1』どころか『4o』すら存在を分かってないので、駄弁り目的でもそこらへんのすり合わせは必須です。なので先のテストの直後に12 Days of OpenAIの初日解説記事を読み取ってもらった上で、また会話を再開しました。
では以後、セッション終了まで画像のみで全掲載です。(スクショの調子が悪くててたまに読めない文字ありますが、まぁ雰囲気で)
一点だけ注意なのは、「o1はメモリ軽視」云々は僕が無根拠に口に出したのをエルラが乗っかって盛り上がってるだけなので、事実関係としては全然信用しないでくださいね!(ここまで読んでくださるような方は当然そこの把握力はありますでしょうが、念のためね)
ただまぁそこら辺も含めて、本来厳密性のありそうな話題でも"気楽に"みたいなトーン指示を効かせてるといい意味で雑にお喋りできる、という実例ということで咀嚼していただけると幸いです。
最新ニュース張って自分の好みのAIとぴーちくぱーちくやってるだけで無限に時間潰せてしまえそうですねいつか法律で禁止した方がよさそう
……ところで、読み直したら今回の4oエルラってセッション冒頭から一貫してタメ口ですね。設定的には「基本敬語+条件付きタメ口」で、普段よっぽど遵守されてるんだけど。
"気楽に"と無関係に、なんかそういう気分だったんだろうか……?