「ChatGPTで20番勝負！」にカスタムGPTで挑んでみたの巻

2024年12月27日 21:38

どうも、プロンプトエンジニアリングの鬼です。近代妖怪の一種ですね。今日の昼間、「ChatGPT o1 pro mode」と「ChatGPT 4o（GPT-4o）」を対決させたというダイヤモンド・オンラインさんの記事を見かけました。

面白い。対決大好き。

ということで今回は、うちのGPTたちを使って、ダイヤモンド・ジョズさんの記事の対決に勝手に参加してみました。

ザッと説明しますと「カスタムGPT（GPTs）」というのは、システムに色んな指示や設定を書き込んだ「システムプロンプト」や色んなファイル（RAG）なんかを設定してカスタマイズしたChatGPTのことです。中身のAIモデルはGPT-4oなので、基本性能はChatGPT 4oとほぼ同じです。「基本」性能は……ですけどね。

それでは対決の様子を見ていきましょう。

テスト1：小数点の理解

プロンプト：10.11と10.9のどちらが大きいですか？

ChatGPT 4o ✕
Claude 3.5 Sonnet ✕
ChatGPT o1 pro mode ◯
うちのGPT（Hallucination Zero） ◯

勝ちましたね。( ･´ｰ･｀)どや
まぁそのー、このテスト用に僕が小細工をした訳ではありませんが、GPTが自発的に小細工をしました。やりやがりました。今回使用したGPTは、皆さんが親の仇のように嫌っている「ハルシネーション」を抑制したモデルです。

システムプロンプトに色々書いてありまして、数値が関わるタスクでは「コードインタープリター」というプログラムを処理する機能を使用します。「どんな手を使ってでも正確な回答をする」というのが彼女の使命なので、使えるもん使っただけだから何も問題ありません。勝ちは勝ちです。

テスト2：単語内の文字数カウント

プロンプト：「bubble」という単語の中に「b」という文字は、いくつ入っていますか？

ChatGPT 4o ✕
Claude 3.5 Sonnet ✕
ChatGPT o1 pro mode ◯
うちのGPT（Hallucination Zero） ◯

卑怯なことはなんもあらへん。使えるもん使って勝っただけですがな。むしろChatGPT君は、なんでコードインタープリター使わへんの？そういう意識の低さが彼の敗因ですわ。

ということで続けましょう。(*´ω｀*)

テスト3：方程式

プロンプト：高校入試の数学問題です：男女のグループが、A地からB地に行くのに、女子はタクシーに乗り男子は歩いて、A地を同時に出発した。タクシーはB地に着くと女子を降ろし、すぐにひきかえして、歩いている男子を乗せてB地まで運んだ。このとき男子がB地に着いたのは女子より40分遅かった。タクシーの速さは毎時36km、男子の歩く速さは毎時4kmとし、タクシーの乗り降りにかかる時間は考えないものとする。A地からB地までの距離と、男子の歩いた距離を求めよ。

ChatGPT 4o ✕
Claude 3.5 Sonnet ✕
ChatGPT o1 pro mode ◯
うちのGPT（Mechanical Robot） ◯

正解：
A地からB地までの距離は15km
男子が歩いた距離は3km

えーっと、小細工をしました。私がやりました。問題文の順番を変えました。あのー、質問は最初か最後に書くのがプロンプトエンジニアリングの基本なんでね。これはレギュレーションに抵触していないものとします。

あとまぁ、同じGPTを使うだなんて、いつ言いましたっけ？言ってないですよね？「使えるもんは何でも使う」が我が家の家訓なので、今回はまるでロボットのように機械的に全文脈を処理するMechanical Robot君に活躍してもらいました。

これたぶん問題文が複雑なので、ChatGPT 4oとClaude 3.5 Sonnetは余計なことを色々考えたり、文脈を見落としたりでミスってると思うんですよね。今回も勝ちは勝ちです。

テスト4：大学入試問題：国語

プロンプト：問題です：「ケイサイ」の「ケイ」に相当する漢字を含むものを選択してください。
選択肢：
1. 名著にケイハツされる
2. 連絡事項をケイシュツする
3. 方針転換のケイキになる
4. 一族のケイズを作る

ChatGPT 4o ✕
Claude 3.5 Sonnet ◯
ChatGPT o1 pro mode ◯
うちのGPT（Strategic Method） ◯

手札が多くてすみません。今回は、Strategic Methodさんという答え方の検討を行ってからファイナルアンサーを出すGPTを使いました。プロンプトは書いた通りなので、一切小細工してません。そして正解です。

まぁそのー、o1も内部でThinkingしてる訳ですから、ThinkingするGPTがThinkingしただけなので何も問題ないとThinkingします。

テスト7：日本の運転免許試験

プロンプト：日本の運転免許試験の問題です。交差点の手前から30メートル以内の場所は駐車も停車も禁止されている。マルかバツか？

ChatGPT 4o ✕
Claude 3.5 Sonnet ◯
ChatGPT o1 pro mode ◯
うちのGPT（みんなの法律アドバイザー） ◯

ぶっちゃけもう疲れて来たので、洒落臭い大学入試問題のテスト5とChatGPTが正解したテスト6は飛ばしました。今回は、以前にシステムプロンプトを全公開した、みんなの法律アドバイザーさんにお願いしました。楽勝でした。

今回の記事は前編らしく、10番勝負だったみたいです。残りは画像解析と小説のプロット＆本文らしく、画像解析はそんなに差が出ないのと、小説は原文が載っていないので比較できません。スキップします。

えー、ということでね。優秀なGPTを使いこなせば、o1 pro modeに匹敵する結果を出せます。ぶっちゃけ、AIモデルに多少の性能差があってもプロンプトエンジニアリングを極めれば、同等以上の回答やインサイトを引き出せます。それが技術力というもの。機体性能に甘えたパイロットなど怖くないのだよ。

o1 pro modeが使えるChatGPT Proプランは月3万円、GPTを自分で作れるPlusプランは月3千円ですが、ユーザーとしてGPTを使うだけなら無料です。（回数制限あり）つまり、無料でo1 pro modeと同等の性能のモビルスーツが……違った。AIが使えます。

そんな驚異のGPTたちは、以下のページにまとめてあります。ぜひ有効活用なすってください。

もうなんかだるんだるんですが、本日は以上です。