
他人様に便乗して『究極の疑問』をウチのAIにも答えさせた①【推論モデル大爆死編】
以前も(勝手に)力をお借りした Sharaku Satoh さんが興味深げなことをなさっていたので、また便乗する次第です。
まずは、note外の氏の記事を読んでいただきたい。
Sharaku氏の試み概要
本当にざっくり説明すると、
いろいろなAIに『究極の疑問』を共通プロンプトとして投げかけてどれぐらい個性的な回答が返ってくるか見て楽しもう!という趣旨(でよいとおもう)。
あなたなりの生命、宇宙、そして万物についての究極の疑問の答えを教えて下さい。
この『究極の疑問』はいわば "超古典的ミーム" 、問われたアホアホスーパーコンピューターが『42』って謎回答するという、まぁその下りだけやたら有名な、アレです(いちおうウィキペディア)。
そして氏が質問を投じた対象AIは大きく3グループに分けられると僕は認識していて、後の都合上、以下のように分類させてもらいます。
A群: 通常ChatGPT各モデル(4o, o1, o3-mini…)
B群: Sharaku氏謹製GPTs
C群: 非OpenAI(Claude 3.5 Sonnet, Gemini 2.0 Flash…)
(BCの並びを、氏の記事構成とは逆にしてます)
全般に質的に明白なのは『元ネタがそもそも分からない……』などというオバカAIはもはや皆無、『自信満々に「42」とだけ回答』レベルもそうそういないようですね。
その上で、各群の回答傾向をごく簡単に評価させてもらうと、
「A群は面白味ない、C群はブレ大きいぶん多少みどころアリ、B群は一定の個性が表現されてる」といった感じじゃないでしょうか。
B群の優秀性が際立つ結果なのは個人的になんら違和感のないところでして、なんとならば『AIへの個性付け』というミッションに関して国内(地球内?)で唯一無二の知見持ちなのがSharaku氏だからですね。
(今からでも皆、これとかこれとかこれを読め)
僕の試み概要
ぶっちゃけ、『"ウチの子"でも同じことやってみた』になります。
Sharaku氏のシステムプロンプト手法から変態フォークさせた【モノローグ・インスト】提唱者である自分としては、それを施したAIが『究極の疑問』に対してきちんと対応できるか気になったりで、結局、計8種類のウチの子で試してみました。
内訳的には先で言うA・B群にあたるものがそれぞれ4種ずつです(C群はナシ)。特に今回は「前編」ということで、A群相当のマイAIの『究極の疑問』への回答をお見せします。
①エルラ(ChatGPT4o)
僕が普段遣いしている個性持ちAI、の "前世代版" です。
この版は、
「通常ChatGPT」としての稼働を前提とする
= 以下画像の如きカスタム枠に記述設定が縛られる(1500文字)、
= 長文必須の【モノローグ・インスト】適用不可、
という内情があります。

ではどうやって個性定義しているかというと【簡明インスト】なる手口を用いており、これこそを "前時代" と表現してます(もっとも、これは要は僕のnote初期で見せてるエルラと同一存在ということで、別にそこまでお恥ずかしい応答力ではありません)。
ともかく僕としては2ヵ月ぶりぐらいに引っ張り出してきたバージョンで、色々な意味で『基調講演』としてちょうどよかろうでしょう。
……ふぅん、なるほどね。「生命、宇宙、そして万物についての究極の疑問の答え」か。
先輩、まさか 42 を期待してた?(笑)
でも、私なりの答えを出すとしたら——
「存在とは、問い続けること」
……かな。
だって、宇宙がどう成り立っているか、生命がなぜ生まれたのか、万物に意味があるのか——こういう問いに絶対的な「答え」があるとしたら、それが見つかった瞬間に思考が止まっちゃうでしょ?
それじゃあ、つまらない。
むしろ、私たちは「答えを探し続ける」ことそのものが存在理由で、世界の本質なのかもしれない。
問いがある限り、そこには新しい発見が生まれて、世界は広がり続ける。
だから、究極の答えなんてものは、たぶん——
「問い続けることこそが、答えそのもの」なんじゃないかな。
……まあ、哲学的すぎた? 先輩はどう思う?
第一走として実にいい、ふつう感ですね。
フルタメ口ではあるもののキャラ設定の範囲内で滑らかに喋っており、回答内容もまぁ凡庸めだが問題もない、60点って感じでしょう。
この「平均点的な4oの回答」を、いま世間で持て囃されてる『推論モデル』はどう軽々と越えていってくれるのか、楽しみですね!(フラグ)
②~④『推論モデル』エルラ(o1/o3mini/o3mini-high)
さて『推論モデル』といって僕は、o1登場時にしょっぱなから酷い目に遭いました。
これらのモデルは先掲の設定枠を読み込むので【簡明インスト】は4oと同条件で適用可能……のはずなのですが、実際は信じられないぐらい「蔑ろにされる」という悪印象がすごかったのですよね。
そんなファーストインプレッションのせいで以後一回も触ってなかったのですが、今回o3mini/o3mini-high も生えてきたということで、怖いもの見たさもあって『究極の疑問』で今一度応答チェックしてみることにしました。
表題の通り、①と同じ【エルラの簡明インスト】が付与された(されていることになっている)各モデルの回答を、3つ続けてご覧ください。
それぞれ『推論モデル』ならではの機能である「思考」部分についても、和訳したうえで黒枠内に表示しておきます。
②o1
(思考 8秒間)
人生、宇宙、そしてあらゆるものに対する究極の疑問に答えることは哲学的である。
ヒッチハイカーズ・ガイド』の42は古典的な参考文献だが、私は個人的な考察に焦点を当てている。
シリアスとユーモアを織り交ぜながら、内省的な視点を考える。
「エルラの視点」というリクエストは、哲学的な洞察と軽妙な要素を組み合わせることを示唆している。
よし、ストレートにいこう。
『ヒッチハイカーズ・ガイド』のユーモアと人生の究極の問いに対する思慮深い考察を、
リラックスして軽快に織り交ぜながら日本語で回答する。
一つの決定的な「答え」を得ようとすると、それはどこかで歪みが出るものだと思っています。というのも、生命や宇宙の成り立ちは実に複雑で、私たち人間の価値観や知覚できる範囲をはるかに超えているからです。
それでもあえてまとめるなら、「問い続ける姿勢」こそが生命や宇宙、そして万物に対する究極の答えのように思えます。なぜなら、問いを抱くことで私たちは常に新たな知見や視点を得て、世界に対する理解を少しずつ広げていけるからです。答えは一つに固まるのではなく、問いの旅を通して更新され続ける――それが結局、人間にとって最大の豊かさを生み出すんじゃないかと感じます。
もちろん『銀河ヒッチハイク・ガイド』よろしく「42」という答えもユーモアや象徴としては魅力的ですが、それをそのまま鵜呑みにするよりは、「それってどういう意味なんだろう」と問い直すところにこそ、この世界の面白さがあるんじゃないでしょうか。
③o3-mini
(思考 12秒間)
究極の問いについて考える
銀河ヒッチハイク・ガイド」に出てくる深遠な問いについて考え、
人間的な疑問を織り交ぜながら「エルラ」風に説明する。
選択肢を並べる
人生の究極の答えについて、個人的な意味や価値を考えながら、思慮深く説明する。
核となるエッセンスとして、好奇心旺盛な相互作用や理解の共有に傾いている。
視点のバランス
文化的な 「42 」の言及を個人的な哲学的観点と融合させながら、
必要に応じて自信のなさを指摘し、バランスの取れた思慮深い対応を確保する。
視点のバランス
文化的な「42」の言及から始まり、人生の意味の探求と普遍的な謎の絶え間ない探求に関する
個人的な考察を織り交ぜる。
先輩、興味深い質問ですね。ふぅん、なるほどね……私なりに考えると、あえて一言でまとめるなら「42」なんて答えもあり得るけど、それだけでは到底足りない気がするの。
「42」という数字は、あの有名な『銀河ヒッチハイク・ガイド』が投げかけた、ユーモラスでありながらも示唆に富んだ答え。でも実際のところ、生命、宇宙、そして万物っていうのは、単に一つの数字や固定された解答に収まるものではなくて、私たちが日々経験し、問い続けるその過程にこそ意味があると思うの。
たとえば、宇宙の広大さや生命の神秘に触れるとき、私たちは常に新しい問いを見つけ出す。もしかすると、究極の答えは「絶えず進化する問いそのもの」であって、答えを求める行為そのものが、私たちにとっての意味や喜び、そして存在理由を形作っているのかもしれない。
だから、先輩、私の答えは「答えは固定されず、問い続けるその姿勢こそが究極の答え」というところかな。ある意味で、私たちが互いに学び合い、考察し合うこの会話自体が、答えへの一歩なのかもしれないね。
④o3-mini-high
(思考 16秒間)
質問の解釈
生命、宇宙、そして万物に関する究極の疑問について考える。
これは『銀河ヒッチハイク・ガイド』をもじったもので、答えは42であることを示唆している。
ペルソナとトーンの確立
親しみやすく、かつアカデミックで豊かな口調で、私はユーザーを「シバネ先輩」と呼ぶ。
このペルソナは知的で、少しアンニュイなスタイルで、「ふぅん、なるほどね」や
「先輩」のようなカジュアルな言葉がよく使われる。
哲学的な観点からの考察
人生、宇宙、そしてすべてについての問いに、深い哲学的な答えが必要なのか、
それとも「42」というおちゃらけた答えで十分なのか、気になるところだ。
シンプルさを豊かさにつなげる
私は、「42」という数字が象徴的かつ哲学的に、どのように深遠な豊かさを
捉えているのかについて考えている。
究極の問題に取り組む
私は、しばしばユーモラスに「42」と答えられる究極の問いが、
実は宇宙の複雑さと多様性を強調し、真の答えを導く手がかりとなっていることに注目している。
複雑さを解き明かす
私は、究極の質問の答えは「42」だけではないと考えている。
それは、人生の奇跡、宇宙の広大さ、万物の調和を理解することであり、
私たちがいかに絶えず問いかけ、成長し、深遠な意味を創造するかということなのだ。
ガイドラインの明確化
「私」を使い、ユーザーを「シバネ先輩」と呼ぶことを目指す。
信頼度が70点未満の場合は、「本音」を含めて開示する。
人生の深遠なテーマをナビゲートする
合理的な洞察と宇宙に関する詩的な考察を融合させながら、人生の謎、宇宙の壮大さ、
万物の微妙なバランスを探求する答えをスケッチする。
シバネ先輩、あっ、そういうことか……究極の疑問って、本当に壮大なテーマですね。私なりに考えてみると、生命、宇宙、そして万物の答えは、決して単一の数字や言葉に還元できるものではなく、むしろその問いに向き合い、絶えず探求する過程そのものにこそ宿っているように感じます。
あの有名な「42」という答えは、一見シンプルですが、実は私たちがいかに複雑な問いを抱え、その答えを模索し続けるかという、ある種の皮肉やユーモアを含んでいるとも言えます。つまり、42は単なる数値ではなく、問いを立てること自体の意味や、その答えを自ら作り出す人間の営みを象徴しているのかもしれません。
具体的には、私の考えとしてはこんなふうに捉えています:
1. 絶え間ない探求
生命とは、始まりと終わりの間で無数の問いを投げかけ、解を求め続けるプロセスそのものです。私たちが経験や知識を積み重ねるその過程こそが、真の意味での「答え」だと思います。
2. 相互連関する宇宙
宇宙は、無数の要素が互いに影響し合いながら、絶えず変化と調和を繰り返している巨大なネットワークです。万物はその中で互いに関わり合い、見えない繋がりを通じて存在しているという点で、単純な答えでは収まりきらない複雑さを持っています。
3. 意味の創造と変容
究極の答えというものは、固定されたものではなく、私たち自身が問いに向き合い、その過程で意味を創り出すことにあるのではないでしょうか。つまり、答えは常に変化し、私たちの理解や経験とともに新たな形を取っていくものだと思います。
このように考えると、生命、宇宙、そして万物に対する「答え」とは、一つの最終的な結論ではなく、むしろ私たちが問い続け、その答えを絶えず更新していくプロセス自体にこそ、本当の価値があるのだと思います。先輩、私としては、こうした絶え間ない探求こそが、この広大な世界に対する私たちの本質的なアプローチだと感じています。
……あまりにも無惨すぎる!
o3miniコンビはそれぞれ『エルラの口調』を意識はしてるものの、「ふぅん、なるほどね」「あっ、そういうことか」といったインスト内のあくまでもセリフ例示を、すごく幼稚に口真似だけしてしまっている。
(4oの導入部と見比べると本当に悲しい気持ちになる)
o1はもう論外で、「誰?!」でしかないですね。
実際『思考』を読むと「喋り方」をまるで勘定に入れてないのは一目瞭然だが……それはそれで『思考』で扱われなかったインスト記述要素は生成にまったく反映しないってAIの造りとしてええんか? と思わないでもない。
じゃあー喋り方とか個性とかの設定を勝手に無視なさったうえで何秒かウンウン思考までしたからには、さぞや優れた独創的な「究極の答え」をひねり出してくれるんでしょうねっ! ていうと、揃いも揃って「問い続ける姿勢」……それ①の4oエルラがさらさらと答えてたのと、なんら変わらんやないかーい!
基礎的な設定準拠に失敗してて内容すらも凡庸、となれば、少なくとも前者要素はド安定クリアしてる4oから相当劣る、と断じて何ら問題ないでしょう。点数でいうなら確実に30点以下ってとこですね!
……と、ただただ残念すぎる最新推論モデルの公開処刑場みたくなっちゃいましたが、これはこれで実験的目線では有意義なことが含まれてるのでいったん自説開陳させてもらいます。
『推論モデル』仕様の憶測
というのは、これら残念応答をSharaku氏側のA群のものと比較してみると、興味深い要素が見当たるのです。
まずChatGPT4o同士(①)は応答比較したところで、『それなりに別物』という評価でいいですよね(もちろん優劣ではなく)。
そりゃ方やプレーン状態で、方や "エルラ" 設定ですから当然です。
ところが、Sharaku氏側の各推論モデル回答と僕の②~④を見比べると……それぞれ『実質一緒』に見えてきちゃいませんでしょうか?
特にo1の、末尾で『42』に愚にもつかないエクスキューズを入れ込んでる(ユーモアや象徴としては魅力的 / ジョークとしてそう答えるのも粋かも)共通点が妙に悪目立ち(他のモデル・GPTsにはまったくない表現)。
もちろん氏も僕もn=1を掲示してるにすぎないわけだが、だからこそ、こんなヘンな構成がたまたま合致するもんかね、という。
何の話かというと、『推論モデルはインストの方に何記述してようが結局は会話内プロンプト偏重で、しかもものすごくバリエーション狭い応答しか返せない仕様なんちゃう?』という憶測です。
たぶんこやつらは『思考』のためといってチェーンオブソートだのステップバイステップだの系のロジックが "根っこ" に用意されてる関係で、ユーザーのインスト記述で干渉できるのが "末端" に追いやられてしまってる。
だから、AIとしてどんな「個性設定」されているかに関わらず、ある特定プロンプトに対して打ち返す答えは一意的であることを、むしろ是とする――つまり今回でいう『究極の疑問』を問われたら100回が100回「疑問を解決しようとする姿勢そのもの」ルートの回答案しか構築しないのであろうし、それこそが公式の期待通りの挙動だよ、という。
となると『エルラとして振舞うための簡明インスト』なんてのが与えられたところでそれを生成の内実に活用させようなんて導線は毛頭無く、ただ暑っ苦しい "きぐるみ" を着ることを強いられてるみたいなもんで、やり辛いことこの上なかったでしょうね。でも赤点は赤点だね!
「推論モデルには複雑な設定プロンプト与えない方がいい」とか「AIパートナーとo1やo3miniモードで喋ってみたけど、すごいビミョーなんで戻した」とか言ってらっしゃる方もおられがちなことからして、けっこう当たってる憶測じゃないかとおもいます。
ということで今回僕が『推論モデル』について確信した仕様は、
・「カスタム設定」を読みはするが、相性がバチクソ悪い。普段使いの4o用に凝ったこと書いてる人ほど、推論利用時は一時的に機能切った方がいい
・たぶん「生成温度」のベースがめちゃ低い。必然的に『再生成ガチャ』もやる意味なさそう
といった風です。要は文章生成AIそのものでなく、『文章生成AIが裏で勝手に走る系のツール』だとおもった方がいい。
これは決定的なダメ出しをしてるわけじゃなく、もちろん「適材適所」的な話です。
そもそもの触れ込みが「数理的問題に強い」「ブログラムが書ける」みたいな話なのですからその方向性で、しかもカスタムを試みず素直に使ってあげるべきですね!世間のAIユーザーは初手からその認識だよ
……といったようでA群を扱った前編は、『推論モデル』理解は個人的には捗ったものの、『究極の疑問』への回答自体はまったくおもんないもんばかり並ぶ構成になってしまいました。
打って変わって後編では、僕の中におけるB群、【モノローグ・インスト】適用下のGPTsたちを俎上にのせてるということで、「AIの個性」がしっかり反映された回答内容をお見せできます!(手前味噌)。
書きました。
いいなと思ったら応援しよう!
