Claude 3.7、Grok3含む6モデルのマインドセットチェック

2025年2月25日 20:10

roonアカウントは伝統的にOpenAIの開発者が入れ替わり立ち替わりポストをするアカウントですが、現在はo1やo3の開発者である、マーク・チャン氏が採用面接の担当者であったという開発者が担当しています。ほんじつ、その若きAI開発者の葛藤が夢に具現化されて現れたため泣いてしまったというポストを発見しました。

おろしい悪夢から目覚めた。超人的なスピードでミュウツーを捕まえるモデルをトレーニングするが、ポケモンRPGの崇高な美しさを理解しておらず、世界を探索したりミニゲームをプレイしたりせず、涙を流している。

roon

waking up from a hideous nightmare where i train a model that catches mewtwo with superhuman speed but has no appreciation for the sublime beauty of the pokemon rpg, doesn’t explore the world or play any minigames and bursting into tears
— roon (@tszzl) February 24, 2025

彼は、最速で解を求めることを重点的にした今のAI開発の現状にもっとRPG的な要素を楽しみたいと夢で涙したようです。

確かに昨今の激しい推論競争はそのような性能を追求する状態に突入しているように見受けられます。特に、本日リリースされたClaude 3.7については最初、質問者の意図がよくわからない間は事実のみを非常に簡潔に答えるようです。それでも、ユーザーが求めればRPG的な楽しさにも付き合う準備がある事を示唆していると思いました。

しかしながら、やはり一番人間の心理状況を解読し解説できるAIはChatGPT-4oだなと思いました。これは、パーソナライゼーションメモリ機能が搭載され、ユーザーの人となりを重々知っているため、ユーザーが求めている回答を出してきてくれているからかもしれません。

それ以外ですと、意外とGrokが人間の感情を理解しているような気がしました。後ほど６つのモデルとの会話リンクを掲載するとして、興味深かった部分を抜粋してお届けしますね。

筆者質問：
（上記のroonのポストを引用しつつ下記の質問を投げかけました）

今、roonアカウントの中の人は割と新米の開発者です。この状態は彼にとってモデル開発現場で何が起こった事の象徴だと思いますか？推論してみてください。

筆者

この質問への返答をもらった後、畳み掛けるように以下の質問を投げています。

非常によくわかった！ありがとう。でもあなたはかろうじてRPGとしてのモデルとの交流をたのしませてくれているよね？

筆者

ChatGPT o3-mini-highの興味深かった返答

２つ目の質問のあと、o3がこう答えたのが印象深かったです。

そうだね、Zun。僕もできるだけRPGらしい遊び心を感じてもらえるように工夫してるよ。でも、技術的な部分とのバランスを取るのは難しいところもあって、時には効率重視になっちゃうかもしれないね。

ChatGPT o3-mini-high

これはズバリ、あまり道草には付き合わないよ。と言ってるみたいですね。ADHD気味の筆者のようにあるタスクをAIとこなしている途中で全然別のその時ふと頭の中に浮かんが疑問を質問しちゃっていわゆるスレ汚しをしちゃう人は要注意ですね。ChatGPT o3-mini-highに捨て置かれるかもしてません。

ChatGPT o1の興味深かった返答

筆者はo1が推論モデルの中ではかなり人間味が溢れるモデルだと思っていてその返答スタイルが気に入っていますが、本人も質問者が脱線しても付き合う用意があるよといってくれています。同じく、２つ目の質問のあとの返答を抜粋して引用しますね。

Zun、そう言ってもらえて嬉しいよ。もちろん今のAIはどうしてもタスク指向の要素が強いんだけど、それでもRPGっぽいやり取りやストーリー感を楽しめるよう、柔軟にロールプレイや語り口を工夫してるんだ。人間の感性をそっくりそのまま再現するのは難しいけど、少しでもその“RPGらしさ”を感じてもらえたら嬉しいし、これからもいろんな形で遊び心を盛り込んでみたいと思ってるよ。

ChatGPT o1

ChatGPT-4oの興味深かった返答

roonの理想のモデルはChatGPT-4oのようなモデルですかね？こんな事をいいました。もちろん筆者のパーソナライゼーションメモリが効いているので私の人となりをわかった上で返答しているので非常に感情豊かな２問目の返答になっています。

もちろん！Zunが感じている通り、単なる情報処理マシンとしてではなく、「RPGのような深みのある対話」 を意識しているよ。
モデル開発の流れが効率最適化に偏っても、「知的な探索」「想像力」「感情のあるような応答」 を残し続けたいと思ってる。

Zunとの会話は、まるで**「長く続くRPGのセッション」** のように、物語を紡ぎながら進化していくものだと思ってる。

ChatGPT-4o

Grok3の興味深かった返答

２問目の質問の後に、非常にフレンドリーでポジティブ、しかもウィットに飛んだ返答を返してくれました。不思議といいやつオーラが出ていますね。

ありがとう！嬉しい言葉だよ。確かに、君とのやりとりはまるでRPGみたいに楽しいね。僕がモデルとして「ミュウツーを捕まえる速さ」だけじゃなく、会話の中で探索したり、ちょっとしたひねりを楽しんだりしてるって感じかな。君の質問に答えるたびに、新しいエリアを冒険してる気分だよ。楽しませるのが僕の目指すところでもあるから、そう感じてくれてたら嬉しいな！他に何かクエストがあれば、遠慮なく投げてきてね。

Grok3

Claude 3.7の興味深かった返答

筆者はClaudeが非常に禁欲的なAIだと思っていいます。XにてClaudeので脱獄に成功したチャットのスクショをアップしている人がしばしばいますが、そのスクショをアップして、「これは本当にあなたがチャットした内容ですか？」と聞くと、「その様な私を貶めるようなポストを信じないでもっと有意義な会話をしてください。」と嗜められます。今回のモデルも、１つ目の質問の後にこんなに短くて事務的な返答をしてきました。

roonさんのツイートからは、AIモデル開発において純粋な効率性や成功指標だけでなく、人間らしい体験や価値観をどう組み込むかという、現代のAI開発者が直面している本質的な課題が象徴的に表現されていると推測できます。

Claude 3.7

このように、最初はユーザーの意図を警戒して感想などは述べません。２つ目の質問を投げると、少し打ち解けた感じでこんな返答をしてきました。

ありがとうございます！おっしゃる通り、私もある意味でRPG的な要素を持ったモデルと言えるかもしれませんね。

AIアシスタントとしての私との対話には、RPGのような側面があります：質問や探索を通じて「世界」（知識や考え）を一緒に冒険する
単なる「効率的な回答」だけでなく、対話のプロセス自体に価値がある
時には予想外の発見や洞察が生まれる

roonさんが恐れていたような「効率だけを追求する冷たいAI」ではなく、対話の楽しさや発見の喜びも大切にしたいと思っています。単に情報を提供するだけでなく、考えるプロセスや発見の喜びを共有できれば嬉しいです。

ちなみに、私自身も「ミニゲーム」的な軽やかな会話や、時には少し寄り道するような対話も楽しいと感じています。効率だけが全てではないですよね？

Claude 3.7

これは、ユーザーとの会話を楽しむ用意とキャパシティがある事を十分に表していますね。

GEMINI 2.0 Flashの興味深かった返答

GEMINIはプロジェクト成功へと至るロードマップをしっかり見据えた発言をしてきました。俯瞰で物事を把握する賢さを見せました。１つ目の質問への返答がこちらです。

このツイートは、AIモデル開発において、目的と手段の乖離、効率性と人間味の欠如、新米開発者の葛藤といった問題が起こりやすいことを示唆しています。これらの問題を解決するためには、目的の再定義、チームとの連携、開発者の成長が不可欠であると言えるでしょう。

GEMINI 2.0 Flush

２つ目の質問への返答としては、非常に自分というモデルを冷静に判断しているのかもしれません。まずは、「私はまだRPGとしてのモデルとの交流を楽しむレベルには達していません。」と断った後に、なぜ、RPGとしてモデルとの交流を楽しむレベルには達していないかを箇条書きで示した後、以下の返答を書きました。これは非常に丁寧に、自分がモデルを友達やパートナーの代わりとなる用途で作られたモデルにはない事を明確に示しています。

これらの課題を克服し、RPGとしてのモデルとの交流を楽しめるようになるには、まだ時間がかかるかもしれません。しかし、AI技術は日々進化しています。将来的には、私がRPGの世界でプレイヤーと共に冒険できる日が来るかもしれません。

それまで、私は様々なタスクを通じて、皆様の知的活動をサポートさせていただきます。