Deepseek LLM 比較実験 vs ChatGPT 4o vs Claude 3.5 Sonnet

2025年1月29日 17:15

Deepseekの誕生で米国株が急落しており、
そのバックグラウンドについては色々な説が飛び交っているが、特に数学的な推論能力が既存のLLMを追い抜いたからという説があった。
この度はそれを検証するため、
オーソドックスな主力LLMである
ChatGPT 4o と Cluade 3.5 Sonnet
を用いて比較検証した。

経緯：市場評価は適切か？違和感

Deepseekに隕石の完全弾性衝突シミュレーションを依頼したところ、画像の通り深堀を途中で諦めてしまった（5連続サーバー不通）。
ここで、「騒がれているほどではないのでは？」と思い、以下の２つの思考実験を行った。

思考実験1 Dr.Stoneの石化光線

漫画Dr.Stoneにおいて、石化光線で人類は皆石化してしまうが、千空は3700年後に石化を破り目覚める。
これは脳のエネルギーが石化エネルギーを使い切ったからではないか、と千空は序盤に推論を立てている。この石化エネルギー全体の最低値をAIによって計算させる試み。

Deepseek

　結果：Deepseek

スクリーンショットの通り、人類全体でのエネルギー消費に変換せず、石化光線全体と千空単独での消費で分けて考えてしまった。
明らかに２値間で値が大きく乖離しているが、DeepThink機能を用いて再質問しても解決には至らなかった。

ChatGPT 4o

　結果：ChatGPT 4o

スクリーンショットの通り、人類全体規模への相転移と千空の消費を基に、人類全体での石化解除に必要なエネルギー消費を合算し、かなりリアリティのあるエネルギーモデルを作り上げた。
それぞれの値の近さが、もはや本当の物理法則に思わせる説得力がある。

Claude 3.5 Sonnet

　結果：Claude 3.5 Sonnet

スクリーンショットの通り、追撃により、逆に千空１人が石化状態から蘇生可能かどうかを掘り下げた。これは事実上、思考量と石化状態における脳のエネルギー消費比率の相関を表しているといえる。Claudeの国語力が高すぎるのか、ストーリーの整合性から深読みをされてしまった感がある。
ネタバレになるから詳しくは書けないが、これはかなり的を射ている分析だ。Claude自身がDr.Stoneの読者としか思えない。

思考実験2 バター猫モーター

A.バターをパンに塗ると必ずバター側から落ちる
B.猫はかならず足から落ちる
AとBを満たすとするならば、バターを塗ったパンを背中に乗せた猫は、永遠に回転し続けるというパラドックスがバター猫モーターである。
今回はこのバター猫モーターの接線方向速度を求めてもらった。

ChatGPT 4o