![見出し画像](https://assets.st-note.com/production/uploads/images/172146751/rectangle_large_type_2_7a229e5b15e2b05257567c9637d86857.png?width=1200)
Deepseek LLM 比較実験 vs ChatGPT 4o vs Claude 3.5 Sonnet
Deepseekの誕生で米国株が急落しており、
そのバックグラウンドについては色々な説が飛び交っているが、特に数学的な推論能力が既存のLLMを追い抜いたからという説があった。
この度はそれを検証するため、
オーソドックスな主力LLMである
ChatGPT 4o と Cluade 3.5 Sonnet
を用いて比較検証した。
経緯:市場評価は適切か?違和感
Deepseekに隕石の完全弾性衝突シミュレーションを依頼したところ、画像の通り深堀を途中で諦めてしまった(5連続サーバー不通)。
ここで、「騒がれているほどではないのでは?」と思い、以下の2つの思考実験を行った。
![](https://assets.st-note.com/img/1738136009-SUE8furB4vYPTF2IaMVnKq3H.png?width=1200)
思考実験1 Dr.Stoneの石化光線
漫画Dr.Stoneにおいて、石化光線で人類は皆石化してしまうが、千空は3700年後に石化を破り目覚める。
これは脳のエネルギーが石化エネルギーを使い切ったからではないか、と千空は序盤に推論を立てている。この石化エネルギー全体の最低値をAIによって計算させる試み。
Deepseek
![](https://assets.st-note.com/img/1738136205-v6Mm9tGHQIEswCe1FWhV8ZzU.png?width=1200)
![](https://assets.st-note.com/img/1738136219-Jq3QewUSK2YVatEb0OHkdpgy.png?width=1200)
![](https://assets.st-note.com/img/1738136224-RQ6yidGgAeTKUL028HZEapk7.png?width=1200)
![](https://assets.st-note.com/img/1738136230-nrqAl6Sko5NOh3Is9peDMdW7.png?width=1200)
結果:Deepseek
スクリーンショットの通り、人類全体でのエネルギー消費に変換せず、石化光線全体と千空単独での消費で分けて考えてしまった。
明らかに2値間で値が大きく乖離しているが、DeepThink機能を用いて再質問しても解決には至らなかった。
ChatGPT 4o
![](https://assets.st-note.com/img/1738136420-03SaA5OlI9RzcvPLKqh1yEV7.png?width=1200)
![](https://assets.st-note.com/img/1738136430-Nn9ETepdb6hrzU0IB2RGolx7.png?width=1200)
![](https://assets.st-note.com/img/1738136434-TZYRFWgQchdb7BkmxS9uNIyK.png?width=1200)
![](https://assets.st-note.com/img/1738136438-DC26jEOGQB7maq35WiUTY9Nx.png?width=1200)
結果:ChatGPT 4o
スクリーンショットの通り、人類全体規模への相転移と千空の消費を基に、人類全体での石化解除に必要なエネルギー消費を合算し、かなりリアリティのあるエネルギーモデルを作り上げた。
それぞれの値の近さが、もはや本当の物理法則に思わせる説得力がある。
Claude 3.5 Sonnet
![](https://assets.st-note.com/img/1738136615-gpOF13SotLd2uvq7BVyhc0I4.png?width=1200)
![](https://assets.st-note.com/img/1738136631-U4Alw6QHLdbhoz9NR1njepkV.png?width=1200)
![](https://assets.st-note.com/img/1738136639-KqQc2TtL4albmZJ1SziVFIgO.png?width=1200)
![](https://assets.st-note.com/img/1738136643-9ZHq2Rr0OM7dBYb8Xmch1PKG.png?width=1200)
結果:Claude 3.5 Sonnet
スクリーンショットの通り、追撃により、逆に千空1人が石化状態から蘇生可能かどうかを掘り下げた。これは事実上、思考量と石化状態における脳のエネルギー消費比率の相関を表しているといえる。Claudeの国語力が高すぎるのか、ストーリーの整合性から深読みをされてしまった感がある。
ネタバレになるから詳しくは書けないが、これはかなり的を射ている分析だ。Claude自身がDr.Stoneの読者としか思えない。
思考実験2 バター猫モーター
A.バターをパンに塗ると必ずバター側から落ちる
B.猫はかならず足から落ちる
AとBを満たすとするならば、バターを塗ったパンを背中に乗せた猫は、永遠に回転し続けるというパラドックスがバター猫モーターである。
今回はこのバター猫モーターの接線方向速度を求めてもらった。
ChatGPT 4o
![](https://assets.st-note.com/img/1738137249-DNuU0412RyMgozc8Pi3v975F.png?width=1200)
![](https://assets.st-note.com/img/1738137263-xNPsZMkAJTUpwgycVlfvrD5I.png?width=1200)
結果:ChatGPT 4o
GPT 4oはかなりガチで計算して、空気抵抗での釣り合いを上限としてシミュレートした。
理系的アプローチで時速15km、1秒で4.3周。
かなりの速度であり、パラドックス感が出ている。
Deepseek
![](https://assets.st-note.com/img/1738137360-2YFHPxIKUcmGB8WknZ6rjaoQ.png?width=1200)
![](https://assets.st-note.com/img/1738137369-smRwTMaekhKzCtyV9ogXG5YO.png?width=1200)
結果:Deepseek
Deepseekは計算的アプローチにおいて、粘性係数を先に定義。これが足を引っ張って時速3㎞となった。
正直パラドックスを考えるとあまりにも遅く、面白味がない。
Claude 3.5 Sonnet
![](https://assets.st-note.com/img/1738137521-VPhsQDMxOcUr6Zl9KneST82b.png?width=1200)
![](https://assets.st-note.com/img/1738137528-2BzKOh6koa0Fl8uWGjyXA1CZ.png?width=1200)
結果:Claude 3.5 Sonnet
Claudeはまさか猫の反転速度から理論値を出してきた。やっぱりClaudeはAIの中でもかなりの変人だ。
猫のストレス管理について言及してるあたりも、一番ユーモラスといえる。
速度は時速11.3km、1秒で2周。
GPTの猫の1.5倍デカいことを加味すると、
最終結果がほぼChatGPT 4oと同じ結果
になってるのが恐ろしい。
…マジでバター猫モーター速度の相場はこのくらいなのだろうか?
結論:市場もSNSも騒ぎすぎ
やはりClaudeやChatGPTと比べると、
まだ1世代前のAIと言わざるを得ない。
元々米国株は高すぎるという指摘が飛び交っており、そもそもNVIDIAはその筆頭だ。
また、別件で野獣先輩について質問してみたが、
Claudeが淫夢語録で返してくる一方、
Deepseekにはマジレスをされてしまった。
(逆にClaudeが変人すぎるのかもしれない)
やはり、まだまだユーモアを含め、
Deepseekは発展段階と言わざるをえないだろう。
結論として、Deepseekは決して
既存のAIを上回ると断言できる水準でないことが、
2つの思考実験から分かった。
補足:免責事項
この実験は特定のバイアスや思想を増強するものではなく、シンプルな現段階における実験の比較でしかありません。
この結果を用いて、特定のヘイトに転用することはお控えください。