見出し画像

Deepseek LLM 比較実験 vs ChatGPT 4o vs Claude 3.5 Sonnet

Deepseekの誕生で米国株が急落しており、
そのバックグラウンドについては色々な説が飛び交っているが、特に数学的な推論能力が既存のLLMを追い抜いたからという説があった。
この度はそれを検証するため、
オーソドックスな主力LLMである
ChatGPT 4oCluade 3.5 Sonnet
を用いて比較検証した。

経緯:市場評価は適切か?違和感

Deepseekに隕石の完全弾性衝突シミュレーションを依頼したところ、画像の通り深堀を途中で諦めてしまった(5連続サーバー不通)。
ここで、「騒がれているほどではないのでは?」と思い、以下の2つの思考実験を行った。

サーバー不通が5回続いたため諦めた

思考実験1 Dr.Stoneの石化光線

漫画Dr.Stoneにおいて、石化光線で人類は皆石化してしまうが、千空は3700年後に石化を破り目覚める。
これは脳のエネルギーが石化エネルギーを使い切ったからではないか、と千空は序盤に推論を立てている。この石化エネルギー全体の最低値をAIによって計算させる試み。

Deepseek

 結果:Deepseek

スクリーンショットの通り、人類全体でのエネルギー消費に変換せず、石化光線全体と千空単独での消費で分けて考えてしまった。
明らかに2値間で値が大きく乖離しているが、DeepThink機能を用いて再質問しても解決には至らなかった。

ChatGPT 4o

 結果:ChatGPT 4o

スクリーンショットの通り、人類全体規模への相転移と千空の消費を基に、人類全体での石化解除に必要なエネルギー消費を合算し、かなりリアリティのあるエネルギーモデルを作り上げた。
それぞれの値の近さが、もはや本当の物理法則に思わせる説得力がある。

Claude 3.5 Sonnet

 結果:Claude 3.5 Sonnet

スクリーンショットの通り、追撃により、逆に千空1人が石化状態から蘇生可能かどうかを掘り下げた。これは事実上、思考量と石化状態における脳のエネルギー消費比率の相関を表しているといえる。Claudeの国語力が高すぎるのか、ストーリーの整合性から深読みをされてしまった感がある。
ネタバレになるから詳しくは書けないが、これはかなり的を射ている分析だ。Claude自身がDr.Stoneの読者としか思えない

思考実験2 バター猫モーター

A.バターをパンに塗ると必ずバター側から落ちる
B.猫はかならず足から落ちる
AとBを満たすとするならば、バターを塗ったパンを背中に乗せた猫は、永遠に回転し続けるというパラドックスがバター猫モーターである。
今回はこのバター猫モーターの接線方向速度を求めてもらった。

ChatGPT 4o

 結果:ChatGPT 4o

GPT 4oはかなりガチで計算して、空気抵抗での釣り合いを上限としてシミュレートした。
理系的アプローチで時速15km、1秒で4.3周
かなりの速度であり、パラドックス感が出ている。

Deepseek

 結果:Deepseek

Deepseekは計算的アプローチにおいて、粘性係数を先に定義。これが足を引っ張って時速3㎞となった。
正直パラドックスを考えるとあまりにも遅く、面白味がない。

Claude 3.5 Sonnet

 結果:Claude 3.5 Sonnet

Claudeはまさか猫の反転速度から理論値を出してきた。やっぱりClaudeはAIの中でもかなりの変人だ。
猫のストレス管理について言及してるあたりも、一番ユーモラスといえる。
速度は時速11.3km、1秒で2周
GPTの猫の1.5倍デカいことを加味すると、
最終結果がほぼChatGPT 4oと同じ結果
になってるのが恐ろしい。
…マジでバター猫モーター速度の相場はこのくらいなのだろうか?

結論:市場もSNSも騒ぎすぎ

やはりClaudeやChatGPTと比べると、
まだ1世代前のAIと言わざるを得ない。
元々米国株は高すぎるという指摘が飛び交っており、そもそもNVIDIAはその筆頭だ。

また、別件で野獣先輩について質問してみたが、
Claudeが淫夢語録で返してくる一方、
Deepseekにはマジレスをされてしまった。
(逆にClaudeが変人すぎるのかもしれない)
やはり、まだまだユーモアを含め、
Deepseekは発展段階と言わざるをえないだろう。

結論として、Deepseekは決して
既存のAIを上回ると断言できる水準でないことが、
2つの思考実験から分かった。

補足:免責事項

この実験は特定のバイアスや思想を増強するものではなく、シンプルな現段階における実験の比較でしかありません。
この結果を用いて、特定のヘイトに転用することはお控えください。


いいなと思ったら応援しよう!