テスト: DeepSeek R1推論モデル vs OpenAIのo1?

2024年11月23日 06:27

3,449 文字

コミュニティの皆さん、中国のDeepSeekという会社が素晴らしいLLMやVMとコード生成を手がけていますが、今日は彼らの真新しいプレビューバージョンであるDeepSeek R1 Lightを見ていきましょう。このモデルは強力な推論能力を解き放ち、主な目標はもちろんOpenAIのo1プレビューを打ち負かすことです。彼らの投稿を見ると、11月に「DeepSeek R1 Lightプレビューが公開され、数学ベンチマークを含むo1プレビューレベルのパフォーマンスを持っている」と述べています。
ご存知の通り、これは試してみる価値がありますね。この中国の新しいモデルに触れる前に、本当にo1プレビューと同等のパフォーマンスがあるのか確認してみましょう。実際にライブテストを行いますが、その前に思い出してください。o1については2ヶ月前に徹底的にテストを行い、論理テストと積分計算で失敗したときのことから始めて、o1の限界を探りました。しかし、より興味深かったのはこの3つの動画です。イチゴについての極端な論理テストをデザインし、そしてGPT-4 Omniでさえイチゴの因果推論構造を達成できることがわかりました。
今回はこの極端な論理テストを使用します。この動画で見つけることができますが、これからDeepSeek R1で計算を実行してみましょう。では、DeepSeekのプラットフォームに移りましょう。テストを入力したところ、システムが「このパズルを解くために、手がかりを体系的に分析し、論理的推論を使って正しい関連性を特定します。ステップバイステップで推論します」と返してきました。
ご覧の通り、ここではディープシンクを有効にしていません。これは特別なディープシンク状況なしの通常のR1ですが、o1と比較すると、システムが内部でどのように推論しているか、何を考えているかがよくわかると思います。手がかりには番号が付けられ、推論プロセスがあり、システムは結論に達しようとしています。
これはかなり極端な論理テストですが、特別なものではありません。ただ複雑で、より高い複雑性レベルを持っているだけです。素晴らしい除外と関連付けのプロセスですね。ここで手がかりが推論パターンに統合されています。これは単純な行列計算で、もしシステムがそれを理解していれば、コードでこれを行うことができるのですが、ここではLLMだけを使用しているので、適用されている言語論理のみを使用しています。
残念ながら、これをコードセグメントに変換して、単なるif文やif not文で処理できることを理解していませんでした。全コードを見ていきますが、これをリアルタイムで見てほしいと思います。最初で最後のリアルタイム表示です。次のテストは10倍速で行います。そうしないとこの動画が退屈になってしまいますから。
ご覧の通り、システムはこれを理解しようと奮闘しています。何でないかを定義し、何であるかを定義し、これらすべてを理解しようとしています。最終的な答えがここにあり、表を出力するように依頼したところ、表が表示されました。7人の魔法使いがおり、それぞれの持ち物があり、ここにすべての手がかりがありますが、比較してみると間違っています。
では、ディープシンクを有効にして、同じことをやってみましょう。入力すると考え始めるのが分かります。o1と似たような結果が得られますが、素晴らしいのは文章が本当に美しく構成されていることです。これらはすべて美しい英語の文章です。「ここには多くの解きほぐすべきことがあります。これについて考えなければなりません。これはできません」といった具合です。
この特定のものについての可能な持ち物はA、B、C、Dです。手がかりからこれを推論できます。素晴らしいですね。ただし、これは10倍速になっていることをお伝えしておきます。リアルタイムで見ると10倍遅くなりますが、結論に至りたいと思います。
このディープシンクを有効にして解決策を見つけることができるでしょうか。ご覧のように、無料版では1日50メッセージまでの制限があります。これはDeepSeek.comの無料プラットフォームで、メールアドレスを提供すれば利用できます。自分でテストしてみてはいかがでしょうか。
システムの思考ステップ、ディープシンクがリアルタイムで行われているのを見ることができます。「これについて考えられない」というのが可愛らしいですね。システムが考えていることを読むと、推論プロセスが見えないo1と比べてとても良いです。
私の最後の2つの動画をご覧になった方はご存知かと思いますが、これは今まさに推論で起きていることです。1つの動画は分子研究の検索アルゴリズムについてで、もう1つは最適化されたTTTストアについてでした。両方の長所を組み合わせて、正しく実行できれば、このように見えるはずです。これが今、DeepSeek R1プレビューモデルの内部思考です。
機密事項ですが、o1と比べて良いのは、システムがどの状態にあるか、ループの中にいるのか、議論がどこで行われているのかが分かることです。すべての異なる手がかりを検討し、すべての異なる組み合わせを見つけようとしています。残念ながら、ifとif notのようなコード実装のツールはまだ使用していません。これをPythonコードのリスト構造に変換すれば、2秒未満で実行できます。
しかし、ここではLLMを使用しているので、見てみましょう。魔法が起きています。もっと速く、もっと速く、さあ！ここでディープシンクが有効になっているのを待っていますが、違いは何でしょうか。より長く時間がかかっているのが分かります。そして、ついに最終解に到達しました。
皆さん、これが最終解です。すべての主要な手がかりを示してくれています。7人の小人たちの謎を見てみましょう。これを比較すると、正解を得られたことが分かります。これが正しい解です。素晴らしい！
各文を読んで比較できます。システム全体を確認できます。私はすでにそれを行いましたが、信用できない場合は、自分で行ってください。画面を一時停止して時間をかけてください。そして、別のアイデアとして、結果の検証を行い、論理的な代替案を選ぶように指示してみましょう。
ディープシンクを有効にしたままで、もう一度待ちたくないので、より速く進めています。すでにいくつか試行しており、次の10秒以内に結果が出るはずです。はい、まだディープシンクは有効です。さあ、どうぞ...ここにありました。
比較してみると、例えば、時の結晶はフェニックスを使い魔として持っていて、時の結晶はヒマを使い魔として持っているというように、これは明らかに間違っています。検証で間違った結果が出ました。そこで「この答えは最初の表と違うのか」と尋ねてみました。
システムは「2つの表を比較する必要があります。最初の表では魔法使いがこれを持っていて...」と、とても丁寧に説明を始めます。そして3回目として、私たちの小さなDeepSeek R1、秘密の推論が理解し始めます。アーロンから始めて、これが魔法で、これは持っていません。この特定のアイテムを持つ魔法使いはこれができず、これは手がかり3と矛盾すると言います。
システムが生成する文章は本当に驚くべきものです。「提供された2つの表には顕著な違いがあります」。もちろんです。各行の主要な違いを示し、表1の内容、表2の内容、そして結論を正確に教えてくれます。結論は表2が単純に間違っているということです。
つまり、1つの正しい解があります。ディープシンクを無効にしたDeepSeek R1はタスクの実行に失敗し、ディープシンクを有効にすると即座に正しい解に到達します。しかし、検証を求めると間違った解が得られます。同じタスクに対して2つの異なる解が得られたわけですが、再度実行して比較を求めると、ディープシンクを有効にした最初の解が正しかったことを正確に教えてくれます。
これがDeepSeek R1の最初の印象です。来週にはおそらく触れる機会があるかもしれません。間違いなく興味深いモデルです。今後はライセンス契約と、もちろんこのモデルのコストに依存することになるでしょう。基本的な最初の情報を提供できたことを願っています。次の動画でお会いできることを楽しみにしています。

テスト: DeepSeek R1推論モデル vs OpenAIのo1?

いいなと思ったら応援しよう！