DeepSeekが新しい推論LLMをリリース | DeepSeek R1 Liteプレビュー | 印象的 (テスト済み)

2024年11月21日 20:39

5,970 文字

DeepSeekから大きな発表がありました。以前に彼らのモデルについて取り上げたことがありますが、今回はDeepSeek R1 Liteプレビューの発表です。現在すでに公開されており、強力な推論能力を解き放つと主張しています。
私たちはすでに推論LLMについていくつかの動画を制作しており、これが未来であり、2025年に向けて多くの投資の焦点がここに向けられることになるでしょう。彼らは、これら2つのベンチマークにおいてO1プレビューレベルのパフォーマンスを達成したと主張しており、リアルタイムで透明な思考プロセスを提供しています。
これはとても素晴らしいことです。なぜなら、OpenAIのO1モデルでは思考プロセスを見ることができませんでしたが、今回は生の思考プロセスを見ることができ、これは以前お話ししたように、これらのモデルがどのように推論を行っているかを理解し、さらにはこれらのモデルとの対話やプロンプトの方法を改善する可能性があります。オープンソースモデルとAPIもまもなく公開される予定で、これは非常にエキサイティングです。APIの利用可能性は私も興味があり、おそらく利用可能になった時点で動画を制作する予定です。
ここでチャットができますが、私がテストした例をいくつかお見せしましょう。全体的な結果はこうです。特に数学のベンチマークを見ると、O1プレビューなどの以前のモデルと比較して、彼らのモデルは非常に優れた性能を示しています。これらの結果についてどう考えるべきかわかりませんが、多くの例がない場合、ベンチマークはあまり意味を持ちません。これらの推論LLMに関しては、本当に難しいプロンプトなどをテストすることが重要です。
最初のテストを行います。これを有効にする必要があり、合計50メッセージが使用可能です。いくつかのテストを行ったため、残り41メッセージです。最初のテストを入力します。これは最新のモデルの多くで試してみましたが、情報の提示方法が原因かもしれませんが、本当に苦戦しています。標準的なLLMでは情報を理解できず、何を求められているのかさえ混乱しているようです。
思考ステップを生成できる推論LLM、これらの思考ステップを生成できるモデルで、DeepSeekがどのようなパフォーマンスを示すのか非常に興味があります。すでに思考を始めているのが見えます。これはO1モデルと非常によく似ています。これらのモデルのための標準的なインターフェースになると予想され、APIを通じて多く目にすることになるでしょう。
このプロセスには少し時間がかかるので、これらのモデルを使用する際は常にそれを念頭に置いてください。タスクによっては数秒、時には数分かかることもあります。この問題を理解するのに19秒かかり、5つのろうそくのうちどれが最初のものだったかを判断する必要があると述べています。
すべてのろうそくが消されるまで同じ時間燃え続けていたため、最初に消されたろうそくが最も長く燃えていたことになり、したがってそのろうそくが最も燃え尽きており、残りの長さが最も短いはずだと説明しています。これは正解であり、標準的な言語モデルでは見られない特徴です。このステップバイステップの思考が、モデルが問題の解決方法を理解するのに本当に役立っています。
結果の下部にはさらに多くの考察があり、非常に興味深いです。すべてのステップを詳しく見ませんが、ろうそく4が答えだと言っているのがわかります。これが正解ですが、この問題に対して1つの答えを導き出すために、実際にどれだけ多くのことを考える必要があったかがわかります。
一見簡単に見える問題や、さらに難しい問題でも、モデルは物事を分解する必要があります。これはそのような問題の1つであり、このタイプのモデルに非常に適しています。他の数学パズルや数学的な問題を試してみたい場合もあるでしょう。私が見る限り、このモデルには大きな可能性があると思うので、ぜひテストしてみてください。
別のテストも試してみました。最初の70個の素数の合計の下4桁は何かという問題です。標準的な言語モデルはこれに本当に苦戦します。この機能なしでモデルをテストしてみました。利用可能な標準的な言語モデルを使用すると、何らかの理由で混乱して間違った結果を出力します。実際の正解はこれで、結果は得られましたが、どういうわけか混乱してしまいました。より難しい問題ではこれはよく見られることです。
DeepThinkモデルで同じ問題を試してみましょう。新しいチャットを開始します。これは少し時間がかかるかもしれません。実行させておいて、以前この問題を試したときの結果をお見せします。DeepThinkを有効にすると、これまでのモデルでは見たことがない興味深いことが起こりました。
問題を説明し、理解しようとしていますが、最初の10個の素数を示し、その合計を計算し、次の10個の素数を示して、それを前の合計に加えていきます。最終的に答えにたどり着きますが、途中で70個以上の素数を数えてしまったことに気づき、正しく数え直します。間違いを修正し、70番目の素数までの正しいリストがあると仮定して、合計を始めます。
モジュロを使用して、下部で間違いを修正しているのが見えます。これは本当に印象的だと思います。最初の70個の素数の合計は10,887が正解だと述べています。次に、下4桁を見つけるために計算を行い、最初の70個の素数の合計の下4桁は0887だと結論付けています。これが正解です。
ステップをまとめ、この機能を使用しなかった以前の生成で見られた間違いを犯していないのがわかります。これは非常に印象的な結果だと思います。
すでに2つの数学の問題を試しましたが、次は少し異なることを試して、このモデルが実際にコーディングやクロスワードパズルなどでどれほど堅牢で優れているかを見てみましょう。
最初に試してみたいのは、bashスクリプトです。OpenAIがO1モデルをリリースした際のブログ投稿で利用可能だった、まさにそのプロンプトを使用します。このスクリプトは、この文字列形式で表される行列を受け取り、同じ形式で転置を出力するものです。
5秒という非常に早い速度で処理を完了しました。これも標準的なLLMではうまく機能しないので、今回このモデルを使用してどうなるか非常に興味があります。
ターミナルでテストしてみましょう。このコードをコピーして、使用方法と期待される出力について説明を受けました。この特定の例に対する正しい出力はこれです。それでは、テストしていきましょう。
最初から始めます。deep_transpose.shを作成し、コードを貼り付けます。これで終了します。問題なさそうです。実行権限を変更する必要があります。これで動作するはずです。
入力は例と同じものを使用します。実行してみると、これは失敗します。期待される出力とは異なります。完全に失敗してしまいました。実際にO1プレビューモデルで同じことを試してみました。例がここにあります。実行してみましょう。これになるはずです。
ご覧の通り、こちらは正しい出力を生成します。これがO1プレビューモデルとの比較です。O1プレビューモデルはこの特定のタスクで本当に優れています。OpenAIの推論LLMの主要な発表でこの例を見つけることができます。
しかし、残念ながらこちらはうまく機能しません。もう少し改良が必要です。これを改善する方法は、実際の思考ステップに戻って、どこが間違っていたのかを確認することです。非常に速く処理を行いましたが、おそらく十分な思考を行わなかったのでしょう。ステップをより注意深く見るようにプロンプトすることもできますが、それは望ましいことではなく、効率的でもありません。
ここで間違いを犯したことがわかり、もう少し改良が必要です。期待される出力はこれが正しいものですが、完全に異なるものを出力してしまいました。
もう1つ興味深いテストを試してみましょう。おそらくこれが最も難しいテストになると思います。これはクロスワードパズルです。最近のEthan Mikのブログからインスピレーションを得ました。Ethan Mikは本当に素晴らしいコンテンツを多く書いており、これらの新しい開発に対する彼の視点は興味深いものです。
彼は、特に推論を行うモデルで、私がテストしてきた新しいモデルに対するテストを書きました。私は実際にプロンプトを書き直し、彼が書いたものとほぼ同じようになったと思います。これはクロスワードパズルの一部を解くことについてです。
彼は自身の実験で、この小さなパズルでさえ、推論を行うモデルが多くの間違いを犯すことに気づきました。彼の書いた内容から理解する限り、モデルは単純な間違いを1つ犯し、それが解答全体を台無しにしてしまったようです。彼が行ったのは、モデルにヒントを与えることでした。これはO1モデルについてですが、「1 down」は「UPS」だとモデルに伝えました。つまり、答えの1つを与えてパズルを解かせ、その後、問題を完全に解くことができました。
実際に、O1プレビューモデルが発売された時に、この問題をテストし、これを再現することができました。しかし、同じプロンプトをO1プレビューやO1ミニで試してみても、なぜか問題を解くことができません。モデルが変更されたのかどうかはわかりませんが、再現することができません。
DeepSeekが発表した今回のモデルで同じクロスワードパズルをテストすることに興味を持ちました。これらの新しいモデルに組み込もうとしている同じタイプの機能だからです。
正確なパズルがここにあります。これは「across（横）」の情報で、4つのスペースがあり、どれだけのスペースを取るかを示しています。そして「down（縦）」の情報があり、これらのスペースが見えます。これは本当に良いテストです。DeepSeekがこれを解けるとは期待していませんでしたが、実際にそうでした。
実際の思考ステップを見ると、本当に混乱しており、多くの間違いを犯し、場合によっては行き詰まってしまいました。ここでたくさんの情報を生成しています。例えば、「ここで本当に行き詰まっています。おそらく、以前のヒントの1つで間違った答えを出してしまい、それが誤りの連鎖反応を引き起こしているのかもしれません」と言っています。
これらの間違いを犯し、私の観察では自己修正することができません。このような現実世界のより多くの知識を必要とするタスクでは、これらのモデルは多くの困難に直面すると思います。おそらく、エージェント的なワークフローに組み込むことで、より良く機能する可能性があります。
例えば、検索エンジンを与えれば、検索エンジンを呼び出して情報を引き出し、より最近の参照を取得することができます。最近の参照についてはそれほどうまく機能しないからです。実際に間違いを犯す場合、それは通常、新しい概念や人々が使用している新しい参照に関するものです。そしてそれに苦戦しています。
より新しい知識や最近の出来事については、多くの間違いを犯すことになるので、これらの推論モデルを使用する際は非常に注意が必要です。例えば、エージェント設定で使用する場合、これらのモデルがこのような問題を解決できると期待しないでください。特に、この例のような知識集約型の問題には細心の注意を払う必要があります。基本的な知識以上のものが必要で、現代の参照のような参照を理解する必要があります。
このテストを使用し続ける理由はここにあり、これらのモデルが一貫してこの問題を解決できるようになるまで、このテストセットを使用し続けます。
実際にヒントを与えてみましたが、78秒かかったことに気づきました。最初の反復とほぼ同じ時間がかかったため、これは効率的ではありません。ヒントを与えても解くことができませんでしたが、これが解決されることは期待していませんでした。同様に、O1プレビューでこれを試しても、この問題は解決できません。同じ問題を抱えています。
より多くのコード関連の問題、より最近の、そしてより深い世界の知識やイベントを必要とする問題を開発していきます。また、数学のパズルなども試していきます。現在、推論ベンチマークを開発中で、これは私のYouTubeチャンネルで共有する予定です。また、これらの分野に沿ったコースもいくつか作成中です。現時点では共有できる情報はあまりありませんが、その時が来たら詳細を共有します。
私たちのアカデミーに最近2つの新しいコースを追加したことを嬉しくお知らせします。「AIエージェント入門」と「RAG入門」です。RAGは昨日リリースされ、おそらく現時点で見られる最も包括的なRAG入門コースとなっています。基本的に、このコースで私が行ったのは、入門コースで可能な限り多くの情報を共有しようとしたことです。上級コースも予定していますが、このコースは多くの情報が詰まっています。
アーキテクチャについて説明し、チャンキング、埋め込みモデル、セマンティック検索、リトリーバー、そして組み込むことができる様々な拡張について説明します。このコースで本当に異なる点は、ジェネレータを改善するためにChain of ThoughtをどのようにRAGシステムに組み込むか、ツール呼び出しを使用してRAGシステムをどのように改善するか、そして現在のホットトピックであるエージェントRAGについて説明したことです。エージェントRAGを使用してシステムを構築し、関数呼び出しとは何かについても紹介しました。
これは私が最も誇りに思うコースの1つであり、この分野について学ぶことに興味がある方は、下のリンクをチェックすることをお勧めします。現在、ブラックフライデーのセールを実施しています。
また、コースの特徴として、コミュニティがあります。アカデミーの一部として、コミュニティにアクセスでき、私と直接やり取りすることができ、質問に答えることもできます。コミュニティから多くの本当に素晴らしいアイデアがあり、人々が構築しているアプリケーションの種類について深く考える時間を持てることを楽しんでいます。これは、このアカデミーに参加した場合に得られるもう1つの利点です。
以上で今回の動画は終わりです。もしよろしければ、いいねを押して、まだチャンネル登録していない方は登録をお願いします。また次回の動画でお会いしましょう。

DeepSeekが新しい推論LLMをリリース | DeepSeek R1 Liteプレビュー | 印象的 (テスト済み)

いいなと思ったら応援しよう！