Deepseek R1じゃない、これこそが本当のDeepseekのブレークスルーだ!
3,751 文字
みなさん、間違ったDeepseekモデルを称賛しています。Deepseek R1は、深層学習や機械学習、AIコミュニティの枠を超えて非常に人気のあるモデルであることは理解していますが、私たちが本当に称賛すべきDeepseekモデル、本当のブレークスルーは、Deepseek Janus Proなのです。これは類を見ない統合モデルであり、このビデオでは、なぜこれこそが私たちが注目すべきモデルなのかを説明したいと思います。
Deepseek R1も素晴らしいモデルです。間違えないでください。しかし、DeepseekチームがDeepseek Janus Proで成し遂げたことは、そう頻繁には目にすることのできないものなのです。
まず第一に、Deepseek Janus Proは統合マルチモーダルモデルです。つまり、マルチモーダルな理解と生成の能力を持っています。これはどういう意味かというと、このモデルは1つのモデルで、テキスト入力を受け取ってテキストを生成し、画像入力を受け取って画像を理解し、テキスト入力を受け取って画像を生成することができるのです。つまり、これらすべてのことができるのです。だからこそ統合マルチモーダルモデルと呼ばれているのです。
もし少し分かりにくいと感じられる方のために、既存のモデルについて簡単に数秒で概要を説明させていただきます。まず、テキスト生成モデル、つまり自己回帰モデルと呼ばれるものがあります。自己回帰とはどういう意味かというと、1つの単語を受け取って次の単語を生成し、その2つの単語を受け取って次の単語を生成し、さらに次の単語を生成していくというものです。これが基本的に自己回帰モデルと呼ばれるもので、デコーダーのみのトランスフォーマーモデルで、世界で非常に人気があります。AnthropicのClaude、OpenAIのChatGPT、GPT-4oなど、これらのモデルは一般的にテキスト生成モデル、特にテキスト生成の場合は通常自己回帰モデルです。
もう1つのモデルのクラスは、画像生成に使用されているもので、画像生成モデルとして広く知られています。現時点で非常に有名な特定のアーキテクチャは拡散モデルです。これはランダムなノイズを取り、そこからユーザーのプロンプトに合わせてノイズを除去していきます。例えば、これがランダムにサンプリングされたノイズで、ユーザーのテキストプロンプトが「面白い漫画のオウム」だった場合、最終的な画像がプロンプトの「面白い漫画のオウム」に近くなるようにノイズを除去していきます。
これらは全く異なる2つの深層学習モデルで、1つは自己回帰デコーダーのみのトランスフォーマーベースのモデル、もう1つは拡散モデルです。Janus Proが試みているのは、これら2つを組み合わせることです。正確にはこの2つではなく、深層学習のいくつかの概念を組み合わせて、このようなさまざまなことができる1つのモデルを構築することです。
Janusがこのようなものだとすると、テキストを受け取ってテキストを生成できます。つまり、テキストを入力して出力もテキストです。次にJus...Jus Proですが、画像を受け取ってテキストを出力することができます。例えば、この特定の画像のキャプションを生成してくださいと言えます。3つ目は、テキストを受け取って画像を生成することができます。例えば、「馬に乗る宇宙飛行士」と言うと、馬に乗る宇宙飛行士の画像を生成します。
これらすべてが1つのボックスの中で行われ、そのボックスはオープンソースです。Deepseek Janus Pro 8億パラメータモデルは、MITライセンスでHugging Faceのモデルハブで利用可能です。ダウンロードして使い始めることができます。このモデルは役に立たないがらくたモデルではなく、実際にこの種のファミリーの他のすべての単一モデルを凌駕しているモデルなのです。
ご覧の通り、Deepseek Janus Proの70億パラメータモデルは、既存の他の統合モデルであるShoよりもはるかに優れています。これは70億パラメータモデルで、以前のバージョンのDeepseek Janusから、より新しい、より大きなものでも、良いモデルであり続けることを証明しています。ベンチマークの面でも、他の統合モデルと比較することができ、このモデルは多くの異なるベンチマークで明らかに勝者となっています。
彼らが何を行ったのかを理解するために、アーキテクチャは単純にこのように見えます。このアーキテクチャの詳細な説明には多くの時間を割きませんが、デモをお見せします。簡単に見ると、画像理解、画像生成能力、言語理解能力を持っています。ここにエンコーダーがあり、テキストトークナイザーがあります。このエンコーダーは画像を取り込み、言語モデルが理解できるように画像を分割することができます。これは「キャプションを生成してください」と尋ねる部分です。
また、画像を生成することもできる別の部分があります。テキストトークナイザー、テキストオーガナイザー、生成エンコーダー、画像エンコーダーがあり、理解エンコーダーと生成エンコーダー、そして最終的に画像を生成するための画像デコーダーがあります。生成されたサンプルを見ると、サンプルはかなり良好です。以前のJanusは美しい少女の顔を生成し、最新のJanus Pro 70億パラメータモデルはこれを生成しました。
これはFluxほど良くないと言えるかもしれません。Stable Diffusionやllmsの進化を見てきた人なら、世界モデルと呼ばれるような全宇宙の理解を持つような何か特に新しいものが必要だと自然に感じるでしょう。これはおそらく、私たちがより多くの時間を費やすべきアーキテクチャでしょう。多くの企業は金銭的なインセンティブがないため、これを行いませんが、Deepseekはそれを行い、技術論文を公開し、人々が使用できるようにモデルも公開しました。
テキスト生成は良好で、画像生成も良好で、画像理解やその他のすべての面でも良好です。この論文には多くの興味深い情報がありますが、簡単に理解すると、これはテキストを生成でき、テキスト入力を受け取ってテキスト出力を作成し、テキスト入力を受け取ってそれに基づいて画像出力を作成し、画像入力を受け取ってそれに基づいてテキスト出力を作成できるモデルです。これらは、このモデルが扱うことができる画像とテキストのさまざまなモダリティです。
モデル自体は、Hugging Facesのモデルハブで使用可能で、チームは理解を深めるための簡単なデモもまとめています。デモには2つのタブがあり、1つはマルチモーダル理解(画像入力して応答を得る)、もう1つはテキストから画像生成(望むものを言って生成する)です。私の最近のサムネイルであるこの入力画像を与え、この新しいモデルのYouTubeの説明を書いてくださいと言いました。
「o3 mini」という言葉はそこから取得できましたが、o3 miniが何を意味するのかについての世界的な情報は持っていないため、100%正確というわけではありません。しかし、ご覧の通り、スクリーンショットからo3 miniが何であるか、あるいはo3 miniだと信じているものについて説明する完全なブログ記事やYouTubeの説明を生成してくれました。
テキストから画像生成に移ると、ここで「美しい若い女性の写真を描いて」と言うことができます。画像生成能力はFluxや他の画像ほど良くないかもしれません。私のサンプルでは、顔がかなり悪いことがわかります。これは初期のStable Diffusionでも同様で、ロングショットの顔は常に非常に明確ではありませんでした。ロングショットの顔は良くありませんが、馬はまあまあ decent で、背景も decent です。高解像度の画像ではありませんが、これが女の子の写真だとわかります。おそらく良好ですが、やはり初期のStable Diffusionの時代のようなプラスチック的な性質を持っています。
しかし、これは研究があまり利用できない分野であり、OpenAIやAnthropicのような最先端の研究所ではない、中国の少ないリソースを持つチームがこれを構築し、この最終結果をまとめたことは、非常に称賛に値すると思います。だからこそ、このビデオを作ることにしました。このモデルが何であり、どれほど優れているか、そして新しいアーキテクチャを深層学習研究者が研究すべきだと考えています。
このビデオが、Deepseek Janus Pro(JanusまたはJanus、アメリカ式の発音の仕方がわからないので、別の名前があるかもしれません)が、世界中が称賛している他のモデルよりも、Deepseekがオープンソース化し、技術論文も公開したことを称賛すべきモデルであることを納得していただけたなら幸いです。
お役に立てたなら幸いです。また別のビデオでお会いしましょう。ハッピープロンプティング。