見出し画像

Deepseekが再び登場、今度はVISIONで

4,582 文字

Deepseekが戻ってきました。今回はビジョン言語モデルです。これは以前のバージョンDeepseek VL2の最新版となります。このモデルには3つの異なるバージョンがあります。Deepseek VL2 Small、Deepseek VL2 Tiny、そしてDeepseek VL2です。これらは全てDeepseekファミリーのモデルに基づいています。ここでのMoEはmixture of experts(専門家の混合)を表しています。このビデオでは、このモデルについて私が知っている全てを共有し、このモデルがどれほど優れているかの例も見ていきたいと思います。
このビデオで最も重要なポイントは、このグラフを見ていただくことです。X軸には活性化パラメータがあります。活性化パラメータという概念は専門家の混合モデルにのみ存在し、大量のパラメータを持っていますが、各トークンでは特定のパラメータのみが活性化されます。これが専門家の混合が計算効率に優れている理由です。Y軸は平均パフォーマンスを示しており、この場合、MM Bench、MM Star、MMU Math Vista、その他多くのベンチマークの平均値となっています。
1億パラメータのモデル、この場合はDeepseek V2 Tinyを見てみましょう。Deepseek V2 Tinyは1億の活性化パラメータモデルで、Deepseek SmallV2 Smallは2.8億、Deepseek V2は4.5億の活性化パラメータを持っています。実際のパラメータ数はもっと多いかもしれませんが、与えられたトークンではこれが活性化パラメータです。1億の活性化パラメータモデルでは、Deepseek V2 Tinyが優れているか、あるいは非常に優れたAIラボであるQuin 2 2.0の2億パラメータモデルとほぼ同等のパフォーマンスを示しています。
要するに、これは本当に優れたモデルで、強力なモデルです。モデルの能力は、OCR、ビジュアルグラウンディングなど、複数の異なるドメインにわたっています。VLMという概念に馴染みがない方のために説明すると、VLMはビジョン言語モデルを表します。ビジョンコンポーネントと言語コンポーネントがあり、画像と文章を入力として受け取り、文章を出力として生成します。
これは先日見たJanusという統合モデルとは少し異なります。Janusも同じくDeepseekのものですが、統合モデルなので1つのモデルのみが存在し、画像とテキストの入力を受け取り、テキストと画像の両方を出力できます。それとは異なり、このDeepseek VL2は統合モデルではなく、むしろ適切なビジョン言語モデルです。つまり、ビジョンコンポーネントと言語コンポーネントが存在するということです。
これがDeepseek VL2モデルの概要です。以前このチャンネルで紹介したLaVAスタイルのアーキテクチャを採用しています。ビジョンエンコーダーがあり、画像をアップロードすると動的タイリングプロセスを経ます。動的タイリングプロセスとは、画像を複数のピースに分割する必要があり、それがここで行われる方法です。この動的タイリングプロセスがビジョンエンコーダーに入り、そこからビジョン言語アダプターに進み、画像トークンに分割されます。
次に、プロンプトが与えられます。例えば、画像をアップロードして「この画像を詳しく説明してください」と指示することができます。ここで画像トークンとテキストトークンが得られ、これら全てがDeepseekの専門家混合モデルに入り、最終的に自己回帰的に生成を開始します。つまり、画像とテキストを入力として受け取り、テキストを出力するのです。
これが簡単に説明したDeepseek V2のアーキテクチャです。Deepseek V2の良い点は、前述の通り、これらが小さなTinyモデルであることです。文字通り、1億パラメータ、2.8億パラメータ、4.5億パラメータモデルのTinyやSmallモデルと呼ばれています。小さなモデルであるため、インターネットが使えない多くの異なるユースケースで非常に役立ちます。
例えば、GPT-4o、Geminiなどの最先端モデルを使いたいけどインターネットがない場合、これらのモデルが非常に重要な役割を果たします。製造ユニットがあり、不良品を識別したい場合などに、このようなモデルを使用できます。特にこれはオープンモデルなので、おそらく微調整も可能です。現時点では簡単な微調整方法はありませんが、将来的には可能になるでしょう。高品質なエッジデバイスなどで使用でき、他にも多くの優れたユースケースが存在します。
唯一の注意点は、他のDeepseekモデルとは異なり、このモデルはDeepseekモデルライセンスで提供されていることです。商用利用可能とされていますが、Apache 2.0やMITライセンスのような完全に明確な可視的なオープンソースライセンスではありません。しかし、それを一旦置いておくと、このモデルは本当に素晴らしいベンチマーク結果を持ち、多くのことを上手くこなします。
これは単なる画像キャプション生成モデルではないということを強調したいと思います。このモデルは非常に優れたOCR(光学文字認識)機能を持っています。OCRとは、画像内のテキストを読み取る能力のことです。例えば、Doc VQA、Chart VQA、Info VQAなど、複数のベンチマークがあり、これらのベンチマークはモデルのOCR能力の良さを評価しています。
例えば、私が非常に優れたマルチモーダルモデルと考えているGemini 1.5 Proを例に取ると、Doc VQAでは93.1点を獲得しています。そして、このTinyモデル、わずか1億パラメータのモデル(Gemini 1.5 Proではない)が88.9点を獲得しています。非常に小さなモデル、より少ない計算量、より速い推論、低いレイテンシーが必要な環境を想像してみてください。このモデルはそのような状況で大きな違いを生み出す可能性があります。
Deepseek V2 Smallモデルは92.3点を獲得しており、これはGPT-4oとほぼ同等で、Gemini 1.5 Proをわずかに下回る程度です。これらのモデルはOCR(光学文字認識)において非常に優れています。OCRだけでなく、MMU(大規模マルチモーダル理解)のような真のマルチモーダル能力をベンチマークで比較しても、このモデルは良好なパフォーマンスを示しています。
リーダーのレベルではありませんが、Deepseek V2 TinyモデルをQuin2 VL 2(20億パラメータモデル)と比較すると、MMUでQuin2が41.1点を獲得している一方、Deepseekは40.9点を獲得しており、わずか0.4ポイントの差です。他のベンチマークでも、例えばMath Vistaでは、Deepseek V2 Tinyが53.6点を獲得しており、このクラスのモデルと比較すると全体的に最高の成績となっています。
全体として、Deepseekモデルは非常に優れていると言えます。一般的にDeepseekモデルが極めて優れていることは知られていますが、このビジョン言語モデルも私たちの期待に決して及ばないものではありません。独自のクラウド環境でモデルを実行するための別のチュートリアルを作成する必要がありますが、ローカルマシンで簡単に実行することは難しいかもしれません。チュートリアルの作成に興味がある場合は、コメント欄でお知らせください。
このモデルは、前述のようにOCRだけでなく、画像をアップロードして質問をしたり、画像にキャプションを付けたりするだけでなく、多くの異なるビジュアルタスクに非常に適しています。モデルはミーム理解が優れており、これは多くの人々がGPT-4oのようなモデルをテストするために使用する機能です。
ミームをアップロードして「この画像は何を意味していますか?」と尋ねると、「この画像は博士課程の学生の対照的な思考を面白おかしく描いています」と答えます。研究から完全に切り離すことが難しい博士課程の学生の一般的な経験を示していると説明します。別のミームをアップロードして「このミームを説明してください」と言うと、信じられないかもしれませんが、私はこのようなGPT-4oのようなツールをミームの理解によく使用します。私自身のミーム理解がかなり悪いからです。
この画像をアップロードすると、「この画像は、触れてはいけないケーキに噛みつく子供の視覚的表現を使用して、子供時代の遊び心のある反抗を面白おかしく捉えています」というように理解を示してくれます。このモデルはミーム理解が非常に優れており、また複数画像の会話にも適しています。
例えば、冷蔵庫に10枚の写真があり、これらの材料で何が作れるかを尋ねることができます。モデルは答えることができます。これらの画像をアップロードして「私の食事に合う良い飲み物は何ですか?」と尋ねることができ、答えることができます。また、英語と中国語のバイリンガルです。
ビジョン言語モデルを使用する利点は、画像をアップロードして言語コンポーネントでの議論ができることです。例えば、「写真に基づいて短い旅行話を書いてもらえますか?」と言うことができます。実際に私がこのモデルで最も重要だと感じたのは、このモデルがバウンディングボックスも扱えることです。
通常、ビジョン言語モデルは会話だけができますが、このモデルの場合、バウンディングボックスを扱うことができます。画像をアップロードしてモデルにバウンディングボックスを作成するよう依頼できます。例えば、「全てのスイカのスライスを見つけて」と言うと、スイカのスライスを見つけてくれます。「与えられた画像でスペースニードルを見つけて」と言うと、スペースニードルを特定します。「写真のアルバート・アインシュタインを識別して」と言うと、アインシュタインを識別します。
さらに、WebUIやスクリーンショットでも非常によく機能します。スクリーンショットがあり、「アクションゲームを見つけて」と言うと、アクションゲームを見つけます。「通知の位置を座標と共に示して」と言うと、通知を示します。テキストだけを使用していると思うかもしれませんが、もしテキストだけを使用していれば、アクションゲームだけをハイライトするはずですが、すべてをハイライトします。
ここにHugging Face Spacesからの小さなデモがあります。ここに画像をアップロードして「検索テキストフィールドを選択して」と言うと、見ての通り検索テキストフィールドがハイライトされます。これは完全に新しいモデルではありません。モデルデモは新しく出てきましたが、モデル自体はかなり前から利用可能で、既存のDeepseek Vモデルの新バージョンです。
質問がありましたら、コメント欄でお知らせください。それでは、また別の動画でお会いしましょう。ハッピープロンプティング!

いいなと思ったら応援しよう!