見出し画像

【Ollama】各種Visionモデルで画像生成比較【VLM】

割引あり

2024年11月10日 05:54

はじめに

Ollamaで簡単に利用できる以下のVLM（Vision Language Model）を利用して入力画像からプロンプトを作成し、プロンプトそれぞれでFlux.1(dev)画像を生成して比較します。

VLMでプロンプトを作成して生成します

比較するVLM

■ llama3.2-Vision
- Llama 3.2-Visionは、11Bと90Bのサイズのinstructチューニングされた画像推論生成モデルを含むマルチモーダルLLMです。Meta mllamaアーキテクチャモデルです。
- 「ollama pull llama3.2-vision」で導入
■ llava-llama3
- Meta Llama3でファインチューニングしたLLaVAモデルです。
- 「ollama pull llava-llama3」で導入
■ llava-phi3
- Microsoft Phi3 mini 4KでファインチューニングしたLLaVAモデルです。
- 「ollama pull llava-phi3」で導入

ComfyUIワークフロー（付録に添付）

ComfyUIワークフロー：１つの入力画像に対して、３種類のVLMで読み取ったプロンプトで画像をそれぞれ生成

結果

入力：スパゲッティ写真

入力：侍コスプレ写真

入力：ポッキーを食べる女性

入力：勉強するガール

入力：AI生成ポートレート

入力：町の景色写真

まとめ

確かにモデル差によるバリエーションは得られますが、それぞれのVLMに対して有意な特徴や品質の差は得られませんでした。

Flux.1の場合は、プロンプト追従性が高い事のデメリットとして、シードによる差異が少なくガチャにはあまり向きません。Visionモデル側のバリエーションを利用して、生成画像に幅をもたせるやり方はあるかもしれません。

付録

今回利用したComfyUIのjsonファイルを添付します。記事支援いただける場合はぜひよろしくお願いいたします。参考程度にご利用ください。

ここから先は

0字 / 1ファイル

この記事のみ ¥ 100〜

3Dモデルや写実的なAI画像の実戦テクニックやノウハウをアップしていきます。

このメンバーシップの詳細

ベーシックプラン

¥1,000 / 月

初月無料

写実的な3Dレンダー作品や生成AI作品のテクニック・ノウハウを公開していきます。

3Dモデルや素材・データなどのダウンロード販売を伴わない有料記事がすべて閲覧できます
一部のダウンロード販売も公開します。
メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます

この記事が気に入ったらチップで応援してみませんか？