【Ollama】各種Visionモデルで画像生成比較【VLM】
割引あり
はじめに
Ollamaで簡単に利用できる以下のVLM(Vision Language Model)を利用して入力画像からプロンプトを作成し、プロンプトそれぞれでFlux.1(dev)画像を生成して比較します。
比較するVLM
■ llama3.2-Vision
Llama 3.2-Visionは、11Bと90Bのサイズのinstructチューニングされた画像推論生成モデルを含むマルチモーダルLLMです。Meta mllamaアーキテクチャモデルです。
「ollama pull llama3.2-vision」で導入
■ llava-llama3
Meta Llama3でファインチューニングしたLLaVAモデルです。
「ollama pull llava-llama3」で導入
■ llava-phi3
Microsoft Phi3 mini 4KでファインチューニングしたLLaVAモデルです。
「ollama pull llava-phi3」で導入
ComfyUIワークフロー(付録に添付)
結果
まとめ
確かにモデル差によるバリエーションは得られますが、それぞれのVLMに対して有意な特徴や品質の差は得られませんでした。
Flux.1の場合は、プロンプト追従性が高い事のデメリットとして、シードによる差異が少なくガチャにはあまり向きません。Visionモデル側のバリエーションを利用して、生成画像に幅をもたせるやり方はあるかもしれません。
付録
今回利用したComfyUIのjsonファイルを添付します。記事支援いただける場合はぜひよろしくお願いいたします。参考程度にご利用ください。
ここから先は
0字
/
1ファイル
この記事が気に入ったらチップで応援してみませんか?