見出し画像

【Ollama】各種Visionモデルで画像生成比較【VLM】

割引あり

はじめに

Ollamaで簡単に利用できる以下のVLM(Vision Language Model)を利用して入力画像からプロンプトを作成し、プロンプトそれぞれでFlux.1(dev)画像を生成して比較します。

VLMでプロンプトを作成して生成します

比較するVLM

  • ■ llama3.2-Vision

    • Llama 3.2-Visionは、11Bと90Bのサイズのinstructチューニングされた画像推論生成モデルを含むマルチモーダルLLMです。Meta mllamaアーキテクチャモデルです。

    • 「ollama pull llama3.2-vision」で導入

  • ■ llava-llama3

    • Meta Llama3でファインチューニングしたLLaVAモデルです。

    • 「ollama pull llava-llama3」で導入

  • ■ llava-phi3

    • Microsoft Phi3 mini 4KでファインチューニングしたLLaVAモデルです。

    • 「ollama pull llava-phi3」で導入

ComfyUIワークフロー(付録に添付)

ComfyUIワークフロー:1つの入力画像に対して、3種類のVLMで読み取ったプロンプトで画像をそれぞれ生成

結果

入力:スパゲッティ写真
入力:侍コスプレ写真
入力:ポッキーを食べる女性
入力:勉強するガール
入力:AI生成ポートレート
入力:町の景色写真

まとめ

確かにモデル差によるバリエーションは得られますが、それぞれのVLMに対して有意な特徴や品質の差は得られませんでした。

Flux.1の場合は、プロンプト追従性が高い事のデメリットとして、シードによる差異が少なくガチャにはあまり向きません。Visionモデル側のバリエーションを利用して、生成画像に幅をもたせるやり方はあるかもしれません。

付録

今回利用したComfyUIのjsonファイルを添付します。記事支援いただける場合はぜひよろしくお願いいたします。参考程度にご利用ください。

ここから先は

0字 / 1ファイル
この記事のみ ¥ 100〜

この記事が気に入ったらチップで応援してみませんか?