見出し画像

FLUX.1 [dev] LoRAで実現する商用利用可能な高品質証明写真/ポートレート制作

AI画像生成技術の進歩により、個人向け写真作成が大きく変わりつつあります。
最近注目を集めているFlux.1では、スマートフォンで撮影した10数枚の顔写真があれば、誰でも高品質な証明写真やポートレート写真を生成できるようになりました。
このサービスは商業利用も可能で、一人当たりのトレーニングコストは約300円、1枚の画像生成に4.3円かかります。

近年、プロフィール写真をAIで生成するサービスが増加傾向にあります。
社員証や学生証、さらにはマッチングサイトの顔写真にも、これらのサービスの利用が適していると考えられます。

将来的には、運転免許証のような公的な証明書にもAI生成画像が採用される可能性があります。場合によっては、AI生成画像の方が本人確認に適している可能性も考えられます。

私も、特定の人物の写真をLoRA技術を用いて生成してみました。
ローカルPCでのトレーニングも可能ですが、今回は2つのオンラインサービスを利用しました。
これらのサービスを利用することで、個別にライセンスを取得せずとも商業利用が可能なようです。

FLUX.1 + LORA Trainer


1. Replicate

Select a model で Creating new modelを選んで、名前を決める。

トレーニングに使用する画像を用意します。

トレーニングデータの準備
微調整を始めるには、モデルに教えたいコンセプトを表す画像のコレクションが必要です。これらの画像は、コンセプトのさまざまな側面をカバーするのに十分なほど多様であるべきです。例えば、特定のキャラクターをファインチューニングする場合、様々な設定、ポーズ、ライティングの画像を含めます。
以下にガイドラインを示します:
最良の結果を得るには、12~20枚の画像を使用する。
可能であれば大きな画像を使用してください。
JPEGまたはPNG形式を使用してください。
オプションとして、各画像に対応する.txtファイルを同じ名前で作成し、キャプションを含めます。
画像(およびオプションのキャプション)を入手したら、それらを1つのファイルに圧縮します。

DeepLの訳 https://replicate.com/blog/fine-tune-flux

今回は17枚用意しました。
ファイル名は
a_photo_of_norax5_01.png
a_photo_of_ + トリガーワード + 番号.png

ファイルの大きさは1024 x1024

圧縮して一つのファイルにする。

実在の人物写真ではなくて、Midjpurneyで作った画像をさらにトレーニングしてみる

linput_imagesに入れる。
Trigger_wordを設定。今回はnorax5

あとはデフォルトのままにしました。

Create trainingをクリックして計算が始まります。

トレーニングプロセスは約23分で完了し、コストは2ドル程度でした。

早速画像生成を試みました。
Promptは
"portrait photo of norax5"

なかなかいいのではないでしょうか。

20秒ほどで生成されたので、コストは1枚0.03ドル

しかしながら、同一のプロンプトを使用しても、画像生成が常に成功するわけではありません。実際に、以下のようなエラーメッセージが頻繁に表示され、画像生成が失敗することがあります。

FAL

2023年8月30日時点では、トレーニングコストが2ドルに設定されています。

初期に提供されていた5ドルのバージョンが現在も存在しています。
品質面では現行の2ドルバージョンと同等とされていますが、興味深いことに一部のユーザーがこの旧バージョンを選好する傾向が見られます。
コスト効率の観点から、2ドルのバージョンをお勧めします。
私はこちらを使ってテストしてしまいました。

Replicate時と同じデータセットを使ってトレーニングしてみました。

19分 かかりました。
このバージョンは時間ではなくて、ステップで課金されるようなので、 トレーニング時間に関係なく1000ステップスで5ドルです。

新しいバージョンは5分で終わるらしく、コストは2ドルです。

画像を生成してみます。
Promptは前と同じで
"portrait photo of norax5"

こちらもまた、なかなかいいのではないでしょうか。

コストは0.035

詳しく検証していませんが、クオリティーは2つとも同等と感じます。

商業利用について

Replicateの この説明はちょっとわかりにくいですね。商業利用できるのか確認してみようと思います。

Replicate

一方、Falのサービスについては、商業利用に関する方針がより明確になっています。
公式の情報では商業利用が可能と明記されており、この点は製作者への直接の問い合わせによっても確認しました。

Falのプラットフォーム上で生成された画像については商業利用が許可されているようです。これは、FalとBlack Forest Labs.の間で締結された特別なライセンス契約に基づいているとのことです。
(トレーニングデータをローカルのPCで使って生成したものは、 別のライセンスが必要)

Fal

そのほかのサービス

割高になりますが、もっとシンプルな、これらのサービスもあります。(PR)

こちらのサービスは、FLux.1を 導入しているようです。


この記事が気に入ったらサポートをしてみませんか?