SD3.5 i2i +α

2024年12月30日 16:41

SD3.5i2i

さて…これからロードバイクのトレーニングに行きますが(もう外は暗いので室内トレーニングですよ)…その前に、SD3.5largeベースのi2iを公開しておきます。

…只、作っておいてアレですが…正直Flux1ベースがある前提で、わざわざSD3.5を使う意味が現時点ありません。

LoRA云々以前に、ベースの時点でFlux1の優位性をまざまざと実感するからです。商用利用可能条件が緩い…点以外の優位性がないのです。

理論的にもベンチマーク時点でFlux1devの優位性ははっきりしていますが、i2iはt2iより露骨に出ているかもしれません。

ここ近日、私はSD1.5やXL、ponyで作成した絵を、upscalingの前にFlux1のi2i処理をかけてrefineする...という作業をしているのですが、露骨にクオリティに差が出ます。

特に元絵に対して、なるべく忠実に処理にしたい…という形に対しては、ControlNetのcannyとdepthを使用して尚、満足な仕上がりになりません。

Flux1の場合、depthを使わずとも、cannyだけで相当元絵に対する追随性の調整が効きます。カスタムしやすいんですよ。

SD3.5は、相当ガチャになります。t2iならともかく、i2iがガチャでは仕方がありませんのでね。

上がFlux1生成の元絵で、下がSD3.5i2iです。cannyとdepthを相当強くして追随性重視の設定ですが…追随性以前に、絵の質そのものの差が大きいです。i2iよりt2iの方画質が良いのでは本末転倒ですが。

…という訳で、現時点、商用利用という観点以外では特に優位性がないSD3.5
ですが、とりあえずまずは作ってみた…という処です。

さて、ローラー台のトレーニングに行きましょうか。

下記事に、技術的なコツについて記しています。自力で革靴の靴底修理とか経験がある人にとっては自明のことばかりですが、参考までに。

結構、勢いに任せて見切り発車した作業ですが…かなりChatGPT(GPT-4omni)に対するプロンプトのコツも掴んできて、かなり誤訳を削減することに成功しつつあります。

何度も見直して、少しずつ手直ししています。

こちらの方が作成しておいてくれた読み下し文が、GPT4oで処理する際にも、かなり威力を発揮しています。

歴史家の矜持にかけてもAI任せの翻訳はしていませんが、かと言って、GPT4oが一発で完成度の高い和訳文を提示してくれるならば、それが最善な訳ですよ、作業効率として。

そこで、編み出したプロンプトが、原文と読み下し文を共に提示する方法です。この方法を採ってから、誤訳が劇的に減りました。我ながら、会心のプロンプトエンジニアリングだったと自画自賛する処です。

ただ、大前提としてこの時代の中国史に関する知識がある…と言う条件は必須ですよ。そもそも、正統的な歴史学を学んだ素地(小説やドラマ等ではなく)がなければ、誤訳や不自然な文章があっても気づきませんから。