見出し画像

IllusTrip3D.ipynb

Load inputs

コンテンツ(何を描くか)が主要な入力です。そのような説明を分離したい場合は、
スタイル(描画方法)はオプションです。
テキストファイルをロードすると、画像は行から行へと補間されます(コンテンツとスタイルリストの行数が同じであることを確認してください)。

Main settings

FFT法は、画像の逆FFT表現を使用します。柔軟な動きが可能ですが、ぼやけている(滑らかになっている場合)か、ノイズが多い(そうでない場合)。
RGB法は、画像のピクセルを直接最適化します(FFTパラメーター化なし)。ズームインすると、よりクリーンで安定し
ます。CLIPモデルの選択肢はほとんどありません(結果は異なります!)。私は一貫性のためにViT-B/32を好みます、次善の策はViT-B/16です。

ステップは、テキスト行ごとのアニメーションの長さを定義します(入力行数に乗算して、フレーム単位の合計ビデオ期間を取得します)。
frame_stepは、アニメーションの変更の頻度(モーションキーポイント間のフレーム数)を設定します。

Other settings

style_powerは、メイン入力と比較して、スタイル記述の強度を制御します。
オーバースキャンは、より良いフレームカバレッジを提供します(RGB方式に必要)。
interpolate_topicsは、サブジェクトをスムーズに変更します。それ以外の場合は、カットによって切り替えられ、よりシャープなトランジションを作成します。

OOM(メインのRAMを食べる人)に直面した場合、または単にプロセスをスピードアップするために(品質を犠牲にして)、サンプルを減らします。
save_stepは、保存されたフレーム間で実行される最適化ステップの数を定義します。より強力な画像処理のために>1に設定します。
オプティマイザを選択します。
_customオプションはより安定していますが、ノイズが多くなります。純粋なアダムは柔らかいですが、長いビデオでは色付きのぼかしがこぼれる可能性があります。
負のシャープネスは、ノイズを減らすこともできます。

実験的なトリック
aug_transformはいくつかの拡張を適用します。これにより、このメソッドの出力が大幅に変更されます(プロセスが遅くなります)。どちらが自分のケースに適しているかを自分で確かめてみてください。
aug_noise augmentation [FFTのみ!]は、変換による最適化を強化するようです。
マクロはより大きなフォームを後押しします。
強制は、2つの並列サンプル間の類似性を強制することにより、詳細を追加します。
拡張は、前のサンプルと次のサンプルの間に差を強制することにより、多様性を(無関係まで)ブーストします。

Motion section:シフトはピクセル単位で、回転は度単位です。animate_themをマークすると、値が制限として使用されます。

スムーズはまばたきを減らしますが、微妙な画面固定パターンでモーションブラーを誘発します(FFT法でのみ有効、RGBでは無効)。

その他のオプション:
--model MリリースされたCLIPビジュアルモデルの1つを選択します:(デフォルトViT-B/32)、、、、、、。FFTではなくDWT(ウェーブレット)ジェネレーターに切り替えます。、、、、などによって選択される方法はいくつかあります。オプションは、構成(またはより正確にはサンプリング分布)に関するものです。おそらく最も適切です。半シームレスのタイル化可能なテクスチャを作成できます。反復回数を設定します。初心者には100〜200で十分です。500-1000はそれをより徹底的に詳しく説明します。ViT-B/16RN50RN50x4RN50x16RN101
--dwt--wave Xdb2db3coif1coif2
--align XXuniformoverscan
--steps N
--samples N1ステップで処理される画像カット(サンプル)の量を設定します。より多くのサンプルを使用すると、同様の結果に対してより少ない反復を設定できます(またはその逆)。200/200は良い推測です。注意:GPUメモリはほとんどこのカウント(解像度ではなく)によって消費されます!

--decay X(組成の柔らかさ)、--colors X(彩度)--contrast X、特にResNetモデル(色が焦げる傾向がある)に役立つ場合があります。 --sharp Xを大きくした後に画像が「近視」になる場合は、シャープネスを上げるのに役立つことがありますdecay。それは他の色のパラメータに影響します、それらをすべて一緒に微調整する方が良いです!現在のデフォルトは--decay 1.5 --colors 1.8 --contrast 1.1 --sharp 0です。

--transform Xいくつかの拡張を適用し、通常は結果を向上させます(ただし遅くなります)。選択肢はほとんどありません。fast最適のようです。

--optimizer、、またはadam_ adamw_adam_customadamw_custom。カスタムオプションはノイズが多いですが安定しています。ピュアadamは柔らかくなりますが、色がぼやける傾向があります。
--invert「完全に反対」をチェックしたい場合は、基準全体を否定します。
--save_pt myfile.ptFFT / DWTパラメータを保存し、で次のクエリを再開します
--resume myfile.pt。画像ファイルから直接開始/再開することもできます。
--opt_step NN番目ごとのフレームを保存するように指示します(反復回数が多い場合に便利です。デフォルトは1です)。
--verbose(デフォルトでは「オン」)は、一部のプリントアウトとリアルタイムの画像プレビューを有効にします。

  • 効果が明確でないいくつかの実験的なトリック:
    --enforce X2つの並列サンプル間の類似性を高めることにより、詳細を追加します。良いスタートは〜0.1です。
    --expand X前のサンプルと次のサンプルの違いを強制することにより、多様性を高めます。良いスタートは〜0.3です。
    --notext Xプロットされたテキストプロンプトを差し引くことにより、「落書き」を削除しようとします。良いスタートは〜0.1です。
    --noise Xパラメータにノイズを追加し、コンポジションの目詰まりを(ある程度)少なくする可能性があります
    --macro X(0から1)生成をより大きな形式にシフトし、構成の分散を少なくします。品質はサンプルの種類によって異なるため、1に近すぎないようにしてください。
    --progプログレッシブ学習率を設定します(によって設定されたものの0.1倍から2倍までlrate)。場合によっては、マクロフォームの作成を促進する可能性があります(詳細はこちらを参照)。
    --lrate学習率を制御します。範囲は非常に広いです(少なくとも0.001から10以内でテストされています)

いいなと思ったら応援しよう!