見出し画像

【動画生成AI】Pyramid Flowが別格で高性能過ぎる【ローカル環境/自分のPCで】

▼前回

前回の記事で、PCの不具合等で完全に紹介しきれていなかった“Pyramid Flow”ですが、セットアップもうまくいって、実直に検証してみました。


【結論】
正直、“Cog Studio”と比べ物になりませんでした。

Cog Studio
720px/480px ( 6秒 8fps ) ➡ 10分( “inference_Steps”=30 )
720px/480px ( 6秒 8fps ) ➡ 5分( “inference_Steps”=16 )

Pyramid Flow
640px/384px ( 5秒 24fps ) ➡ 2分
1280px/768px ( 5秒 24fps ) ➡ 10分
1280px/768px ( 10秒 24fps ) ➡ 20分

デフォでfps3倍でフレーム補完不要なくらいスムーズに動くのに、動画の長さ対生成時間でも勝るとは…。



生成例

※ここで載せている例は全て画像から動画を生成してます。

今回はプロンプトも載せてます。情報を詰め込むために文法無視してるのでそこは気にせず。

公式でプロンプトの例が載ってるのでこれを参考にしたりAIに真似させたりして使いましょう。

Pyramid Flow

Pyramid Flow: Revolutionary Autoregressive Video Generation Technology

■猫

HD画質5秒間の生成。
最後ちょっと崩壊してますが、整合性のある猫の動きです。ジャンプしてくれなかった。
雪は降ってる。

A fluffy cat jumps in surprise. The snow under feet was kicked and blown away. Powdery snow falling.


■00年代漫画原作がありそうな映画風

翼が消えたけど、人間の方はクオリティが高い。映画作れる。

Camera pulls, cinematic Scene 2000s, A winged girl holds a gun, tilt arms and torso, city background, strong wind shakes hair and feathers


■骨と炎

掃除機の方は動いてませんでした。プロンプトの重要性(画像生成時のものをそのまま使ったので最適化されてなかった)。
炎は動きがいいですね。

a silver skeleton in a black robe and hood is using a vacuum cleaner to clear a room engulfed in flames


■liminal space的な

やはりだんだんと整合性が取れなくなっていきますが、手持ちカメラで撮影してる感あります。

camera passes through corridor inside apartment


■ロボットが遊園地を破壊

ファンタジー色の強い事象が多めに起きている画像とプロンプトで生成しましたが、一応全部動いています。
『AI動画で実写風○○作ってみた』系でも使えそう。

a Giant robot attacks amusement park. explode everything, Collapsed buildings and Smoke rises quickly, piles of rubble, burning,
Roaring flames, people running away


■ダイナーのロボ

動きが大きめなのはいいですが、鼻が消えてしまってます。

camera shake, a retro robot  sways his arm in the 1950s diner, blurry foreground, looking at viewer


■水中猫

毛が抜けましたが、それ以外は破綻なく動いています。
Pyramid Flowはふわふわに弱いのかも?
水の表現には強い。

a fluffy cat swims fast, under water,water caustics,ripples refrection,The camera follows the cat's movement


■香ばしいパン

破綻に目をつぶれるくらいの、充分な精度です。

camera orbits around a tasty baked bread, with smoke, on the simple black background, 35mm camera


■低画質Backrooms風

画質を落として2分で生成した動画です。次元が不安定なAI動画ならではの良さが出てますね。Backrooms系とかホラー系動画でも使える。

camera passes through corridor inside apartment,fish eye, low resolution video


おまけ

20分かけて10秒の動画を生成。早めに波が崩れたので画質が荒くなってしまった。

生成したのは5秒の動画だが、動画の前後数回ずつPremiere Pro Betaの生成拡張で長くした。色味が少し変わったがあまり違和感がない。

締め

現状これ一択ですね。動画生成AIをPinokioで使うとモデル当たりCドライブを30GB圧迫するので、Pyramid Flowだけ入れましょう。

近いうちに、AI動画でちゃんとした作品を作ってみようと思います。

いいなと思ったら応援しよう!