Contronetを使い動画から動画を作る
今日Twitterで、AIで作られたアバターが踊っている動画を見ました。作り方としては、ダンス動画を使ってAIに書き換えているようです。
やり取りを見て、この動画を知りました。
AI TikToker かわいいね🫶🏻 pic.twitter.com/zX80wml33m
— Nazuna (@challisnazu) April 22, 2023
そしてやりとりを見て、この情報を知りました。
ディープフェイクor AIで作った画像を何枚も切り替えて動かしてるか or Stable Diffusion Automatic 1111 です。私も知りたい🥺https://t.co/G1yCjlwqab
— Nazuna (@challisnazu) April 22, 2023
動画を見ながら試したのですが、服装は分かることなく顔のみAIで書き換えている様子でした。
でも、それでは、意味が無いです。
AIアバターというかAIアイドルで描いた画像で、動いてほしいです。
それで、ネットで色々と探していたら、この記事を見つけました。
ControNetのm2mを使っていました。
でも、この人が作った動画を見ましたが、背景や人物が安定していませんでした。
でも、この記事をヒントにして、ControNetのプロセッサーをCannyからopenposeに変えてみました。
そして、img2imgでバッチとしてセットした画像を使ってポーズを得ることができたら、画像を作ることができるのでは?
と思いました。
![](https://assets.st-note.com/img/1682257683154-IkEwLmxcIb.png?width=1200)
私は、ノートパソコンでグラフィックボードは、RTX3060laptopでVRAMが6GBです。
でも、できました。
![](https://assets.st-note.com/img/1682257769218-fpQSWNWjhS.png?width=1200)
ポーズは良いのですが、服装が乱れてしまいました。
プロンプトを、厳密に書かないといけないと思いました。
GPUのパワーが必要なので、デスクトップパソコンでグラフィックボードもRTX3070以上や4000シリーズの方が、良いと思いました。
一応このような設定で、行いました。
![](https://assets.st-note.com/img/1682260294623-57Y0lLZgmI.png?width=1200)
何とか形にしましたが、服の統一感がないため、紙芝居状態です。
正確には10秒の動画から、102枚のJPEG画像を作りました。
それをStable Diffusion Web UI AUTO1111で、ControNetのOpenposeを使い画像生成しています。
GPUがRTX3060laptop VRAM6GBでは、100枚の画像を使いControNetのポーズ読み取りをして、この画像を作るのに、6時間くらいかかっています。
— 豊かさを学ぶエンジニアM (@masaru21) April 24, 2023
服が統一できたら、滑らかになったかも。
ダンスは、フリーの動画を使っています。#AIart #chilled_remix #AIwork #StableDiffusion #stablediffusionart pic.twitter.com/714gUL7uEh
今は10fpsなので、30fpsにしようとすると単純計算で、私の環境では、18時間は、必要と思われます。
動画を静止画に変換するのは、こちらのサイトを使いました。
ダンスは、こちらの動画を使いました。
https://pixabay.com/videos/id-99591/
機材の支援も含めて、応援して頂ける方を探しています。
創作活動の応援よろしくお願いします。 | ITサポーター・MK https://t.co/sCa2VVqpI8 #pring公式アカウント
— 豊かさを学ぶエンジニアM (@masaru21) April 24, 2023