見出し画像

テキスト入力で25秒程度のAI動画を作ってみた(text-to-video-ms-1.7b)

今回は、テキスト入力でAI動画を作成してみました。モデルスコープでtext-to-videoが話題になっていますが、今回の紹介は、Google ColabでGPUのプレミアムを作って1分程度で25秒程度のAI動画が作れるものとなります。

下記のページには、GPUが16GBあれば25秒のビデオを1分以内に作成することができます。テキストからのビデオ作成時間の短縮が今後の発展に寄与するのだろうと思われます。


今回は、下記のコードでGoogle ColabでGPUをプレミアムにして作成しました。

!pip install git+https://github.com/huggingface/diffusers transformers accelerate


import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

# load pipeline
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)

# optimize for GPU memory
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()

# generate
prompt = "Panda is eating snow. Panda is making snow ball."
video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames

# convent to video
video_path = export_to_video(video_frames)

上記を実行すると、/tmpのところにmp4ファイルが作成されます。ダウンロードして確認してみましょう。

今回作成された動画を掲載できないので、画像だけ載せてみます。

パンダらしきものが、雪であろう白い上を走っています。雪だるまを作っている動画は作成されていませんでした。

今後、このtext-to-videoは進化してくると予想されますので、目が離せなくなりますね。

この記事が気に入ったらサポートをしてみませんか?