見出し画像

AI動画を作成してみた(text-to-video)

今回は、Google Colabで動くtext-to-videoの紹介です。テキストから2秒程度の動画を作成することができます。但し、Google ColabのProプランでGPUを使わないとならないです。それでも、テキストから動画を作成することができるので、今後数年以内に更なる改良がなされて、言葉で動画を作成できる時代が来るのだと実感せずにはいられません。


今回参考にさせて頂いたのは、下記ページです。下記ページを見ると、最先端技術に興味があるのならCVを送って下さいとあり、送り先がアリババのメールアドレスになっているので、アリババの人が作ったみたいです。


今回、Google Colabで動くコードは以下です。GPUを使うようにしてください。今回のpromptは「雪を食べるパンダ」です。

!pip install git+https://github.com/modelscope/modelscope.git 
!pip install open_clip_torch
!pip install pytorch-lightning
!pip install huggingface_hub
!pip install modelscope.pipelines
!pip install modelscope.outputs

from huggingface_hub import snapshot_download

from modelscope.pipelines import pipeline
from modelscope.outputs import OutputKeys
import pathlib

model_dir = pathlib.Path('weights')
snapshot_download('damo-vilab/modelscope-damo-text-to-video-synthesis',
                   repo_type='model', local_dir=model_dir)

pipe = pipeline('text-to-video-synthesis', model_dir.as_posix())
test_text = {
        'text': 'A panda eating snow.',
    }
output_video_path = pipe(test_text,)[OutputKeys.OUTPUT_VIDEO]
print('output_video_path:', output_video_path)


実行が終わると/tmpに.mp4ファイルが作成されるので、ダウンロードしてみてみましょう。

実行結果の.mp4ファイルはnoteじゃアップロードできないので、下記のtwitterにアップロードしました。動画もそのままtwitterにアップロード出来なかったので、撮影した動画をアップロードしています。


この記事が気に入ったらサポートをしてみませんか?