動画を文章で説明する『Video-LLaVA』のデモ版を試してみた。
動画を読み込んで文章で解説してくれるツールが開発されました。オープンソースモデルとのこと。
「Video-LLaVA」は性能評価も高いとのこと。
オンラインでデモ版があったので早速試してみました。
上記のツイートを辿るとリンクがあります。
今回はこちらのデモを試しました。
画像の"text_prompt"には注文を入れます。
デフォルトで"What are these two doing?"とあるので書き換えます。
例えば"What is the person doing?"(この人はなにしてる?)という具合に。
赤枠部分に動画ファイルを入れ読み取らせます。
下に”Run”ボタンがあるのでクリックすると分析が始まります。
筆者がランニングをする女性の動画を読み込ませたところ、ちゃんと「人が走っている」という趣旨の回答を出力しました。