72日間AIショートフィルム制作チャレンジ【36日目～40日目】

kiow-kenzo

2025年1月10日 15:29

AIによる画像、動画、音楽・音声などの生成のレベルがこれだけ向上しているので、パソコン内で完結して1人でそれなりの映画を作れるのではないかと考え、このプロジェクトを開始することにしました。

詳しいプロジェクト内容についてはこちら

ここでは、日々のプロジェクトの進捗具合について報告していきます。

36日目：プロトタイプ制作⑤

カメラ移動ショット

本日はカメラ移動ショットに挑戦。

通常のズームやパンなどはGen-3のカメラコントロールで可能ではあるが、さらにダイナミックな動きを試してみる。

用意したのは以下の3枚の画像。

Gen-3で①を最初、②を中間、③を最後のリファレンス画像とする。

意図したのは、クレーンダウンからの女性へのクローズアップの動き。プロンプトはこうした。

Camera cranes down for a close-up on the woman on the left:
The woman on the left and the man on the right are talking in a relaxed atmosphere.
カメラはクレーンダウンし左側の女性にクローズアップする
左側の女性と右側の男性はなごやか雰囲気で話している

男の腕がピクリとも動かないのはなんとも不自然ではあるが、おおむね意図した通りの動きができた。

背景が本棚で本が並んでいたので、リファレンス画像が切り替わる所で、本がゆがんで映像に違和感がでている。大きくカメラを動かす時は、背景はシンプルな方がよさそうだ。

37日目：プロトタイプ制作⑥

音声合成ソフト

本日は、Gen-3でのリップシンクを試す。まずは音声合成ソフトが必要なので探してみる。

VOICEPEAK 商用可能 6ナレーターセット

女性3人、男性3人、女の子1人のセット。商用利用可能。日本人の声優さんなので日本語に強そうなので購入を決める。23,800円（税込）

感情表現やアクセントなどこまかな設定ができるようだ。

簡単なセリフを生成して音声ファイルをダウンロードする。

38日目：プロトタイプ制作⑦

リップシンク

本日は、昨日制作した音声ファイルをもとにリップシンク動画を作ってみる。

自然な感じに仕上がっている。AIってすごい。

39日目：プロトタイプ制作⑧

Act-One

Gen-3のAct-Oneは撮影したビデオに合わせてリファレンス画像や動画に動きと音声を付ける機能。

通常のリップシンクではどうしても表情が平坦だったりするので、こちらも試してみる。

まずは、iPhoneカメラで自分の話している所を撮影する。その動画をGen-3にアップしてリファレンス画像を動かしてみる。

よく動く！しかし、なんだか自分の顔に似てきてしまう。

40日目：プロトタイプ制作⑨

Act-OneとD-ID

自分のビデオを使うと、リファレンス画像が自分の顔に似てきてしまう。

よって、まずリファレンス画像を動画化した上で、Act-Oneをしてみることにする。

自分のビデオを使うと、かなり表情が自然で生き生きとしたものとなる。

しかしながら、その動画と生成したセリフの音声ファイルをぴったりシンクさせるのは難しい。

セリフのタイミングを合わせるように練習すればいいのだけど。

よって、まず音声ファイルをもとにD-IDを使ってアバターを作ってみることにする。

そのアバターをもとにAct-Oneで動画をつくる、という方法を試してみる。

表情も豊かで自然な動きになった。

基本的にはこれでいいが、短いセリフや大きな表情は自分でビデオを撮ったものを使うほうが効果的だろうなと思う。