実写動画で学習した AIによるアニメの中割り
YouTubeから取ってきたノーカット動画の連続したフレームを学習させることで、アニメーションの中割りの自動化を試みました。
ニューラルネットワークのモデルはこちらのpix2pixモデルをお借りしました。画像変換の汎用的なモデルです。
動画中の連続した3枚のフレームのうち、1枚目と3枚目を入力画像、2枚目を正解画像とすることで、入力された2枚の画像を補間する画像を生成するようにGeneraterを学習させます。
学習に用いた実写動画は、ミュージックビデオ、踊ってみた動画などです。データセットとしては計10,000枚を用意しました。
実際に画像データとして用いたのは640×360pxのうちの中心付近256×256pxです。
白黒画像とカラー画像でそれぞれ学習とテストを行いました。
<白黒画像編>
学習はエポック数8まで、google colaboratory のGPUで3時間くらい・・・。
それではテスト。
入力画像(2枚)
出力された画像
ぐじゃぐじゃですね、使えそうにない・・・。
しかしながら連続して見てみると、頭の位置は補間してるみたいですね。
<カラー画像編>
学習はエポック数32まで、google colaboratory のGPUで6時間くらい・・・。
それではテスト。
入力画像(2枚)
出力された画像
ぐじゃぐじゃですね・・・。変な色がでちゃってるし・・・。
でも、頭の位置と腕の位置は一応補間できてるみたいです。
まとめ
実写動画の方が連続した動画の用意が簡単だと思い、とりあえずやってみたんですがやはりうまくいきませんでしたね。次はアニメーションとかCG系の映像でやってみようと思います。それでもたぶん単純にpix2pixに突っ込んだだけでは、ぼやけてしまう気がしますが・・・。
リファレンス
Huaizu Jiang, Deqing Sun, Varun Jampani, Ming-Hsuan Yang, Erik Learned-Miller, Jan Kautz.
Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation.
CVPR 2018