見出し画像

実写動画で学習した AIによるアニメの中割り

YouTubeから取ってきたノーカット動画の連続したフレームを学習させることで、アニメーションの中割りの自動化を試みました。

ニューラルネットワークのモデルはこちらのpix2pixモデルをお借りしました。画像変換の汎用的なモデルです。

動画中の連続した3枚のフレームのうち、1枚目と3枚目を入力画像、2枚目を正解画像とすることで、入力された2枚の画像を補間する画像を生成するようにGeneraterを学習させます。

学習に用いた実写動画は、ミュージックビデオ、踊ってみた動画などです。データセットとしては計10,000枚を用意しました。

実際に画像データとして用いたのは640×360pxのうちの中心付近256×256pxです。

白黒画像とカラー画像でそれぞれ学習とテストを行いました。

<白黒画像編>

学習はエポック数8まで、google colaboratory のGPUで3時間くらい・・・。

それではテスト。

入力画像(2枚)

画像2

画像3

出力された画像

画像4

ぐじゃぐじゃですね、使えそうにない・・・。

画像1

しかしながら連続して見てみると、頭の位置は補間してるみたいですね。

<カラー画像編>

学習はエポック数32まで、google colaboratory のGPUで6時間くらい・・・。

それではテスト。

入力画像(2枚)

画像5

画像6

出力された画像

画像7

ぐじゃぐじゃですね・・・。変な色がでちゃってるし・・・。

画像8

でも、頭の位置と腕の位置は一応補間できてるみたいです。

まとめ

実写動画の方が連続した動画の用意が簡単だと思い、とりあえずやってみたんですがやはりうまくいきませんでしたね。次はアニメーションとかCG系の映像でやってみようと思います。それでもたぶん単純にpix2pixに突っ込んだだけでは、ぼやけてしまう気がしますが・・・。


リファレンス

Huaizu Jiang, Deqing Sun, Varun Jampani, Ming-Hsuan Yang, Erik Learned-Miller, Jan Kautz.
Super SloMo: High Quality Estimation of Multiple Intermediate Frames for Video Interpolation.
CVPR 2018



いいなと思ったら応援しよう!