見出し画像

<実験>動画生成AI『kaiber』と音楽生成『Music Gen』で旧作VJネタをショートMVに転生させる

〈実験〉動画生成AI+音楽生成AIでVJ的MV

Kaiberとは?

最近動画生成AIまわりのツイートで「#KaiberAI」というハッシュタグをよく目撃します (2023年末、あまり見かけなくなりました😢)

話題の動画生成AIサービスのひとつで、プロンプトから直接動画を生成するtxt2VIDEO以外に、アップロードした動画を何らかのテイストをもった新しい画風に変換するVIDEO2VODEOも可能です

https://kaiber.ai/
15年ぐらい前のサイバーなクラブのような雰囲気が漂うサイト

こちらはartistsjourney.ethによる、KaiberのV2V機能と、3Dキャプチャ技術NeRFとのナイスな合わせ技の例 ↓


MusicGenとは?

metaが2023年6月にローンチした、クリーンな学習元を謳っているオープンソースの音楽生成AIモデル

この記事ではネタ気味に遊びましたが、かっこいい系の生成も試しておきたいので、Kaiberと組み合わせてVJっぽいショートMVを作ってみることにします


▼死蔵している数百のVJ素材を再利用

とはいえ今更、当面使うあてもないVJのネタを一から作るのはちょっとしんどいです😓

そこで、かつてチームでVJ活動していた時期にせっせと作り溜めた、今となっては作りが粗過ぎて使い道がないVJ素材に目をつけました

SDサイズ(640 x 480pix / 4:3)かつ、圧縮ノイズも強い

これら15年モノのデジタル廃棄物たちをあわよくばいい感じに転生させられないだろうか?と期待しつつ実験します

頼むぜAIパワー!

<結果>3作品がショートMVに転生


[1]ジャクソン・ポロック+インプロジャズ

元ネタがガシガシにミックスされているので展開が早すぎますが、美術館にインスタレーション展示されいてもなんとなく「アリ」な感じに生成できました!

▼ <画>Kaiber

  • プロンプトで「oilpainting」「Jackson Pollock」等を指定

  • 元は黒地に白い幾何学ラインのミニマルテクノ用のネタ↓

AIでV2V生成するとフレーム間のつながりが破綻して「画がグニャる」問題があるのですが、それが良い感じに働き、そこそこ成立している「何か」になりました
(※ 音に合わせて多少AfterEffectsでタイムスクラッチ演出を追加してあります)

▼ <音>Music Gen
どちらかというと音(Music Gen)の方で苦闘しました
学習元にオーソドックスなきっちりとした楽曲が多いのか、ジャズのインプロ演奏をいい感じに表現するのが難しいのです

Music Gen
prompt:

sax and piano only,Generate a improvisational jazz music piece reflecting the energy and chaos of a Jackson Pollock painting through a wildly improvisational sax and unpredictable piano. The sax should use unconventional scales and techniques, while the piano should vary its rhythm and pitch unpredictably. piano use high tone key.Ensure a dynamic communication between both instruments,10 second looping,no reverb,no echo
model:
large top-k: 200 top-p: 0 temp: 0.95 CFG 3

苦闘が垣間見えるモリモリのプロンプト

LargeでなくMidiumのほうがいい場合があるという事に気付き、なんとかそれっぽいものを出力できました


[2]ドラムンベース+ノイズ系VJ

▼ <画>Kaiber

  • プロンプトで「anime」「pop」「future」、スタイルに「Lost」を指定

6ネタほどを変換したのち、編集ソフトでざっくりとカット編集しています
「グニャ」る問題がやはりありますが、こういったドラムンベース系の高速スイッチング映像なら、勢いで突っ切れそうな感じです

▼ <音>Music Gen
ドラムンベースは型がだいたい決まっているので、比較的パパっと出すことができました


[3]チャイナ風テックハウス+漢字モーショングラフィック

▼ <画>Kaiber
「漢字のタイポグラフィーネタを水墨画のモーショングラフィックのようにできないか」と思い「Water paint」などの効果を試してみましたが、結果惨敗
どう指示を入れても、水墨画でなく金のレリーフのような謎の中華風紋様が出てきます

Civitaiなどでいい感じの水墨画風LoRAをいくつか見たことがあるので、モデルさえあれば不可能ではないのでしょうが、これはこれで良しとしましょう

漢字だけだと地味なので、かつてVJの現場で組み合わせていた「偽iPodCM」ネタにwatercolorを適用したものと合成します

人物などの具象化だとグニャりが目立ちますね…🤔

▼ <音>Music Gen
せっかくの漢字ネタなので、画の雰囲気に合わせて「胡弓」をサンプリングしたクール・チャイナなテックハウス、という未知な楽曲を目指してみました
…が、胡弓単体だと「ザ・中華」といった趣の楽曲にしかならず、ハウスなどの4つ打ちと混在させようとすると存在が消失するか、違う楽器になってしまいます

やはりAIが学習していない、クリエイティビティが高い組み合わせを一発出力で目指すのは難易度が高いようです
結局中東の笛みたいな怪しい雰囲気の音色になりましたが、これで行きます

ベーストラックと上モノトラックにわけて出力、2つのBPMを同期させてミキシングしました

出力された曲のBMPは安定していてDJソフトで一発でシンクしました!


<結論>2023年6月現在、まだ早い

VJネタのアップデート「△」

「オールドスクールすぎて使いようがないVJネタを、AIパワーで魔法のように新コンテンツにアップデート」を少し期待しましたが、そう甘くはなかったです😅
昔作ったネタが勝手にデコられて新しく出てくるのは楽しいんですが、まだまだ「AI丸出し感」が強く、実用の三歩手前という感じでした

3つやった中では、ポロックのアプローチの先に発展性がある気がしました
いずれにせよ現段階では一発出しは難しく、AE的なポスト処理か、プログラミングとの合わせ技のような話になってくる気がします

楽曲の生成「✕」

Music Genは、打ち込み系はそれっぽいものをパパっと出してくれる(しかも妙にフロアっぽい音質になる)のですが、これを使って曲を作り込めるかというと、まだまだ大幅に無理がありそうです
音楽の発展の歴史を振り返るにつけ、AIでなければ出せないような音色を意図的に利用して、新しいかっこよさを作る、みたいなアプローチになるのかも?と思いました。


<課題> AI変換動画、画像がグニャる問題

現状の動画生成AIは、1フレームごとに直前の画像を参照しながら生成していくので、テクスチャが暴れたり、フレーム間で形状がグニャる問題がどうしてもあります

流行りのAI変換動画が、MMDなどでやたら激しく踊っているものか、カメラ目線のバストアップで顔以外あまり動かないバ美肉おじさんが多いのはこれが理由のひとつです

Kaiberのvide2videoも同様にこの問題があるようなので、現状はむしろこれを「味」として活かす方向にしぼるのが妥当でしょう

<2024年1月追記>
本当にこの周辺は技術発展が早いです!
1つめの「ジャクソン・ポロック」を、2023年末あたりから話題の「DomoAI」につっこんでフラットアニメ風に変換してみたところ、かなり大胆に変換しながらも安定している、面白い出力が得られました

Midjourney同様にDiscordのみで触れるタイプのサービス

V2Vは時間もお金もかかる底なし沼なので、避けて来たのですが、そろそろ自分の環境でも試してみる時期なのかも…と思いはじめています


<あわせてどうぞ>

こちらの記事ではKaiberにかつて作った長編モーショングラフィックス作品をまんま突っ込むという試みをしています
ぜひご覧ください!




X(Twitter)で
AIニュースをポストしています
フォロー頂けると嬉しいです!


いいなと思ったら応援しよう!

この記事が参加している募集