DJスタイルのAITuber制作記録【プログラミング初心者がAIを活用】コンテンツの未来を考える
皆さん、あけましておめでとうございます。
年末年始に制作したAITuberの紹介。DJラレリルナ(ルナちゃん)が楽曲を一緒に聴いて批評してくれます。DJスタイルのAITuberはまだ珍しいのではないでしょうか?
このシステムは、音楽生成AI「Suno AI」で作った楽曲を、彼女が一緒に聴いてくれて曲の聴き所を解説 & 応援メッセージを送ってくれるので、作詞をした人の自己肯定感の向上に繋がる仕様になっています。
AITuberの制作とAIプログラミングツールの活用
近年、AIを活用したコンテンツ制作が急速に進化していますね。
その最前線にありながらまだ十分なポテンシャルを発揮できていないのが「AITuber」かなと思い自作にチャレンジした次第です。
なんといっても、自ら試みることにしたきっかけは、サルドラさんの本でした。手取り足取りの丁寧な解説が素晴らしいです。この本が無ければ作れなかった。心からの感謝。
私はプログラミング知識はゼロに等しいので、普段はツールを使うだけなのですが、2022年の後半にChatGPT3.5が公開されてから感化され、AI技術に興味を持ち、その後Stable DiffusionやRVCをローカルで動かせるようになりました。(最近、仮想環境venvの作成をやっと覚えましたよ)。
そんな私でもAIプログラミング「Cursor」と言う、とんでもないツールの出現により今は少々のプログラムなら組めるようになっています。作りたい物を日本語で伝えるだけですし不明点は全てAIに聞いています。コードの中身はコメントアウトの#だらけですけども(プロが見たらゴチャゴチャね)。
これもかなり使い込んだので、初心者向けのAIプログラミング方法については、別の記事で取り上げるかもしれません。AIとの会話のコツはあります。本当にとんでもない時代がやってきました。
AITuberの課題とは
YouTubeやSNSでAITuberを調べると、今はリアルタイム配信で視聴者コメントを抜粋し、コミュニケーションを取るスタイルが主流のようです。
それだけでも十分に可愛らしいのですが、コンテンツによる更なる付加価値をつけたいと考え、音楽好きの自分としては音楽×AITuberと言う視点からDJスタイルのAITuberプロジェクトを思いつきました。
これなら音楽生成AI「Suno AI」で作った沢山の楽曲を活用し(そのうち他の人の楽曲も投稿してもらえば、AIラジオ局みたいな事も出来る?)作った曲を使い捨てにしないで愛でることができます。人は何回も聴くと曲に愛着がわきます。また、デジタルリサイクル(エコですかね?)という観点からも精神衛生上も良いのではないでしょうか。
よくよく考えると歌詞をジックリ読んで音楽を聴くと言う行為も、私自身が数年はしていないので、これを機に歌詞と向き合う楽しさも再発見できますね。普段はApple Musicのサブスクで作業しながら垂れ流しですし。
現在は試作段階で、リアルタイムコメントの抽出機能はオフにしてありますが、今朝のテストではクラッシュせず上手く動作しました。
ちなみに今回の動画+αの約30分でChatGPTのAPI料金は0.1ドル。ドルエン150円計算で15円ですね。と言う事は1時間で30円。24時間で720円。1カ月30日計算で21,600円となります。
GPT3.5を使っている事もありますが「人にはできないAIならではの利点である、24時間365日フル稼働したとしても思った以上に安いと思いました。またテキスト生成部分はローカルLLMやGoogleのGeminiのAPIも試しましたが今はGPT3.5に落ち着いています。今年に軽く速い日本語LLMが出たらまた実装してみたいですね。
AITuber制作で苦労したポイント
サルドラさんの本を読んだ後、AITuberのアバター制作に最初に取り組みました。第一関門のこの部分で多くの人が悩むはずです。VRMアバターの使用を前提に色々とリサーチしたのですが選択肢はいくつか見つかりました。
最初に挑戦したのは「ChatVRM」というオープンソースアプリです。
これならVRoid Studioで無料で作れるVRMを簡単に動かせそうだ。と思ったのですが、AIプログラミングツールに聞いても、どうやらこのプログラムの中身を改変してPythonと連携させるのは難しそうだったんですね。早々に諦めモード。
次に試したのが、とりにく氏のVRMのAIとお喋りできるソフト「VRM_AI」です。
アバターと話す用途では設定が簡単でしたが、私がイメージしていたDJ音楽配信でのプログラムの実装が自分のスキルでは難しそうだったため、これも早々に断念しました。
心が折れかけ…VRMアバターを使わない方向に試したのが、1枚絵の画像の目と口をパクパクさせて動きを付けてみようと言う妥協点。これはAI画像生成で「目の開閉」「口の開閉の何パターンか」を書き出して動かすパターン。
瞬きやリップシンクは実現できましたが、やはり…なんだか…もう少し体や髪の毛も動いて欲しいなと思ってしまったんですね。欲が出てきます。
最終的にたどり着いたのはVRMアバターではなく「Live2Dモデル」を使う事でした。実はLive2Dモデルは制作ハードルも高そうなので(VRoid Studioのように無料で作れない)選択肢から外していたのですが「VTube Studio」と言うLive2DバーチャルYouTuberになる為のソフトをインストールしてサンプルのアバターを動かしてみると「あれ?リップシンクと少しのモーションだけならこれが一番に簡単でシックリくる」と言う印象でした。待機モーションだけでもゆらゆらと動いてくれるし、髪の毛も動くんですよ。と言う事でこれに決定。
「VTube Studio」を使うと決めたからにはアバターの用意が必要です。
全く知らない世界だったのですがアバターの売買もかなり活況のようで。
さすがに1から自作アバターを作るのは難しいため「nizima」と言うLive2Dモデル販売サイトで購入しました。
これにてアバターの問題は解決。
なんだかかなり長くなってしまったので、DJ音楽配信の苦労した部分は元気があれば書いてみようと思います。「Suno AI」で作った楽曲を「どのように組み込むか?」と言う部分も課題が何個かあったので。
使用した技術的なもの
サルドラさんの本で作ったAITuberのプログラム
Open AI のAPI
Suno AI で作った楽曲のmp4
VoiceVox
OBS Studio
VTube Studio
Live2Dアバター
結論
話もとびとびに色々なことを書きましたが、結局のところ「自分で何かを作るのは楽しい」という気持ちを思い出させてくれたこと。この部分においてAIや時代に感謝していますし、毎日ワクワクが止まりません。皆さんも色々と欲望を叶えましょう!作りましょう!今なら実現できますよ!
今年も楽しんでいきましょう。
ご一読いただきありがとうございます。
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?