【検証】AIに歌詞を書かせて、AIに曲を作らせて歌モノを作る
前回、Audiocraftを使ってインストを作成したが、今回はOpenAlのJukeBoxを使って歌モノを作る。なお、今回も使用するツールは「非営利目的」に限り使用が認められるので、未来に向けた演習ということで行っていく。商用利用を期待した人はブラウザバックをオススメする。
目的
既存の楽曲作成プロセスより、効率的に楽曲を作れるか知ること
期待していること
Spotifyとかで沢山の音楽を消費できるけど、AIを消費してクリエイターでなくても、音楽を使った活動にアプローチできること、成果に繋がるか期待できるのではないだろうか。イケていることが分かれば、きっと、YouTubeにもAI楽曲がより氾濫してくるだろう
プロセス
Stepは2つだけ!
AIによる歌詞生成
AIによる楽曲生成
前提
自分が知っている中では、この組み合わせが楽かもしれない
ChatGPT
OpenAI JukeBox
Google Colab(有料版)
AudioCraftと同じくGoogle Colabの無料版で出来るかは検証できていない。別な検証で有料版を使用しているためだ。基本はオープンはオープンと続き、無償で行えるようにしていきたい
実践
歌詞生成
Lofi-Hiphopに使用する歌詞、relaxして眠りにつけるような歌詞をオーダーしたら下記の返答がきた。
曲の生成
とりあえず、Colabのコードをありがたく使わせて貰おう!と思ったが、公式のGoogle Colabが動作しなかった。どうやら、メンテナンスされていないようなので有志(?)の方が作ったColabをありがたく使わせてもらった
詳細は英語が読めない人は翻訳してみてほしい
スレッドのこの部分のリンクを使おう。Colabのコードを自分のColabにコピーして使おう
後は、必要な項目を記載したら、順を追って作成していくだけだ。Colabに設定値に関する説明があるので内容を参照してほしい
残念ながら、Lofi-Hiphopのジャンルは用意されていなかったが、Lofiなら多少近くなるだろうってのと、Lou_Leedならば合うんじゃないかと思い実行した
おおよそ、7時間で出来上がりだ。その間、お茶でも飲みながら他のことをしていよう。そのうち終わっている。
そして、実際に終了した結果がこちら。実際問題、生成中の7時間はメチャクチャ長いと感じる。Logの挙動見ていると最後の最後で落ちたのではと不安になったが、Greenマークだ。たぶん、大丈夫だろう。落ち着いたときに仕様も調べてみるといいのかもしれん
成果物
何というかLoFi Hiphopというジャンルがなかったこともあるが、曲もあいまって音量を下げておけばRelaxして眠れそう
評価
実は、この生成時間も自分で作るよりは短い時間で楽曲が完成している(実測はしていないが半日以上は間違いなく掛かっているからだ)
自分の音楽に理解のない耳からすれば、曲のクオリティも悪くはないかと思う
歌詞が全部は歌われていないので、どっかで設定ミスったか、ガチャ外したかと思ったが、長時間掛けているせいか、どこかで肯定している自分がいる。でも、前提を忘れれば曲としては悪くはないんじゃないか
反省点としてはAIによる生成時間が短くなる方法はないか気になった。今まで、自分の見てきた生成系は長くても5分~10分の世界だったためだ
比較
MetaのAudioCraftはメロディを作れるのか分からないが、インストではあるが少なくても1曲作成するのに数分で作成するので圧倒的に早い。こちらの方が量産はしやすいと思われる。仕組を知る必要はあるが、所謂、ガチャになるのであれば、まだ、Audiocraftの方がよさそうだ
課題
ライセンスの話について
オープンに商用利用も含めて誰でも自由に使用できるか。前述したとおり、本件で使用する音楽作成については、AudioCraftも含めて非営利の利用に限られる。例えば、AudioCraftのソースコードはMITライセンスでも、モデルはCC-BY-NC 4.0が適用される。つまり、ざっくり非商用の理解だ。
そのため、モデルも含めて商用で利用できるオープンソースのプロジェクト、かつ、中々良いクオリティのものを知っている人がいれば教えてほしい。また、代替案として、AI生成よりは効率的に遅くはなるが「オープンプロジェクトを活用して作成できる方法」を検討して目途が立ったら記事として公開していく
動画アップロードについて
YouTubeの動画サイトにアップロードするには、動画らしくする必要があるのではないかと思っている。なぜならば、音楽だけで聴くことはないのではないだろうか、所謂、視覚情報が必要で「絵」が重要であると思っている。むしろ、絵が主役だと思うし音楽はおまけだ。中々、引きがないと聴いてもらうことは難しい。商用につなげるためには尚更だ。強制的な演奏会でもない限り、見ず知らずの人の音楽を他人に聞いてもらうことは難しいだろう。こちらが自分にとっては1番の難易度である。残念ながらAIによるアニメーション生成を見ていると、まだ、実用的な表示は出来ていないので、現状は何かしらユーザの意図に合わせて、手を加えているのではないかといったところだ。まだ、意図した動画を全てAIで作ろうとするより、途中で手作業も組み合わせた方が効率的に作れるのでは?という方法を検討しているので、目処が立ったら記事として書くことにする
今後の未来(音楽のAI生成)について
文化庁が公開している「A I と 著 作 権」の資料を見ていると、正直、音楽も何となくhitして似ているような曲が氾濫している一面も存在するイメージもあるし、最終的に類似性が認められなければOKっていう、絵と同じ解釈になるのではないかと思う。もちろん、学習データのモデルに関する解釈もあるが、面倒なことにならなければいいかなって感じだ。恐らく権利上、面倒にはならないデータセットにはしているのだろうけど。法とは別に人は、感覚、感情、思想は持ち合わせているし、自分の利害でモノを語ることもあるだろう。各々、主観性(本人が想像する未来の実害)は持ち合わせていると思う。何となくだが、法整備が進めば「非商用→商用利用可」になってくる未来が現れてくるのではないか
ただ、AIは消費的でもあるので、生成される内容の変化、バリエーションの表現、クオリティにもよると思うけど、だんだん飽きてくる可能性も出てくるとは思う。自由に使える分、世の中、似たような音楽が氾濫して価値がなくなってくる(ありがたみがなくなってくる)かもしれない
そのときになって、初めてオリジナリティとは何かを考える時代に突入していくのではないだろうか。個人的には営利、作品のクオリティなどで計られるのではなく、何ていうか、誰しも、それぞれがしゃべるだけで尊い、歌うだけで尊いって思う時代が来るんじゃないかと思う。もちろん、声も似た人はいるだろうから、大量に聞けば飽きるのかもしれないが、唯一、個は他と異なるのではないかという解釈に辿り着きそうな予感がする。
純粋に、今まで気付いていなかった別の価値感を見出すときが来るのではないかと
おわり!