Deep Learningの生成モデルで音楽を「絵」に変える新しいサービス ←ドラマ「オレンジデイズ」からの転用

2019年2月9日 00:42

最近のAIの進化はすごいです。
中でも自分で少しかじっていたこともあり、注目している技術が生成モデルという技術です。
例えば、以下の動画、これはみな実在する人のように見えますが、コンピューターが生成している実在しない人の顔です。

これを応用すると、以下のようにおじさんを若い女性に変換することができたりします。

この生成モデルの技術ですが、結果のインパクトが大きくて面白いですし、話題になることも多いですが、実際に実用化されている例は、画像編集変換系やFaceApp等の面白アプリケーションが多く、莫大にスケールするようなビジネスが生まれているわけではないのが現状だったりします。
　前置きが長くなりましたが、この生成モデルという技術で、新たなビジネスができないかというシーズ起点で新しいサービスを考えてみました。

音楽を「絵」に変える

　そこで考えたのが、音楽を「絵」に変えるというものです。

「オレンジデイズ」が教えてくれた
　突然ですが、2000年ころの大ヒットドラマ「オレンジデイズ」をご存知でしょうか。私は本当に大好きすぎて、（ちなみにオレンジデイズについて語らせたら、それだけでnote 20本は書ける気がしますが、）今でも何度も見返しているのですが、見返していて、一つ「はっ」としたシーンがありました。第10話、ついに結ばれた結城櫂(妻夫木聡さん)と萩尾沙絵(柴咲コウさん)のデートシーンでの一幕です。
　HMVでふと音楽を聴いている櫂。沙絵は耳が不自由なのですが、「どんな曲？櫂の好きな曲を知りたい」という沙絵の質問に、悩む櫂ですが、「ちょっと切ない感じのするロック」と説明するも、うーん、どんな感じかなという反応の沙絵でした。その後、別れ話等いろいろあるのですが、沙絵にどんな曲かを伝えようとした櫂は、曲のイメージを絵にしました。

　くるり「ばらの花」

　櫂が表現した絵(ちょっと載せていいのかわかりません)

わーと思いました。音楽を「絵」で表現するのって新しすぎると思いました。そして、しっかり曲のイメージが伝わるのです。北川悦吏子先生、さすがです。

※ちなみに、オレンジデイズはHuluで配信されています！
https://www.happyon.jp/orange-days

もちろん、これは櫂が思いをこめて沙絵のために描いた絵であるので、思いが伝わりますし、胸を打つのですが、、
これを生成モデルで生成したら、すべての音楽に「絵」をつけられるようになるのではないかと思うと、妄想が止まらなくなりました。

解決する課題
　世の中には音楽がごまんとありますが、タイトルや歌手名を見ただけではどんな曲かわかりません。それを助ける既存サービスとして、過去の聴いた履歴をもとに作成される自分好みのリコメンドやチャンネル、人のプレイリスト(人のキュレーション)を参考にする、ムードでカテゴライズされたチャンネルなどあります。
　ただ、これですと、結局は有名な曲がリコメンドされることが多いですし、自分の今聞きたい曲が、popなのかrockなのかなんてわかりませんし、spotify等で「このチャンネルちょっと思ってたのと違ったなぁ」みたいな経験てあるのではないかと思います。

提供する価値
　提供する価値は、「絵で検索する新たな音楽体験」です。イメージとしては、音楽の一曲一曲が、AIで生成された絵で表現されていて、一覧から絵を見て曲を選べて、その曲が聴けるようなサービスです。
　音楽ストリーミングサービスの中で、異色を放つ存在になりえると思います。

事業的な観点
　イメージとしてはspotifyやapple musicのような音楽ストリーミングサービスです。ビジネスモデルとしては、このサービスは新たな発見みたいなところに価値と競合との違いがあると思うので、聴き放題で月額を取るよりは、意外に音楽の認知を上げたい音楽提供会社から、曲の再生に合わせてお金をもらうようなビジネスモデルでもありかなと思いました。（ロイヤルティを払わないといけないところからお金をもらうのも変な話ですが）

実現性
　とはいえできるのかという話ですが、やはりデータが必要です。オレンジデイズのばらの花のような音楽と絵というペアのデータを相当数集めないといけないと思うので、これは、まずは音楽に絵を投稿する別のサービスを立ち上げてデータを集めるみたいなことをしないといけないかなぁと思います。音楽と絵というデータが数十万ペア集まった前提ですが、そうすれば、最近の生成モデルで圧倒的な成果を出しているGenerative Adversarial Networkという技術を使えば、それっぽい絵は生成できると思います。
詳細は省きます(もしご興味あれば教えてください、別枠で書きます)が、曲のタイトル、歌詞、音楽波形をインプットとして、画像を生成するネットワークを構築し、その画像が本物か偽物かを判定するDiscriminatorのネットワークを構築して、敵対的に学習させて、画像生成器を作り出すのです。
　生成される画像はおそらく鮮明なものにはならないと思いますが、人が逆にその生成画像に慣れていくというか、あーこういう絵はこんな曲かなみたいなイメージを利用者がつかんでいくようになると思うので、サービスとしては成り立ってくると思います。
これできたらすごいなぁと妄想してしまいます。

以上です。私が興味のある技術をベースにシーズ起点で発想してみました。結構妄想が爆発している部分が多く、実現性に乏しいですが、新しい技術を実用化する一つのイメージになればと思いました。
技術観点では、生成モデルは非常に面白い技術ですので、こんなことができるんじゃないか！？があれば是非とも議論できたら幸いです。

あと、別件ですが、オレンジデイズは本当に胸がキュンキュンする大好きなドラマですので、おススメです。

この記事が気に入ったらサポートをしてみませんか？