Suno v3.5を使ってみて ~技術調査と見せかけての音楽的評論~
はじめに
いとまと申します。
今回は音楽生成AIとして知られるSuno AIの最新版であるv3.5を使ってみた感想について、つらつらと書いていきたいと思います。
Sunoについて
Sunoとは、歌詞を入力してジャンル・曲調・楽器などをプロンプトとして打ち込むと、ものの数十秒で高品質の楽曲が生成される音楽生成AIです。
歌詞自体もツール内で生成可能なので、実際のところユーザーはほとんど何も考えなくても曲を生成することが可能です。
(……ここまでユーザーの意図が寄与しなくても生成が可能となると、内閣府・AI時代の知的財産検討会が言うところの「AI生成物の著作物性」においては、著作物に含まれるのかかなり怪しいラインに思えますね。トラブルが発生した際、その生成物に人の意図がどれほど介在していたのか、どのように判定するつもりなのでしょうか)
Suno社は2024年5月21日は最新の資金調達ラウンドで1億2,500万ドルを確保し、企業価値は5億ドルにも達しました。
これからもモデルの品質を加速度的に向上させ、人の作った音楽と区別がつかないレベルになっていくこと間違いないでしょう。
音楽生成AIには他にもUdioやSonautoなどがありますが、今のところ言いたいことは正直同じなのでまとめて論じてしまいたいと思います。
使ってみた感想
出てくる曲のクオリティ
実際のところ、そのクオリティはどうなのでしょうか。
適当にChatGPT 4oに書かせた歌詞に(Verse)だの(Chorus)だのつけて入力してあげると、「良い曲しか作れないのか!」と思うくらい、品質の高い3~4分の曲がポンポン出てきます。
ドラムンベース系のサウンドなのにベースの輪郭がボヤボヤしていたり、日本語の発音が少し甘かったりと、まだ耳をすませてよく聞けば粗が目立つ部分はありますが、これは音源分離の品質や学習データを増やしていくことですぐに解決していくことでしょう。たまにアボイドノートや並行五度など音楽的に禁忌とされるような音を鳴らしてしまっているのもご愛嬌、音楽理論で少しチューニングしてあげればこんなしょうもないミスはしなくなるでしょう。
歌詞の尺に合わせて曲をちょうどよく調整するのは人間の作曲家にとってもかなりテクニックが必要な部分なので仕方ないとは思いますが、途中途中フレーズが尻切れとんぼのようになってしまう点はいただけません。これはできるだけ早く対応できるようになってくれると嬉しいポイントです。
注文の自由度
一方で、5月13日に公開されたLogic Pro 11搭載の「Session Player」というAIによるフレーズ生成機能のように、調やコード進行をまだ指定できないのは自由度の低さと言えます。
それすらも可能になれば、画像生成AIがそうなりつつあるように、「人間のクリエイターに作品を注文する」のと同様に、「AIに作品を注文する」ような時代が訪れるかもしれません。
私が受けた衝撃の度合い
実を言うと、音楽生成AI Sunoの登場およびv3.5へのアップデートにおいて、私はいわゆる驚き屋の皆さんのようにはあまり衝撃を受けていません。むしろ、もう人間の作曲家がいらなくなるかもしれない!というレベルの論調で騒がれていたものがこれか……と、ちょっとした失望を覚えました。
楽曲生成AIがもしこのままの方向性で進化していくのであれば、手書きで文章を書いていた時代にワープロが登場した時や、生演奏の時代にDTMが登場した時と大差ない、あるいはそれ未満の技術革新に終わってしまうのではないか。シーンをがらっと一変させるほどのものにはなり得ないのではないか。そう感じています。
音楽生成AIの弱点、AIは何故まだ人間にはなれないのか
私が思うAIの最大の弱点は、まさに先ほど書いたばかりの「良い曲しか作れない」という点だと考えています。
「良い曲」とは何か
まず、人間の作曲家にとって、「良い曲を作る」というのは誰にでもできる初歩中の初歩の部分だと思います。
メロディを8小節の倍数で構築して、IV→V→III→VI進行でも鳴らしてあげて、主音からコード・トーンへの跳躍と順次進行を適度に交えながら、最後には主音に落ち着くようなメロディをつける。たまにはペンタトニック的なアプローチでキャッチーにしてあげて、サビで一気に七音使うことで世界観を広げてあげる。おそらく大抵の作曲家さんは、このような「良い曲」を5分もあれば作ることができると思います。この5分というのは、かのすぎやまこういち御大がドラゴンクエストの『序曲』を書いたという逸話がある時間ですね。『序曲』は流石に例外的としても、実際大半の作曲家は5分あれば「良い曲」くらいなら作れるでしょう。
Sunoは「良い曲」を作るのが大得意
Sunoには、「良い曲を作る」ということがかなりの水準でできています。IV→V→III→VI進行を2回繰り返したら、3回目にはIIIをIIIMajに置き換えてあげることでなんともエモい半音上行の響きを生み出す、などという「良い曲」あるあるまできちんと再現してくる。ニクいもんです。
ただし、それができるのは「あるある」で、学習データに似たものが多数含まれているからです。
「ギターメタルの上で激しくブラスが鳴っている」「future bassの上にかわいい女の子のラップが乗っている」といった、世の中に存在しないわけではないがあまり頻出ではない音楽性の曲は生成することができない、または品質がガクッと下がる傾向にあると感じました。(前者はLinked Horizonの『紅蓮の弓矢』、後者はYunomiの『インドア系ならトラックメイカー』をイメージしています。いずれもヒット曲ですが、類似の音楽性の曲はそう多くありません)
Sunoは深層学習技術によるAIですから、作ることができるのは、あくまで該当する音楽性の曲をそれなりの数知っている場合で、ほとんどデータがない音楽性には対応できません(この様々なジャンルへの対応幅はまだUdioの方が優れているとは感じますが、本質は変わりません)。
そして、ヒットソングとは基本的には「既存の名曲がやっていない、新しいことをしている」ものであると私は考えています。
ヒットソング≠良い曲
「たった12音で構成されるメロディのパターンなんて出尽くしていて、もう他の曲と被らないメロディを作るのなんて不可能」「コード進行も楽器の重ね方も、全部既に出ている曲を組み合わせているに過ぎない」このような言葉をよく耳にすることがあるかと思います。
それはある意味正しいかとも思います。どんな曲も、必死に探せば過去にほぼ同じメロディの曲を見つけることができるでしょう。(某アイドルグループの4000万曲超の曲を初めて聞いた時、私はほぼ同じサビメロを保つ曲を既存曲から2曲想起することができました)
そうであれば、AIが過去のパターンから学習して作る曲は人間が作る曲となんら遜色なく、ヒットチャートを席巻するポテンシャルと同等程度には持っているということになるはずです。
しかし実際にはそうならないと考えています。それは確実に新しい音楽性というのが生まれ続けていると感じているためです。
2020年代の音楽は2010年代とは確実に異なっていますし、それ以前の音楽ともやはり違うと一聴して分かります。リリースカットピアノがここまで「おしゃれ」のテンプレートになるなんて10年前には予想だにされていませんでしたし、ポップスのサビど真ん中でBlackadder Chordを鳴らしていいなんて10年前には誰も思っていませんでしたが、今はそんな曲が数多く生み出されています。
またヒットさせたい曲は8小節の倍数で作るべきではない、などとする論調もあります。途中途中にインパクトのあるフレーズやキメを入れて、あるいはフレーズに延長や変拍子を入れて、曲が退屈にならないように各作曲家がそれぞれのアイデアで独自の試みをやり続けています。(この点、現状のAIは最も"ベタ"な8小節の倍数に強く引っ張られる傾向にあります)
とっくに掘り尽くされたはずの鉱脈で、人間の作曲家はまだ足掻いているのです。その足掻いた結果、奇跡的と言うべきか、新たな音楽性は生み出され続けており、それがヒットソングを生み出す原動力になっていると考えています。
では、メロディのパターンが出尽くしていて、音楽性もこれ以上広がりようがないとしか思えないこの音楽シーンで、どのように人間は足掻いているのでしょうか。その例を見てみましょう。
人間だからこそ作れる「おかしな」音楽
まだ存在しない音楽を開拓しようとする場合、多くの作曲家は「現代音楽」という前衛芸術に走ります。その大半は、確かに新しいには新しいが何の感動も生み出さない「前衛的なだけ」の作品に終わります。
曲の最後にティンパニに頭を突っ込んでみたり、同じモチーフを840回に渡って繰り返してみたり、12音をランダムとしか思えないパターンで鳴らしてみたり、無音でピアノの前に座ってみたりしますが、これらは斬新さから一時的に話題にはなるものの音楽として優れているとの評価を長期的に受けることは滅多にありません。
しかしながら、その中から奇跡的に「なんか変な曲なんだけど中毒性がある」と評価を受ける曲が登場していきます。
例えば、2023年8月に投稿されるやいなや話題となりYouTube・ニコニコ動画合わせて3000万再生を突破している原口沙輔さんの『人マニア』はアボイド・ノートや無意味な転回形など、音楽理論的な「禁忌」を犯しまくっており、楽曲としては信じられないほど崩壊しています。
詳細はこちらの、作曲家のトイドラさんの動画でよく解説されているので、ご覧ください。
しかしこの極端なサウンドが、「癖になる」「中毒性がある」と評価され、原口沙輔さんのボーカロイド処女作でありながらヒットに繋がる結果となりました。
また、YouTubeで1.2億回再生を突破しているNiziUのデビューシングルである『Step and a step』のAメロでは、何の脈絡もなくスケールから外れた音であるFが登場することで「気持ちの良い違和感」が発生しています。
あまりにも突然なので「気持ち悪い」と感じる方も多いかもしれません。しかしこれが、結果としてヒットしているのだから正義として受け入れる他ありません。これがAIに予想できるものでしょうか。
これについても作曲家の和田貴史さんがYouTubeで解説されているので、紹介させていただきます。
また、2020年代ボカロ曲の代表曲の一つともいえるいよわさんの『きゅうくらりん』も、かなりめちゃくちゃな音が鳴りまくっていますが、6000万再生近くの数字を得ており、「独特の中毒性」として評価されていることが分かります。
一説によれば、うつ病を患っている主人公の起き上がれない苦しみと、それを急かすような目覚ましの音を表すメチャクチャなリズムのパーカスが焦燥感を表す音として鳴り続けており、それが独特の落ち着かなさを生み出しているとのことです。
こちらもトイドラさんが細かく分析されているので是非ご覧になってください。
いずれにせよ、ヒット曲の全てとは言いませんが、その多くは「今までのJ-POPで、いや世界の音楽で聴いたことがない」というサウンドを着実に開拓して、相応の評価を受けているのです。
現状の、「どこかで聞いたことがあるような良い曲しか作れない」AIでは太刀打ちできるはずもありません。
追加で紹介すると、極めて特殊な転調で、私の限りある知見の中では、多くの方の意見を募っても2曲しか見つけられなかった特殊な転調というものが存在します。
それは、「メロディは転調していないが、コードのみ転調している」というタイプのリハーモナイズです。
どういうことかと言うと、メロディで限られた音しか使っていないため、コード(伴奏)が別の調に転調しても破綻なく聴くことができるというものです。その2例とは、アニメ『ハナヤマタ』のOPである『花ハ踊レヤいろはにほ』とアイドルグループ≠MEの『偶然シンフォニー』です。
『花ハ踊レヤいろはにほ』の歌いだしではイントロではA♭メジャーキーとしてコードが鳴らされているのに、サビ(0:51~)では全く同じメロディがE♭メジャーキーの伴奏の上に乗っているので異なる印象を受けますし、響きも大きく異なっています。
『偶然シンフォニー』では、通常のサビではF#メジャーキーのところ、ラスサビ前の落ちサビ(3:00~)ではメロディをそのままに伴奏だけがBメジャーキーになっています。複数のキーで成り立つようなメロディを書く技術もさることながら、それを曲中でさらっとやってのけるのは流石にプロの手腕に舌を巻かざるを得ません。
様々な有識者たちに聞いて回りましたが、このような楽曲はこの2例しか発見することができませんでした。このことからも分かる通り、人間が作る音楽性の幅は枯渇してなどおらず、まだまだ新しい試みがなされ続けており、そのうちのいくつかが成功してヒット曲を生み出しているのです。
ですから、私はむしろ過渡期の「アボイドノートをうっかり鳴らしてしまう」くらいのAIの方が、進化してどんどん破綻ない曲を作れるようになっていくAIよりも魅力的に映ります。
Stable Diffusionのような画像生成AIは、「良い絵」ばかり作れるようになってしまいました。イラストであれば、もしかしたらそれで十分なのかもしれません。(それでも退屈だとは感じてしまいますが)
しかし音楽については、「良い曲しか作れない」は「作曲家が5分でできることを、非作曲家でもちょっぴり楽にできるようになったに過ぎない」としか私には捉えられません。勿論、一切楽曲を作れない人が自分の(音楽を主体としない)作品のフレーバーとして曲を作るのにはちょうど良いでしょうし、局所的な場面でのコストダウンには繋がると思うのですが、人間の創造性に大きなインパクトを与えるかと言うと疑問符を抱かざるを得ません。
むしろAIには「変な曲」を量産できる存在であってほしかった
画像生成AIが最も注目を集めたのは、不気味の谷まっしぐらの気持ち悪い、人間では到底思いつかないような奇妙な画像を生成できるタイミングだったと思います。
勿論それだけでは一時的な話題性で終わってしまうリスクがあるのも分かるのですが、人間の労働力は想像以上に安価で、そしてそれでいて極めて創造的になれる可能性を秘めています。例えて言うならばAIを☆3まで出るガチャとするなら、ココナラやSKIMAに落ちている人間の作曲家は低確率で☆5を出せるガチャなのです。
そういった意味で、私には音楽生成AIがそう簡単にヒット曲を出せるとは思いません。
そうであるからには、楽曲生成AIは極度に洗練されずに、最初にMidjourneyが登場した時のように、「人間には到底思いつかない奇妙な生成物」を繰り出す存在であってほしかったのです。いえ、これはたとえ学習データが増えてモデルが洗練されたとしても、不完全で奇妙な作品を生み出せるオプションを残しておいてほしいという話かもしれません。
イラストであれば、指が6本あるべきではないというある種の「正解」がありますし、髪の毛と首飾りが融合していてはいけないという「正しさ」があるのですが、音楽には実際のところそれがありません。
音楽は、十分に洗練されていないバグじみた出力があってこそ、ヒットの可能性が最大化されるものだと私は思うのです。
私は本ブログの序盤で「たまにアボイドノートや並行五度など音楽的に禁忌とされるような音を鳴らしてしまっているのもご愛嬌」と書きましたが、正直なところこれは今のSunoの良さであり、淘汰されるべきでない点だと思っています。
唐突に不協和音を鳴らしてみて、12音階から数セントずれた音を鳴らしてみて、意味のわからない部分でノイズを鳴らしてみる。それこそが最も創造的で健全な楽曲生成AIの使い方だと思います。
AIは人間にはなれない
しかし音楽理論から外れた音の出力を許容したところで、果たしてSunoや他の楽曲生成AIはNiziUの『Step and a step』に登場するFの音を「気持ち良いと思ってもらえるかもしれない」と認識できるでしょうか。
ただただ予定調和から外れた不快な不協和音と、区別をつけられるでしょうか。
人間ですらそれは極めて難しく、人によって意見が分かれるところなのに、画一的なアルゴリズムを持つAIにその判別がつくのでしょうか。
それができないのであれば、今の「良い曲」を量産できるAIを捨てて、ハズレも多く登場する代わりにたまに斬新で面白い曲が生成されるガチャを設計することになり、結果としてガチャを引き続ける人間のセンスに依る部分が更に大きくなるでしょう。
この絶妙なバランス感覚こそ、完全にブラックボックスである人間の「気持ち良いと感じるポイント」を「当事者である人間」として判定することができる人間の特権なのではないかと考えます。
ただし絶対にヒット作曲家が安全圏にいるとは限らない
ここまで、「ヒット曲の多くは今までの音楽シーンで行われてこなかった新しい試みをしている曲だ」と論じましたが、「多くは」と言うからには、そうでない曲も存在するということになります。
あえて名指しするつもりはありませんが、ただただ「良い曲」であるがゆえにヒットしている曲も決して少なくはありません。
それらの曲は、あるいはそういった曲を作るのを得意とする作曲家は、AI時代には淘汰されていくリスクを抱えていると言わざるを得ません。
「ただただ良い曲」を作る作曲家の需要は極めて高速でなくなっていくでしょう。
生き残りたいのであれば、「作曲家の自分」そのものをコンテンツ化してブランディングしていくか、AIに作れないような新たな音楽的試みをできる作曲家に進化していくしかありません。
私の座右の銘に、ルイス・キャロルの小説『鏡の国のアリス』に登場する赤の女王が放った「その場にとどまるためには、全力で走り続けなければならない(It takes all the running you can do, to keep in the same place.)」という言葉があります。
我々作曲する人々も、今の場所に留まり続けるためには全力で走り続け、成長し続けるしかないのかもしれません。
おわりに ~AIにできることがあるなら~
いかに生成AIの技術が進もうと、作品を生成した後に「人間がそれを見てどう感じるか」を自己アセスメントできるようになるのはまだかなり先の技術になるでしょう。
中国のテンセントが2024年4月に発表した2023年度年次報告書の中でヒット曲を予測するAIを発表しましたが、このアルゴリズムはあくまで「最近の音楽トレンドやユーザーの嗜好を分析」したものであり、人間の内的な価値判断をエミュレートしたものではありません。
人間の価値観は個々人に依る部分が極めて大きく、『Step and a step』もリリースされた当初は「音楽的におかしい!」「作曲家は音楽というものを知らないのか!」とリスナーから批判の声も多く上がったものです。それが結果的には名曲として定着しているわけですから、人間にすら人間を予測することは困難なのです。
そうであるからには、私は音楽生成AIにもGPTでいうところのtemperatureのように「どれだけ出力に多様性を生み出せるか」を示すパラメータを導入し、「今までの人間が作ってこなかった音楽」を低確率でも生成できるようにする必要があると考えます。
それが実現されれば、初期のMidjourneyが見たこともない不可思議で幻想的なアートを生成してくれたように、「AI時代特有の音楽文化」というのが醸成され、それが文化の発展に寄与すると考えられます。
西暦2077年の未来を予測したSFゲーム『サイバーパンク2077』では2077年の音楽として『Ponpon Shit』などの前衛的でありながら中毒性のある曲が提案(予言)されていましたが、そのようにAIが生成する曲が人間の文化的水準を押し上げ新たな音楽性を開拓するくらいでなければ、音楽生成AIが生み出す問題点(濫造された何億曲もの曲によってSpotifyが汚染されるなど)に対するお釣りが来ないと思ってしまいます。
まだこの世には発掘されていない新しい音楽性がきっと存在する。一人のクリエイターとしてはその希望を捨てるわけにはいきません。
そして願わくばその未来が、AIと手を取り合って生まれるシンギュラリティの未来でありますように。