楽曲生成AI「Suno AI」がアップデート！V3アルファとV2の作例を比べてみる

2024年3月15日 18:54

0.はじめに

追記：より新しい記事はこちら↓

　2月22日に楽曲生成AI「Suno AI」のv3アップデートと有料プラン契約者へのアルファアクセスが公開されました。
　v3アルファのアップデート内容は以下の通り

V3 Alpha has better audio quality and increased expressiveness among other heavily requested features:
⏲️ Extended max clip length of two minutes
🚀 Faster song generation
🎸 Dedicated instrumental support
🌍 Expanded language support
➡️ Continue from anywhere (backward compatible with songs you made with V2)

Suno

　そもそもの音質・表現力の向上はもちろん、最初の生成のクリップ長が最大1分20秒から2分に（延長は1分のまま）なったこと、そしてクリップの途中からでも延長できるようになったことは大きな変化です。
　また「instrumentalモード」はまさに前回の記事でやりたかったことなので試してみたいと思います。
　注意事項としてV3はまだ開発中のため、苦手な種類のプロンプトが存在すること、ミックスがうまくいかない場合があること、プロンプトが短い時に幻覚を見やすいことなどの弱点があるそうです。Suno AIはV3の改善のためにlike (👍) と dislike (👎)のフィードバックを求めています。
　この記事はあくまでも初期段階で試してみた結果についてのまとめです。

この記事の構成は、以下のようになっています。

軽くしか触れられていませんが、ご参考になれば幸いです。ちなみに、生成系AIサービスでは偶然とんでもなく良い結果が生まれることも、ただ運悪く上手くいかないこともあり、アップデートを直接比較することは難しいですが、今回は「同じぐらいの根気で頑張ったら」というフワフワ指標ですのでご了承下さい。

前回の記事はこちら↓

1.日本語歌詞付きの曲でV3を試す

　V2の時に作成していた「Let’s talk for me」をV3でも生成してみます。これは日本語の歌詞付きの曲です。
　なんでわざわざ気持ち悪いソングで検証しなければいけないのか、自分でも疑問しかないのですが、ポッドキャストの37回(https://note.com/saninside/n/n8614eff60122 )の前半部分で少し話したように、V2の段階では生成の特性に合っていたのです。
　V3を試すには、作成画面の一番下のフィールドを切り替えます。

↑はV2で生成した「Let’s talk for me」

1-1.プロンプトを変えずにやってみる

まずは、v2で生成した時と同じプロンプトで実行してみます。

———————————————————————————
‘Lyrics’
[Verse]
あやまってばかりのキミ
おめかし出来なくてごめんね
いいんだ、就活忙しい中
会ってくれるのが嬉しい
[Catchy Chorus]
それにリクルートスーツに
まさるものなどないのだから
[Inter]
———————————————————————————
‘Style of Music’
J-pop, Sparkling, Cosmetics, Mid-tempo, acoustic guitar
———————————————————————————
‘Title’
Let’s talk for me
———————————————————————————

https://app.suno.ai/song/42fbcb09-8290-4aea-af7c-b0a38555b212

　すると、発音しきれない部分が増えてしまったことに気づきます。特に、歌い出しの「謝って」が「あよまって」「あゆあた」のように変わってしまい、細かい部分で発音しきれないことがV2の時よりも増えているように感じます。音に合わせて歌詞を飛ばしたり、途中でやめたりして、歌詞の意味が通じなくなっているようです。
　最初の生成のクリップ長についてはアップデートで最大1分20秒から2分になりましたが、必ず2分まで生成されるわけではなくイントロや間奏の長さ、曲のテンポによって、1分半前後で切れたりもしました。

　全体的に曲の多様性を確保するために歌詞が犠牲になっている印象を受けます。V2では漢字の読み間違いはあったものの、ひらがなで書けば正確に読んでくれていたので、アルファ版の現段階では日本語については少し後退しているように感じます。音質は良さそうなので、この点は少し残念です。

　また「Continue From This Song」についてもあまり上手くいかないことが多く、フルコーラスにするのはちょっと断念しました。
　最初のクリップだけを以下に載せておきます。

1-2.プロンプトの変更による改善

　次に、曲調についてのプロンプトを変えて、同じく「Let’s talk for me」を生成してみます。
　これはV3アップデートについてのWhat's Newの注意事項の部分に「短いプロンプトが与えられたときに幻覚を見やすい」とあったため、より具体的なプロンプトの方が適しているのではないかと思ったためです。また、最初の生成の最大クリップ長が2分に伸びているため、歌詞のプロンプトに2番まで含めてみます。

———————————————————————————
‘Lyrics’
[Intro]
[Verse]
あやまってばかりのキミ
おめかし出来なくてごめんね
いいんだ、就活忙しい中
会ってくれるのが嬉しい
[Chorus]
それにリクルートスーツに
まさるものなどないのだから
(la la la la la...)
(la la la la la...)
[Inter]
[Verse]
あやまってばかりのキミ
いつもそそっかしくってごめんね
いいんだ、予約取れないお店
食べた感想を聞かせて
[Chorus]
それに美味しそうに食べる子に
まさるものなどないのだから
(la la la la la...)
(la la la la la...)
[Inter]
———————————————————————————
‘Style of Music’
Japan’s acoustic male singer, love song whispered softly, the folk-pop style, simple yet sparkling dynamic progression
———————————————————————————
‘Title’
Let’s talk for me
———————————————————————————

https://app.suno.ai/song/7c5f3c45-5bec-4ee5-9669-3b7ed48f1132/

　この方向の変更が良く、「Continue From This Song」も上手くいくようになったので、フルコーラスを作ってみています。

　画像生成AIで遊んでいると、モデルごとに適したプロンプトの強度があることに気づきます。それは、同じプロンプトを入力した際に大体同じような画像が出力される「直進性の高い」モデルでは短いプロンプトでも良いのですが、内容もクオリティもバラバラな画像が出力される「自由度の高い」モデルではある程度方向性を絞るために、より長めのプロンプトを入力した方が結果の効率が良くなる、ということです。

　Suno AIのV2とV3の差異としても同様のことがあるかもしれません。つまり、V3で出力される曲の多様性が高くなったために、より具体的なプロンプトが必要とされている可能性です。もちろん、V3はアルファ版なので今後変わっていくはずですが、現時点でうまくいかないことが多い時には具体性を増す方向にプロンプトをいじっていくのが良さそうです。

　また、歌唱ありの場合、V2ではワンコーラスずつ積み上げていくのが良さそうでしたが、V3では2分ぴったりを狙った歌詞の量を入力するのが良さそうな気がしています。

2.インスト曲でv3を試す

　V2の時に作成していたインスト曲「Instant Steam」をV3でも生成してみます。以下の動画がV2での生成＋手作業の編集です。

2-1.プロンプトを変えずにやってみる

　まずは、v2で生成した時とほぼ同じプロンプトで実行してみます。
　最初の生成の最大クリップ長が2分になったことを意識して、歌詞のプロンプト部分を少し増やしていますが、1分20秒前後のあたりで切れることも多くあります。生成されるクオリティは問題なく、この曲についてはプロンプトを変えなくても問題なさそうです。
　1-1でうまくいかないことが多かった要因が、曲調なのか日本語歌詞なのか気になるところです。
　最後はどうやっても（歌詞のところに書いた指示をどう変えても）フェードアウトする運命になってしまったので、「フェードアウトしない」という設定も今後のアップデートで期待したいです。

———————————————————————————
‘Lyrics’
[Drums Intro]
(...)
[instrumental Verse]
(...)
[Catchy Chorus]
(...)
[instrumental Verse]
(...)
[Catchy Chorus]
(...)
———————————————————————————
‘Style of Music’
Vaporwave, R&B, Synth, wood Bass, Drums, Allegro, emotional, radio, Upbeat
———————————————————————————
‘Title’
Instant Steam
———————————————————————————

https://app.suno.ai/song/ff2fc5b1-f1cb-4c7a-a91d-b5aa45f7c1d8/

↑はV3で生成したインスト曲の例

2-2.instrumentalトグルでやってみる

　次に、アップデートで追加されたinstrumentalトグルを使って、同じく「Instant Steam」を生成してみます。
　instrumentalのトグルをONにすると歌詞を入力するフィールドが消えて、曲調とタイトルだけが指定できます。

　これはかなりいい感じです。ジャケット的に生成される画像も、歌詞フィールドがなくなったために曲調フィールドを参照しているらしく、それっぽい画像になっています。ただ、今度は2-1とは逆に、どうしても終われなくなってしまったので最後だけinstrumentalのトグルをOFFにして、歌詞フィールドに[ritardando]とだけ入力して終わらせています。

↑はV3でinstrumentalのトグルをONにして生成したインスト曲の例

3.V2の続きをV3で作る

　最後はV2の時に生成していたものの続きをV3で生成してみます。
下の動画の、画像が切り替わる37秒付近がV2とV3の切り替わり部分です。つながりは多少不自然になっており、音質が変わることがわかると思います。進めていくと似たフレーズが出てくることも多いので、手作業で編集すれば以前に生成された曲をより良い音質で作り直すこともできそうです。
　また、V2の時にはサックス系の音は音が汚いのでハズレと言った感じだったのですが、次の動画の終盤あたりを聞くと悪くなく、音質・表現力の向上を感じる結果となっています。

4.終わりに

　長くなってしまいましたが、読んで下さりありがとうございます。
　Suno AIのv3はまだアルファ版であり、今後のアップデートで改善されていくことと思いますが、現時点でも大きなインパクトで、実用度も大きく向上していることがわかります。これからの音楽生成AIがどのような音楽を作っていくのか、展開に期待が高まります。