AIはどこまで人間に近づくのか？：SUNOの音楽生成が止まらない！

2025年2月17日 18:13

今回の対談では、文系の安河内（やすこうち）（以下、Y）と過去15年にわたりAIと教育に携わってきた松村（まつむら）氏（以下、M）が、AIによる音楽生成の進化について議論します。安河内は最近「SUNO AI」という音楽生成ソフトを使い始め、その驚異的な性能に衝撃を受けています。AIはどのようにして人間のような楽曲を生み出すのか？そして、AIは本当にクリエイティブになれるのか？そんな疑問を探っていきます。

AIはなぜこんなに自然な音楽を作れるのか？

Y: 私、最近「SUNO AI」という音楽生成ソフトを使い始めたんですけど、これ、人間が入ってるとしか思えないんですよ。なんであんなことが可能なんですか？
M: たとえば最近話題のChatGPTといった大規模言語モデル（LLM）を用いた生成AIなどは、ざっくり乱暴に語ると、「次に来るべき単語」を統計的に予測することで成り立っています。文脈の中で次に出る単語を当てはめることで文章が生成されてゆくわけです。
Y: だから翻訳も最近は統計ベースで行われるようになったんですね。昔は「主語＋動詞＋目的語」みたいな文法ベースの翻訳だったけど、今は「この単語の後には何が続く確率が高いか？」みたいな感じで翻訳してる。
M: そうです。日本語の語順と英語の語順の関係を学習し、大量のデータを与えることで、より自然な翻訳ができるようになったわけですね。

AIはどのように音楽を作るのか？

Y: じゃあ、音楽も同じ原理で作られているんですか？
M: SUNO AIに関しても生成AIをベースにしている、と言われているようですが、データセットや構成などが公開されていないためはっきりしたことは言えません。とはいえ、音楽には「コード進行」や「スケール」といった、心地よさや違和感を左右するようなルールが存在するため、統計的にある一定のパターンに落ち着くことが想定されます。例えば、あるコードの後には特定のコードが続く確率が高い、というように。
Y: なるほど。つまり、「このコードの後にはこのコードが続くのが一般的だ」という統計を利用して、AIが曲を作ってるわけですね。
M: はい、と言っても想像の域を出ませんが。また、AIならば、「一般的なルールから少しだけ外れた微妙なズレ」も学習に取り込んで行ける可能性もありますね。完璧に機械的な演奏ではなく、人間らしい揺らぎやニュアンスを取り入れることで、よりリアルな音楽を作れるようになるのではないかと。
Y: えっ、それってAIが「人間らしさ」を理解してるってことですか？
M: まあ、理解しているというより、「人間が心地よいと感じるズレ」を統計的に学習する、というのが正しいですね。
Y: だから、SUNO AIの音楽が「気持ち悪いほど人間っぽい」んですね。

音声合成の進化と「人間らしさ」

Y: でも、AIって元々英語がベースでしょ？それなのに、日本語の歌をこんなに自然に歌えるのはなんでですか？
M: その前に、まず音声合成の技術について説明しましょうか。
Y: ぜひ！
M: 昔の音声合成は「シンセサイザー方式」と「コンカチネイティブ方式」の2つが主流でした。シンセサイザー方式は、声帯の振動を人工的に再現する方法で、機械的な音になりがちでした。一方、コンカチネイティブ方式は、人間の音声を録音し、それを細かく分割して繋ぎ合わせる方法です。
Y: なるほど。でも、それだと「歌う」ことは難しそうですね。
M: そうなんです。ところが、最近の技術では「ディープラーニング」を活用して、より自然な発声を再現できるようになっています。一つ一つの音素や音のつながりを生成してゆくだけではなくテキスト全体を対象とした合成が行えるようになったことと、スペクトログラム分析や確率的モデルといった技術を適用して、「この音声が自然だ」という合成を行えるようになってきました。
Y: だから、SUNO AIの歌声はまるで人間が歌っているように聞こえるんですね。でも、曲によってはちょっと不自然な時もありますよね？
M: そうですね。まだ完全ではないですが、AIがどんどん学習を続けることで、より人間らしくなっていくと思います。

AIによる創作は「クリエイティブ」なのか？

Y: でも、AIがここまで作曲や歌唱をできるようになると、人間の作曲家や歌手の仕事はどうなるんでしょう？
M: それは難しい問題ですね。安河内さんはAIの進化をポジティブに捉えていますが、作曲家や歌手にとっては脅威になるかもしれません。
Y: 確かに。特に小規模な作曲家や、インディーズのアーティストは影響を受けるかもしれませんね。でも、私みたいに「作詞はできるけど楽器が演奏できない人」にとっては、AIが音楽を作ってくれるのはすごくありがたいんですよ。
M: そういう意味では、AIは「創作のハードルを下げる」存在とも言えますね。例えば、小規模なカフェのオーナーが「お店のテーマソングを作りたい」と思ったときに、高額な作曲料を払わずにAIで作れるようになる。
Y: そうそう！そういうことです。でも、AIの作詞はまだちょっとイマイチですね。統計的に「最も自然な歌詞」を作るから、逆に面白みに欠けるんですよ。
M: それはありますね。言葉の並びが綺麗すぎると、意外性がなくなってしまう。
Y: だから、今のところは「AI＋人間」のコラボが最強ってことですね。AIが作曲して、人間が作詞をする、みたいな。
M: そうですね。AIはあくまでツールであり、最終的にどう活用するかは人間次第です。

今回の対談では、AIの音楽生成技術の進化について議論しました。AIは統計的なパターンを学習し、音楽や歌声を人間らしく再現することができます。特に、「微妙なズレ」や「人間が心地よいと感じるニュアンス」を学習することで、より自然な表現が可能になっています。しかし、AIが完全に人間のクリエイティブな能力を超えるわけではなく、まだ作詞などの分野では人間の感性が重要です。今後の音楽業界では、「AIと人間の共創」が鍵となるでしょう。AIはクリエイターにとって脅威にもなり得ますが、一方で新しい創作の可能性を広げるツールにもなります。AIの進化をどう活用するか、それは私たち次第なのかもしれません。

こちらも読んでくださいね！

AIはどこまで人間に近づくのか？：SUNOの音楽生成が止まらない！

いいなと思ったら応援しよう！