見出し画像

音楽とAIの関係性について(2023年春現在)

2023年春、AIについての話題が市井を席巻している。

特に文化芸術面ではChatGPTによる文章生成については言わずもがな、Stable DiffusionやMidjourney等による画像生成AIの恐るべき進化のスピードについては目を見張るものがある。

考えてみればちょっと前までは、AIによるチャットサービスはほとんど使い物にならず、予め決められた定型文を繰り出すだけか、バロウズのカットアップ小説みたいなおおよそ会話にならない内容がほとんどであった。
画像生成AIについても同様で、ほんの1年前は「ゴッホっぽい絵」とか「スチームパンクっぽいイラスト」みたいなお遊び程度のものしか生成できなかったが、今や精巧なイラストどころか、一見実在する人間かわからないくらいフォトリアルな写真をも簡単に作成できてしまう。手の描写が苦手とか、肌の質感がビニールっぽいとかまだまだ問題はあるものの、この進化速度を考えるとすぐに超克するであろう。

では音楽についてはどうだろうか。
あくまで個人的な感覚ではあるが、上記文章や画像・動画界隈に比べて、作曲分野におけるAIはあまり進んでいない。最近ではAIを用いた自動マスタリング機能なんてのもあるが、まあどうでしょう、みたいな感じである(含み)。


作曲ということにこだわらず、音楽制作全般というところまで視野を広げると、音楽分野は手順の省略化と自動化による意識の非介在性をむしろ積極的に取り入れてきたといえる。ジョン・ケージらによる偶然性の音楽やチャンス・オペレーション、シンセサイザーやサンプラー等による自動シーケンス演奏、ライヴ・エレクトロニクスや短波ラジオを使用した環境依存の表現、乱数によるパラメーターのランダマイズ化、データとしてのMIDIの活用…etc。
現代音楽やフリージャズの発展に際し、真の意味での「即興演奏」を実現するために必要であった手段であり、また単純に自動演奏に対して「おもしろさ」として目を付けたからという理由も大きいであろう。
(最も、「人工知能(AI)」と「自動(RPA)」の違いは留意すべきである。上記はすべて学習およびデータの活用を伴っていないため、厳密にはAIではない。)



さて、冒頭に述べたChatGPTや画像生成AIについて、様々な職種から危機の声があがっている。特にイラストレーターや写真家の方々にとっては戦々恐々であろう。
一方で音楽業界においては、上記の通りクリティカルなAIサービスが未だ登場していないのも手伝ってか、第3次人工知能ブームと言われる昨今においてもあまりそのような声は聞かれない。
思えばDAWの低価格化・高機能化による「ドラマーの仕事がなくなる!」の声や、ボーカロイドの進化による「ボーカルの仕事が!」などの声の方が大きかったくらいである。しかし、結果はいかがであろうか。むしろ機械演奏が増えたことにより、「人間の演奏でなければならない」理由の証左となったのではないだろうか。

仮に高精度な自動作曲AIができたとしよう。バッハからシャッグスまで、この世の音楽を学習しきったAI。果たしてこいつは、注文通りの曲をアウトプットできるのだろうか。

論理的に解説していくのも面倒なので結論から言うが、まあ不可能であろう。AI技術が未発達だからではない。脳内の音楽イメージとは思ったより漠然としているからである。

「あの歌手が歌いそうな曲」とか「都会の喧噪が云々」とか「わたし失恋したのよ切ないのよ」みたいなイメージは思ったより具体性がない。そもそも音楽とは単純な音波の羅列であり、そこに具象的に感情移入するのは聞き手の勝手である。彼氏に振られた時にマツケンサンバが流れていたせいで、マツケンサンバを聞くと涙が出ます、みたいな人もいるだろうし、森田童子を聞いてEDMばりにブチ上がる人もいるであろう。

作り手の意志がどうあれ、「楽しい曲」「悲しい曲」といったイメージとは、ユング的にいえば人類の集合的無意識の結晶化により現実化したものといえる。裏を返せば十把一絡げに標準化された「音楽の性質」という物体は存在しない。
「音楽のイメージ」を「文章化する=外部に言語として伝える」こととは思ったよりもとても難易度の高い行為なのである。

これは音楽家ならば誰しも経験があろう。クライアントに「明るくて元気になる曲作って」と言われてアッパーなポップスを提出したらなぜかNGだったり、歌手がバックバンドに「もっとアマルフィの風を感じて」みたいな無茶な注文をしたりと、言語を媒体とした音楽のやり取りは人間同士でも非常に難しい。


さらに言えば、文化芸術面であまり取り沙汰されない重要なスキルの一つとして、「アウトプットされたものの取捨選択」というものがある。
例えば画像生成AIにおいては、プロンプトを試して生成しては捨て、修正して生成しては捨て、という繰り返しの作業が非常に重要である。どんなAIも一発で思い通りのものを作ってはくれない。一定レベルの完成度を目指すには、「これはまあアリ」「これはNG」の判断が必要であり、これを決めるのは人間の「感性」に他ならない。
自動作曲AIにおいても同様であり、いきなりまんま「Let It Be」がアウトプットされても使えない訳で、経緯は違えど結局のところ制作者のセンスが問われるという点では、従来の作曲方法とAIを使用した作曲は実はあまり変わらないともいえるのである。



否定的な意見に終始したが、たとえばイントロはできているがどうしてもサビが降りてこないとか、リズムセンスがないのでドラムを自動で付けて欲しいとか、メロディーに対して素敵なコーラスをつけてほしいとか、そういった一助としての利用は非常に有用であろう。
そういう意味では、テキストベースではなく、例えば既に作った仮歌やデモを聞かせて、ベースを乗っけてもらうとか、曲の構成を組み替えてもらうなどのAIができればむしろ欲しい。
私のようなスリーコードのメロディしか作れない無能にとっては垂涎を禁じ得ない待望の技術である。


自動作曲AIがアウトプットした音楽をそのまま世に出せるようになるのはまだ当分先であろう。人類学的にも音楽史的にも近現代音楽とはめまぐるしい発展を遂げたアカシックレコードであり、何百年もの経験則が蓄積された非常に緻密で繊細な表現方法なのである。
当分はAIが出力したデータを人間が編曲し、別の楽器やDAW上で演奏し直し、従来通り人間がミックスしていくという手順が現実的であろう。
…と言っておいて、一年後はどうなっているかわからないのだから、動向から目が離せない。



さて以降は完全に余談であるが、画像生成AIの急速な進歩は、「エロ」を如何に手軽に且つ安価に入手するかという男性諸君のたぐいまれなる努力によるものが大きい。これはAIに限らず、エロ本→エロビデオ→DVD→ストリーミングといったコンテンツ・イノベーションや、90年代から急速に進化発展したIT革命には確実に上記のような「裏のモチベーション」が存在する。
私がもし現在中学生であった暁には、ChatGPTにて長編官能小説をアウトプットしまくり引き籠もりになること請け合いである。
そもAIとはどれだけデータを与えて学習させるかが進歩の肝なのだから、一度エロに使えるとなればもはや日進月歩どころか指数関数的な成長を遂げるだろう。

つまり、音楽の技術革新にも「エロ」が必要不可欠なのである。
しかしこうなると「セクシーな音楽とは何か」という別の議題にもつれ込んでいくので、今後の課題としよう。

※ちなみにトップの画像は「お絵描きばりぐっどくん」による「サイケなバッハ」(部分)


この記事が気に入ったらサポートをしてみませんか?