見出し画像

AIと音楽の未来(第一部): 人工知能は音楽をどう変えるか

DJMagからの翻訳記事が大変ご好評をいただいたので、第2弾として2021年の「AIと音楽の未来」シリーズを要訳させていただきます。
(注意: 翻訳の正確さについては原文へのリンクを参照してください。また翻訳中のリンクは原文からのリンクをそのまま掲載しており、リンクの記事については本記事の翻訳の範囲を超えていますので、割愛します。)
※ 本記事はデクラン・マクグリン(DECLAN MCGLYNN)氏によって書かれ、2021年10月5日オンライン上で発表されました。

AI がどのようにして音楽における最もエキサイティングな発展の 1つになったかを考察する

ほとんどの人にとって、人工知能というと、自律型のロボットや機械が自らの意思決定を行い、多くの場合、その結果として人間の終焉をもたらすという未来の SF シナリオが思い浮かぶだろう。 今のところ、AIの応用例は、歩道上の犬のうんちをドローンで発見するのを支援したりロバート・デニーロをドイツ人に変えたり、死海文書を書いた人物を証明したりするなど、終末論的ではない。 WIRED の優れた AI データベースは、何百もの例を探すのに最適だろう。目新しいものもあれば、邪悪なものもあり、すべてが魅力的だ。

この 3 部構成のシリーズでは、AI がアーティストに似た姿のモデリングに及ぼす、さらに今後与えるであろう潜在的な影響、プロデューサーやエンジニアがスタジオでどのように働くことになるのか、AI がスタジオでどのような意味を持つのかを探っていく。 DJ について、そして私たちのオンライン体験のハイパー・パーソナライゼーションが、音楽の体験方法にどのように反映されるかについて説明することになる。

このシリーズで触れた概念の多くはすでに動き始めているが、その文化的影響はほとんどまだ実感されておらず、私たちは矛盾の塊を見つめることになる。 必然性は通常、確実性を意味するものの、テクノロジーの性質上、結果を正確に予測することはほぼ不可能である。 私たちが知っていることは、魔神が壺から出てきたということだ。

音楽の分野では、AI、特に機械学習 (ML) が、オンラインでの音楽とのやり取りのほぼすべての背後にあるブラック ボックスとして静かに現れたのである。 私たちのほとんどは、実際に何年もの間、AI および ML を活用したテクノロジーを無意識のうちに使用してきた。 YouTube、Spotify、Apple Music、Pandora などの音楽視聴プラットフォームは、次に再生するのに最適なトラックを推奨したり、デッドエアを排除したり、リアルタイムで音量を調整したりするなど、それぞれのサービスでのエクスペリエンスを完璧にするのに AI を利用してきたのだ。

「これは今後の音楽界における最大の倫理的会話の一つになると思うが、私たちはまだその準備ができていない」 — ホリー・ハーンドン

機械学習は、基本的に機械に学習方法を教える AI の一分野である。 「トレーニング データ」を使用してパターンを特定し、それらのパターンを使用してそのデータに基づいてモデルを構築する。 現代の AI で見られる画期的な進歩のほとんどの背後にあるディープラーニングは、これらのモデルを構築するために大規模な人工ニューラルネットワークに依存する機械学習のサブセット(訳注: 部分的な集合)である。

Spotify の Discover Weekly はその最も明白な例である。 Apple の音声アシスタント Siri もその 1 つ。 合成音声は現実世界の録音から学習され、時間の経過とともに音声の認識が向上する。 (この記事では、機械学習と深層学習の両方を包括する用語として ML を使用している。)

しかし、ML が習得できるのは「オススメ」機能だけではない。 ML の形式は 1980 年代から音楽を生成するために使用されてきた。作曲家デイビッド コープが作家の障害を克服するためにバッハのカタログに基づいてコンピューターを訓練した。 最近では、アクトレスやホリー・ハーンドンなどのアーティストが、自分に似せてモデル化された仮想コラボレーターを作成するために、モデルをトレーニングし、自分の音楽、ボーカル、ステム、スタイルに基づいてデータセットを構築している。

プラグインや音楽作成ソフトウェアも ML を採用し始めており、iZotope の Neutron はスタジオでの音楽制作方法に新時代を迎えています。 最近では、Splice や Loopmasters などが ML を使用してトラックを改善するための新しいサンプルを推奨し、倍音プロファイルやトーンなどのより抽象的な属性に基づいて何百万ものサウンドのライブラリをスキャンできるようにしています。 Endel や AIMI などのアプリは、Richie Hawtin(リッチー・ホーテン)、Grimes(グライムス)、Black Loops(ブラック・ループス)、Shanti Celeste(シャンティ・セレスタ) などのコラボレーターのステムを使用して、決して繰り返されず、決して終わることのない、パーソナライズされた生成音楽を作成した。

DJ プレイも ML の影響を受けていないわけではない。 VirtualDJ と Algoriddim の djay ソフトウェアは、AI を活用したリアルタイムのステム分離を導入た。 DJ ソフトウェアの AutoMix 機能も ML を使用して、曲がどのように次の曲とブレンドされるかを理解し、次のアフター パーティーに最適な自動 DJ を提供している。 Spotify、Splice、Loopmasters と同様に、高度な「オススメ」機能と検索はすべての DJ ソフトウェアで一般的になってきているが、Pioneer DJ の rekordbox は最近、ボーカル同士の衝突という酷い事態を避けるために AI 支援のボーカル検出機能を導入した。 新しい仮想現実プラットフォームである Sensorium Galaxy は、数百時間の電子音楽で訓練を受けた AI DJ のサポートを受けて、仮想空間内でパフォーマンスを行うために Carl Cox(カール・コックス)、Eric Prydz(エリック・プライズ)、Charlotte de Witte(シャーロット・デ・ウィト) らのDJ達を採用しました。

私たちが音楽を作り、演奏し、聴く方法に対するこのテクノロジーの影響は広範囲に及び、時には劇的な変化をもたらすものとなる。 前例のない新たな法的および倫理的な問題が生じ、ディープフェイクは何が本物であるかについての私たちの認識を変えるだろう。 音楽制作楽器、DAW、ツールは完全に再考され、再設計されます。 基本的なミキシングと制作スキルは自動化され、バーチャル DJ がミキシングとトラック選択をマスターし、生死を問わずあらゆるアーティストとのコラボレーション、または個人情報の盗難が可能になるのだ。

これらの問題を探るため、私たちは主要なアーティスト、開発者、新興企業、専門家に話を聞き、AI が電子音楽の未来をどのように形作るのかを探りました。

音楽を作り、演奏し、聴く方法に対するこのテクノロジーの影響は広範囲に及び、時には劇的な変化をもたらすものとなる。

音楽制作業界はディープフェイクの嵐に直面しようとしている。 ディープフェイクは、AI を使用してある人物の肖像を別の人物に置き換える、ビデオ、音声、画像などの合成によって生成されるメディアである。 YouTube には、有名人や政治家が他の有名人や政治家に変身して、驚くほど正確な結果をもたらす例が数多くある。 フォーブスは「ディープフェイクは社会に大混乱をもたらすだろう」「私たちには準備ができていない」と宣言したが、音楽に関してはその不吉さは若干軽減されたものの、依然として懸念事項であることに変わりはない。

80 年代半ば以降、サンプリングによって倫理的および法的なクソ番組が導入されましたが、ディープフェイクと ML モデルは、2020 年代以降を通じて次の議論、論争、訴訟の波を引き起こす可能性がある。 サンプリングには、ピッチ・シフト(音程の変更)、テンポ変更、ワープ、オーディオ操作を行うツールがありますが、出力は常に元のサンプルを基準としている。

ML に基づいて構築されたモデルは、ボーカリスト、ギタリスト、ドラマー、またはフルミックスのいずれであっても、そのアーティストやプロデューサーのスタイルにおける非常に個人的な特異性を特定して再現できる。 生涯にわたる音楽的、技術的なマナーや特徴を細部まで再現している。 本物のビヨンセのボーカルと偽物のボーカルの区別がつかないとき、パンドラの箱は完全に開かれたと言ってよい。

「これは今後の音楽界における最大の倫理的議論の一つになると思いますが、私たちはまだその準備ができていません」とホリー・ハーンドンは言う。 彼女は長年にわたって AI と ML に多額の投資を行っており、最先端のテクノロジーを使用したアルバムやプロジェクトをリリース。 2019 年のアルバム『PROTO』では、SPAWN という名前の音声モデルを作成している。 今年 7 月、彼女は Holly+ をリリースした。このプロジェクトでは、誰でも音声をアップロードし、Holly+ アルゴリズムで彼女の声を解釈して処理し、再作成できる。すべては何時間もの機械学習に基づいてつくられる。

関連記事: サンプリングの未来

「前回のアルバムでは声のモデルを作成しましたが、それを公開して他の人に私の声を使って演奏してもらうことができたらとても面白いだろうと思いました。なぜなら、これは非常に近い将来のことだと考えているからです。」と彼女は言う。

その地平線がどのように展開するかはまだ不確実である。 「これはさまざまな方向に進む可能性があります。人々が、あなたがあまりよく思わない方法で、あなたのボーカルの類似性を利用して作品を作り、それを制御しようとして非常に DRM (デジタル著作権管理)への記載が重くなるという完全な悪夢のシナリオになる可能性があります。 私たちは逆の方向に進み、モデルを誰でも無料で利用できるようにすることにしました。」

ハーンドン氏の考え方は、テクノロジーを制限しようとするのではなく、その創造的な可能性を受け入れることである。

「それは、人々があなたの画像をフォトショップ加工するのを阻止しようとしているようなものです」とハーンドン氏は言います。 「猫はすでにカバンから逃げ出してしまったのです。」

「本当に懸念があります。出版権者とアーティスト自身がこの件についてある程度流暢に理解できるようにしない限り、私たち自身が問題に直面する可能性があります。」 - マット・ドライハース

「もし明日、ビヨンセの声のモデルを作って、『ホリー・ハーンドン featuring ビヨンセ』とクレジットされた曲をリリースできたら、おそらく訴訟を起こされるでしょう」とマット・ドライハーストは言う。 彼はニューヨーク大学クライブ・デイビス録音音楽研究所のミュージシャン、研究者、講師であり、ハーンドンの長年の共同研究者でもあります。 「注目を集めるためだけにそんなことをする人もいるでしょうが、それは迷惑な行為です。 その前に先導をきって責任を持って行動する方がずっとクールです。同時にその素晴らしさを賞賛することもできます。」

「ビヨンセが実際にそれを受け入れたら、どれほどクールでしょう」とハーンドンはふざけて付け加えた。「そして、地元のカラオケバーに行ったときに、ビヨンセとして『シングル・レディース』を歌えたら?」

一方で、当該のアーティストが新しいテクノロジーを歓迎するかどうかにかかわらず、道徳的、倫理的、法的な問題は残る。

バークリー音楽大学の法医学音楽学者ジョー・ベネット教授は2021年初めに米ビルボード誌に対し、「声そのものは著作権法の対象ではない。 ディープフェイク音声で誰かになりすますことができる理由は、著作権法で保護される対象が音楽作品と録音物の 2 つだけだからです。 音楽作品とは、音符、コード、歌詞などの曲を指します。 また、録音保護は特定のトラックにのみ適用できます。 これは、音声が[法律で]作品の一部とみなされないため、ディープフェイク音声はグレーゾーンであることを意味します。」

しかし、ハーンドン氏が説明したように、声の類似性を巡って訴訟を起こす判例は存在する。 1988年に米国の自動車会社フォードがベット・ミドラーの曲のライセンスを取得しようとしたが、彼女が拒否したとき、彼らは似た者(彼女自身のバックシンガー)を雇い、彼女のスタイルと口調でそれを歌い直した。 彼女は最終的に侵害訴訟で勝訴した。 ディープフェイクに対する避けられない法的抵抗が強まる中、この訴訟は重要なものとなる可能性が高い。

1 人の歌手を対象にトレーニングされた同一のモデルはより明らかかもしれないが、モデルのトレーニングに使用されたデータが明確ではない場合、それは明確とは言えない。

「人々はこの『ブラックボックス』が何であるのか説明しようとしますが、なぜアルゴリズムがその動作を出力するのかを正確に特定するのは非常に困難です」と、音楽テクノロジーのトレンドを主導し、受賞歴のあるジャーナリスト、研究者であり、優れた『Water and Music』ニュースレターとコミュニティの著者である チェリー・フー(Cherie Hu) 氏は言う。 「これは機械学習における一般的な問題であり、音楽の場合、著作権の所有権と使用料の支払いに非常に特別な影響を及ぼします。」

Bicep(バイセップ)、Herbie Hancock(ハービー・ハンコック)、Slipknot(スリップノット) のメロディーに基づいてモデルを作成したい場合、これらのアーティストの知的財産の使用に対して誰が補償を受けられるのだろうか? サンプリングは曖昧になって忘れ去られる可能性はあるが、少なくともサウンドの特定の側面を識別することは可能である。 モデリングには開始点や終了点がなく、明確なリファレンスがなく、トレーニングでどのような音楽が使用されたかを知る方法もない。 たとえ補償するつもりがあったとしても、どのコード進行やメロディーがどのアーティストのものであるかを数値化することは不可能である。

「本当に懸念があります。出版権者とアーティスト自身がこの件に関してある程度の理解を得なければ、私たちが問題を抱えてしまう可能性があります」とドライハースト氏は続ける。 「私たちがいつも使う例えは、Google が誰の許可もなくインターネットをスクレイピングすることで、世界で最も強力な企業の 1 つになったということです。 Google は、『すべての情報にインデックスを付けて、その情報をナビゲートできる機能に加えてサービスを販売するつもりです』と言っていました。 この機械学習の新しいパラダイムでは、最大のモデルを作成する同じ機会が存在します。 これらの巨大モデルの 1 つに結びついて、自分の曲を誰に聴かせたいかを検索するだけで済む新しいサービスや新しい DAW (訳注: Digital Audio Workstation、音楽制作用のソフトウェアやハードウェアを包括したシステムの呼び方)を想像することもできます。」

「機械学習がオリジナル作品の複製を必要とする限り、これが権利所有者の許可の対象であることは明らかです。」 – PRS 会員評議会会長、ミシェル・エスコフェリー

最近、ミュージシャンやソングライターに対する公正な報酬を巡る議論が加速している。 この夏、英国政府のデジタル・文化・メディア・スポーツ省は、音楽ストリーミングモデルには「全面的なリセット」が必要であると結論付ける報告書を発表した。 AI は、新たなクリエイティブの機会であるだけでなく、アーティストの報酬を全体的に向上させるチャンスももたす。

「過去の間違いを正すためには、何らかの枠組みを考え出す必要があると思います」とハーンドン氏は言う。 「私たちはグレゴリー・C・コールマンの例をよく使います。 彼はアーメン・ブレイクを演奏した。 彼はそれから何の反響を見ることもなかったし、ホームレスになって亡くなったのですが、それは本当にひどいことです。 特にエレクトロニック ミュージックにはこのような歴史がたくさんありますが、今回はどうすればより良くできるでしょうか?」

サンプリングが失敗するケースが多かった中で、モデリングは報酬に関するルールブックを書き換える機会となるだろうか? 革新的なソリューションの 1 つは、Holly+ とその所有権に関するハーンドン独自のコンセプトである。 このモデルは、分散型自律組織 (DAO) によって所有および管理されている。 Holly+ で作成された承認済みの作品を通じて得られた利益の一部は、将来さらに多くのツールに資金を提供するために DAO に還元されるのである。 今年 7 月、ハーンドン氏は、これがどのように機能するかについてのエッセイを Web サイト holly.mirror.xyz を通じて公開した。

もちろん、AI は個人情報の盗難が可能なモデルを作成するだけのものではない。また、「ビヨンセ (訳注: 彼女になりきるための) ボタン」が明日登場するわけではない。 しかし、ドライハーストとハーンドンがほのめかしているように、今教育を支援することで、将来の潜在的な問題を回避できる可能性がある。 英国の演奏権団体もこれに同意する。 PRS会員評議会会長のミシェル・エスコフェリー氏はDJ Magに次のように語った。 「これらの目的で作品を使用することを許可する条件を決定するのは、権利所有者です。 業界は、機械学習と音楽でイノベーションを起こす人たちに、ライセンス取得の必要性と、必要な権利をどこで取得できるかについて教育するために、もっとできることは確かにあります。」

知的財産に関してこれらの点を取り上げることは重要であるが、これらのモデルによってもたらされる創造的な機会を称賛することも重要と言えよう。 「自分の声だけを使って他の人とコラボレーションしたり、許可を得て他の人としてパフォーマンスしたりできる機能は、非常に新しく、非常にクールです」とドライハースト氏は言う。

「あるいは、他の物理的形態としてパフォーマンスする機能も」とハーンドンは続ける。 「トロンボーンを演奏する人は、トロンボーンの奇妙な形状に基づいて非常に具体的な音楽的決定を下しますが、バイオリンを演奏する場合はまったく異なる決定を下すでしょう。 これらの物理的共鳴体を他のすべての人に開放出来るようになります。 私はトロンボーンを通して歌うこともできますし、トロンボーン奏者が私を通して歌うこともできます。 そこには本当に奇妙ではありますが興味深いものがあると思います。」

ハーンドンとドライハーストの新興音楽テクノロジーに対する熱意をもっと聞きたい場合は、ポッドキャスト Interdependent をチェックして欲しい。

2021 年におけるモデリング テクノロジーの例として、フランク・シナトラ、ケイティ・ペリー、エルヴィス・プレスリーなど、特定のアーティストをモデル化する OpenAI Jukebox プロジェクトの試みをチェックすることもできる。 完璧ではないものの、概念実証としては素晴らしいものである。

パート 2 では、ミキシングや検索の支援から完全な AI DAW に至るまで、音楽制作とエンジニアリングに対する AI と ML の影響を探る。(第一部終了)


この記事が気に入ったらサポートをしてみませんか?