はじめに:
本記事は、生成AI技術を用いて架空のシンガーを創り上げた過程をまとめた備忘録を、公開用に整えたものです。
「前文編」「本編」の二部構成です
本記事の公開の目的は、「生成物が合法的であり、私の著作物であることを示すとともに、制作過程の透明性を保つ」ことです。How to記事ではないため、誤解された方がいらっしゃいましたら、ご容赦ください。
前文編・目次:
第1 生成AI技術に対する私の考え方
創作活動に生成AI技術を用いることについての、私個人の考えです。
翻訳したもの。
第2 制作動機
1 なぜ架空シンガー?
仕事をお休みしているのは、過日、X(旧ツイッター)で近況報告したとおりです。お薬の影響で脳がうまく働かないと、1日が長く感じられます。気分の乱高下も激しいです。
それならば、どうせ何もできないのならば、かつて、技術的にも時間的にも叶わなかった夢に、挑戦してみようかな、と思ったのでした。
かつての平成の夢・・・・・・。
かつての菅野よう子女史にとっての坂本真綾ちゃんのような、
かつての梶浦由記女史にとってのKalafinaのような・・・・・・ .
私の曲を歌うためだけに存在するシンガーがほしい・・・・・・。
令和最新版の技術を使えばできるかも・・・・・・。
2 VY1はどうなったの?
(1) 技術的限界
長年、YAMAHA社の「VOCALOID4 Library VY1V4」をメインに使用してきました。この「VY1V4」及び「VOCALOID4」には特別な機能があります。
これに「VOCALOID4 Editor for Cubase」を組み合わせることで、自由度の高い理想的な合成音声を生成でき、多くの思い入れがありました。
しかし、後継製品「VOCALOID5」ではこれらの機能が失われ、最新の「VOCALOID6」では「VY1」そのものが存在しなくなりました。
さらに、「VOCALOID4」および「VOCALOID4 Editor for Cubase」は既に生産終了済みです。
手でピッチを描く作業にも限界があるところ、最新技術の恩恵を受けられないうえ、いつサポートが終了するかわからない状況なのです。
(2) キャラ付け的限界
昨年秋、「VY1」は「A.I.VOICE VY Project」に進出し、「VY T-01号」としてスーツのお姉さんキャラが登場、キャラクター素材も配布されました。
公式には「新シリーズです」「キャラクターは概念です」と説明されていますが、元々キャラクターのイメージが固定されていない自由なところが好きだった私にとって、ヒトガタを「概念」に留めるのは厳しいものがあり、スーツのお姉さんに私の曲を歌わせるイメージしか浮かばなくなりました。
言うまでもなく、それは私の理想とは異なります。
文化はいつだって、哀しい歴史を辿るもの。分かってはいるけれど、あんまり繰り返したくない。
そこで、私だけの「サスティナブルな令和最新版シンガー」を、私自身で作ることを考え始めました。
第3 制作環境
1 制作環境
(1) PCスペック
数年前にドスパラで購入したBTOパソコンです。
今や、テセウスの船と化しています。
(2) その他スペック
生成AI関係でいえば、「Python」や「git」等は一通りインストール済みの上、ローカル環境に「Stable-Diffusion-WebUI Forge」や「ComfyUI」を構築している程度の知識はあります。
(3) 大切な余談
使用予定はないものの、同じくローカル環境に Retrieval-based Voice Conversion(RVCv2)とそのWebUI も構築しています。これは以前、夢を実現させようと試行錯誤していた時期にインストールしたものです。
当時、この「RVC」は最も革新的な AI ボイスチェンジャーでした。私も、ボイスバンク(学習済モデル)を自前で用意できる「VOCALO CHANGER」になり得るとして、注目していました。
ただ、「RVC」自体はクリーンな音声生成AIであるものの、オープンソースで使いやすいために、悪意あるユーザーが他人の声を不正に学習させたモデルを作成しやすい状況も生まれてしまいました。
この不正使用の問題が、現在の声優の皆様によるNOMORE無断生成AIの運動につながったと記憶しています。
以下で紹介する音声生成AI「Vocoflex」は、こうした一連の状況を受け、不正利用防止措置を徹底しています。
具体的には、購入時に写真付き公的身分証明書等による本人確認を行い、かつ、生成された音声に除去不能の特殊な波形を付与することで、不正利用者を特定できる仕組みを導入しています。
インターネット上では画像生成AIの問題が取り上げられがちですが、音声生成AIにも同様に非常にシビアな問題が存在するのです。そのような中、こうして「Vocoflex」のように安心して使えるツールが登場することは、とても喜ばしいことだと思っています。
2 使用ツール
(1) 架空のシンガー制作
主に、次の二つの生成AIツールを使用します。
作業のイメージ
以下、それぞれのツールの簡単な説明です。
Synthesizer V で有名な Dreamtonics社 が令和6年7月に発売した、リアルタイム音声モーフィングプラグインです。
音声を自在に加工したり、複数の音声を混ぜ合わせたり、音声ジェネレーション機能を用いて架空の音声を生成できたり、リアルタイムでボイスチェンジできたりします。つよつよすぎるプラグインのため、上述のとおり不正利用防止のための様々な措置が講じられています。
価格は、株式会社AHSのAHSダウンロードで31900円、Dreamtonics Storeで$199.00(※日本語サポートなし)なので為替と英語力次第・・・・・・。
詳しくは、私の愛読書・DTMステーションの記事をご覧ください。
TIMEDOMAIN社が令和6年8月に新たな機能を搭載してリリースしたAI歌声合成ソフトです。
他社製の類似ソフトとは一線を画しており、自分専用のAI歌声モデル「カスタマイズAIシンガー」を作成できる点が大きな特徴です。
アカペラデータをクラウド上で学習させ、「声」だけでなく「歌唱」や「歌い癖」まで学習したオリジナルシンガーを生成することができます。
「Vocoflex」で理想の声を作り出すことは可能ですが、それだけでは歌わせることはできません。正確には、「他人」の歌声をボイスチェンジ機能で変換するしかないのです。
実際、「Vocoflex」を利用して発表された楽曲には、「Vocoflex feat. Synthesizer V ●●●」のように、歌唱元となった既存のAIシンガーや人物名が併記されていることが多いように思います。
多くの方はそれで満足かもしれませんが、私の場合、「オリジナルが別に存在するなんて・・・・・・」とか「こういう歌い方じゃないんだなぁ・・・・・・」といった、かなり面倒なジレンマに駆られてしまうのです。
そんな悩みを「ACE Studio」が解決してくれるのです。
詳しくは、愛読書・DTMステーションの記事をご覧ください。
(2) その他の制作
曲を投稿する際のサムネイル・イラスト等についてです。
私は、理想の声を持ち、曲を歌ってもらいたいと思える架空の存在がほしいと考えています。
それは自我や他人の影を一切持たない、純粋な架空の存在であるべきですが、私自身が前面に出たいわけではありません。
一方で、「オリジナルのボーカロイドキャラクター」を設定して楽しみたいわけでもありません。
このあたりの微妙なニュアンスを言語化するのは難しいのですが、架空のシンガーのビジュアルについては「黒髪で色白の可愛い子が、なんとなく歌ってくれたらいいな」という漠然とした気持ちしかありません。
そのため、曲を投稿する際には、これまでと同様に、曲に合わせたサムネイル・イラストを用意したいと考えています。
しかし、私は絵が得意ではなく、イラスト制作には相当な時間がかかります。限られたエネルギーをできるだけ曲作りに充てたいという思いもあり、今後はサムネイル・イラストに画像生成AIを活用したいと考えています。
具体的には、以下の三つの画像生成AIツールを使用する予定です。
以下、それぞれのツールの簡単な説明です。
Stable Diffusionを開発するStability AI社による、約3世代前のモデルです。
後述する二つと比較してモデルのサイズが軽量のため、私のVRAM環境でもスムーズに生成ができることから、最も多く用いることになると思います。
使用するモデルは、ツールと同時に開発者により公開され、追加学習が一切行われていないベースモデル「sd_xl_base_1.0」とVAE「sdxl_vae」のみです。
Stable Diffusionを開発するStability AI社が令和6年10月末に発表した、現時点で最新の画像生成AIツールです。
まだ「ComfyUI」に限りますが、既にローカル環境を構築しています。
使用するモデルは、ツールと同時に開発者により公開され、追加学習が一切行われていないベースモデル「large」及び「medium」のみです。
Stable Diffusionの開発メンバーが設立したBlack Forest Labs社が令和6年8月に発表した、高品質な画像生成AIモデルです。
Xの画像生成ツール「Grok」もFLUX.1を採用していると聞いています。
高品質な分、必要なVRAM量も多いのですが、有志の方々が量子化(軽量化)を進めてくださったおかげで、ローカル環境の構築ができました。
使用するモデルは、ツールと同時に開発者により公開され、追加学習が一切行われていないベースモデル「dev」をGGUF形式で量子化したもの(「flux1-dev-Q6_K.gguf」等)です。
第4 法的な問題の検討
生成AI技術の使用における著作権に関する法的な問題について、個人的な検討結果を記載しておきます。検討の過程は割愛し、代わりに文化庁のガイドラインの参考ページを付記しました。
生成AI技術に関してさまざまな意見や議論が起こっていることは了知していますが、私は感情に左右されず、現行法を優先し、法を基準にすることで生成AI技術の利用における安定性や透明性を保ちたいと考えております。
感情は現行法を変えるための原動力にはなり得ますが、それを理由に現行法を無視する行為は、法治国家においては望ましくないものと思料します。
もちろん、今後の法改正や社会的変化があれば、それに応じて柔軟に検討を見直していくつもりです。なお、各ツールの利用規約はインストール時に確認済みのため、基本的に本記事では言及しません。
1 参考にした資料
2 検討した結果
主に、画像生成AIを使用する際の留意事項について、「モデルの選定時」と「生成AI技術で画像を出力する時(画像の生成時)」の二つの観点から、私なりに整理した個人的なメモを、検討結果として示します。
今後は、このメモに基づいて各制作に取り組みたいと考えています。
その前に・・・・・・。
要するに、この記事の内容は私個人が自らの制作指針とするためだけに、他者との議論を経ないまま孤独に検討したものを、かなり簡素に整理した、極めて個人的なメモに過ぎないので、鵜呑みにしないで、拡散もしないで、気になる人は自分で資料にあたって確かめてね、というお願いです。
(1) モデル選定時の留意事項
11 の「共通した作風による一連の作品群」について、資料には具体的な作品群までは例示されていませんでしたが、ジブリ作品がこれにあたるのかなと思いました。社会通念上「●●作品」と呼ばれがちなものだと解しました。
(2) 画像出力時の留意事項
手動で行ってはいけないとされていることは、AIでも行ってはいけない。手動で行ってよいとされていることは、AIでも行ってよい。ただし、AIには特有の事情があるため、手動のとき以上に取扱いに気を付ける必要がある。
最も簡潔に言えば、そういうことになるのでしょう。
3 参考資料へのリンク
(1) 関連法案
著作権法(昭和四十五年法律第四十八号)
著作権法施行令(昭和四十五年政令第三百三十五号)
著作権法施行規則(昭和四十五年文部省令第二十六号)
生成AI技術の学習への利用云々(学習データとしての使用が、権利除外事由に該当するか否か)に係る条文を抜粋します。
ちなみに、条文は著作権法第13条1号により、同法上の権利の目的とはならないため、こうして自由に転載できるのです。
改正同条が施行されたのは、平成31年1月1日からなので、念のために、改正前の旧同法同条も抜粋します。
短いですね。
本条を拡充し、整理する方向で改正したということは、遅くとも平成末期時点の関係省庁の認識として、大深層学習時代の到来を把握・予期していたことが推察されます。
同法施行令(政令)及び同規則(省令)のいずれも、同法同条への言及はありませんでしたが、代わりに文化庁が、ガイドラインを発出しています。
この大改正時に発出された、「デジタル化・ネットワーク化の進展に対応した柔軟な権利制限規定に関する基本的な考え方」という資料は、6年経つ現在でも踏襲され、随所で引用されています。古いから、といって捨て置かずに、一読することが推奨されます。
(2) 文化庁の各ガイドライン
① ウェブサイト
トップページ
特設ページはアドレスが変更される可能性があるので、一応掲載。
著作権全般についてのインデックスページ
AIと著作権についての特設ページ
生成AIと著作権の関係に特化したページです。
様々な資料が掲載されているほか、セミナーの開催案内があります。
次に紹介する資料も、全てこちらに掲載されています。
② 文書資料(pdfファイル)
「デジタル化・ネットワーク化の進展に対応した 柔軟な権利制限規定に関する基本的な考え方」(文化庁著作権課:R1.10.24 発出)https://www.bunka.go.jp/seisaku/chosakuken/hokaisei/h30_hokaisei/pdf/r1406693_17.pdf
条解・改正著作権法(一問一答つき!) みたいな内容。
「AIと著作権に関する考え方について」(文化審議会著作権分科会法制度小委員会:R6.3.15 発出)https://www.bunka.go.jp/seisaku/bunkashingikai/chosakuken/pdf/94037901_01.pdf
前記の基本的な考え方を踏まえ、生成AI技術に的を絞った資料。
当面の間、生成AI技術関係の諸問題は、本資料によって解釈することになるのでしょう。
とはいえ、表紙に記載のとおり、本資料は、現状の考え方を整理し、周知するためのものであって、確定的な法的評価を行うものではないことに注意が必要です。
文化庁著作権課:R6.7.31
「AIと著作権に関するチェックリスト&ガイダンス」(文化庁著作権課:R6.7.31 発出)
https://www.bunka.go.jp/seisaku/chosakuken/pdf/94097701_01.pdf
前記各資料をベースとした、民草向けのパワポ資料です。要点を抑えているので、これだけでも大丈夫かな。
本パワポ資料を教科書、前記各資料を参考書、という位置づけで適宜参照すれば、致命的な紛争は避けられるものと思料します。
4 各資料の一部引用
生成AI技術の法的問題について検討する際には最低限把握しておくべきだと感じた部分等を、著作権法第32条1項により一部引用します。
(1) デジタル化・ネットワーク化の進展に対応した柔軟な権利制限規定に関する基本的な考え方
① 「享受」という用語の定義
まずは条文を抑える。その次に、用語の定義を抑える。基本姿勢ですね。
②「享受」を目的としない行為の具体例
後半の「享受」目的ありの例が興味深かったです。
これって、漫画研究会みたいな有志の集まりで、研究ないし作画技術向上のために模写用としてお金を出し合って漫画を買って回すみたいな行為等も享受目的ありと認定されうるという理解でよろしいのでしょうかね。
確かに、音楽でいえば「JASRAC」の徴収基準もそんな感じか。漫画には「JASRAC」みたいな機関がないから、見逃されているだけなのかも。
③ 権利除外が適用されない場合にあたるか否かの判断基準
当時は、ここまでの生成技術が民草に広がっていなかったので、具体例もデータベースそれ自体の売買関係のみですね。いずれにせよ、判断は司法府が行うわけなので、あまり行政府が深入りできない領域であるのでしょう。
④ AIの学習データの収集等の法的解釈について
膨大なデータを許諾なく集めたものが、どのような建付けで整理されているのか。刑法分野における常識「機械は欺けない」を連想しました。
機械は欺けないし、なにかを味わい、楽しむこともできない。哀しいね。
(2) AIと著作権に関する考え方について
一気に時代が6年飛んで、有識者を交えた委員会の資料です。
① 諸問題の検討区分
生成AI問題を論じる場合、段階を分けて検討する必要があるという示唆。この点、確かに本問題は関わる人間やデータが膨大ですから、うっかり混乱しがち。「開発・学習する主体及びその動機」と「生成・利用する主体及びその動機」が全く異なることも、ついつい忘れがちです。
② 「開発・学習段階」における更なる区分
先ほど二段階に分けた分類を、さらに細分化するもの。「学習データの収集・加工」や「事前学習」の2つについては、早速、前記「基本的な考え方について」記載の6年前の内容を踏襲しています。
③ 既存の学習済みモデルに対する「著作物」の追加学習
現状、このあたりが主として問題にされていますね。
無作為に学習したはずの基盤モデルに対し、感情あふるる人間が、恣意的に学習データを選別するわけなので、同じ建付けがとおる筈がない。
本記事第3-1(3)の余談で述べた、「RVC」や声優の皆様による「NOMORE無断生成AI」運動も、追加学習を問題視しています(声等は、著作権法上の著作物以前に、民法ないし憲法上の人格的利益の侵害の話になりそう)。
前者は、学習済みモデルに対して、意図的に他者の著作物を出力させるためのファインチューニングを施したり、出力できるように「LoRA」を作成する目的で著作物の複製(データの収集や加工を含む)をするのは、アウトですよ、ということ。
細かい記載ぶりからみるに、著作物ではないキャラクターや、創作性に乏しい没個性的な絵柄の追加学習は問題ないと反対解釈できるか。
後者は、いわゆる「検索拡張生成AI」の開発・学習段階の話ですね。
既存のデータベースやインターネット上のデータをベクトル変換したデータベースを作成する際に、ある著作物の創作的表現の全部又は一部を生成AIを用いて出力させることを目的として、当該著作物をベクトル変換してデータベースを作成する場合における当該著作物の利用がどうのこうの、今回は全く関係ないですね。
ベクトル変換とは、多分ですが、コンピューターとお話しやすくするためにデータを数値化したりみたいな技術のことだと思います。
④ 既存の学習済みモデルに対する「絵柄や作風」の追加学習
中段部分の「懸念」に対して私が懸念を抱いていることとして・・・・・・。
作風や絵柄も著作物として保護されるべきだとする論調は、かなり昔からありますが、個人的にはそれらを単なるアイデアとみなし原則として著作権上の保護は不要だとするのが相当と思料します。
なぜなら、仮に作風や絵柄が保護対象とされた場合、没個性的な私のような者にとっては表現活動が制限されてしまうからです。
実際、大多数の個人も、作風や絵柄が特定の権利として扱われたら、萎縮し、気軽に表現活動ができなくなるのではないかと思います。
憲法上保障されている「罪刑法定主義」及び「表現の自由」が同時に揺らいでしまうのは明らかです。
それにもかかわらず、作風や絵柄も保護するべきとする意見が、表現活動を主として行っている作家間で主流のように見えるのはなぜなのか・・・・・・。
生成AI技術への漠然とした不安感等を逆手にとった何者かに扇動されて、大切な自由を失う羽目に陥るのは、悪法もまた法なりと言えども、ちょっと嫌ですね。
ではここで一曲。
⑤ 「開発・学習段階」における「享受」目的の評価時期
享受目的「あり」とするための主張と立証、事実認定、難しいね。
「どうしても〇〇っていう既存のキャラを出したい!」と利用者が勝手にプロンプトを工夫しただけであれば、基盤モデルやその開発者が悪者になるわけじゃない、という趣旨のなお書まで、ご丁寧についていました。
本条に関する控訴審は、普通に全部、知財高裁でやってほしい。
きりがありませんので、引用はこの辺にしておきますが、いずれも過渡期ならではの興味深い資料でした。
現在の大生成AI技術時代においては、これらは必読・必携の書と言っても過言ではなく、日本語が読める方全員に一読をお勧めしたいくらいです。
特に生成AI技術を利用する方にはもちろん、反対の立場であっても、今の法的な状況を理解せずには、適切に意見を述べることは難しいでしょう。
感情というパワーはとても貴重であると、心身を病んで以降、改めて強く感じています。
そのような貴重なパワーを無駄にしないために、生成AI技術に思うところがあり、まだ資料をお読みでない方には、是非とも目を通していただきたいなと、勝手ながら願っています。
第5 結語
いろいろ見てはきましたが、当然、合法だったら何をしてもよいわけでは決してないので、多方面への配慮を忘れずに、慎重に慎重を期して・・・・・・
「訴状を確認していないので、コメントは差し控えさせていただきます」
なんてセリフを行使する羽目にならないように・・・・・・
冒頭の「生成AI技術に対する私の考え方」記載のとおり、令和最新の文化を謳歌して参りたいと思います。私はただ「現代を楽しんでから死にたい」という、単純にそれだけの理由で、生成AI技術を各制作活動に使用します。
前文編・終わり
本編へ続く・・・・・・