「生成AI」と絵師界隈の争いについて

2024年2月27日 20:57

昨今の生成AIを巡る議論では、とりわけ絵師・イラストレーターなどの界隈では元々作品のオリジナリティや著作権に関しての意識が強いことや実際に大手生成AI企業に対し著作権関係の訴訟が多数起きていることもあってか批判の声が大きいです。

しかし中には感情的・主観的だったり誤った知識に基づく議論が行われることも少なくありません。……というか、肯定派否定派にかかわらずAIに関して論理的に正しい知識の下で議論をしている人を見た記憶がほとんどありません。ここではそういった議論に参加している方々の気持ちや価値観を尊重した上で、大学院で生成AIに関連する研究をしていた身から「それは違うんじゃない？」とか「なんかモヤモヤする」と思ったことを書こうと思います。

誰も「AI」が何か理解していない

そもそも絵師さんがどうとか言う前に世間一般の人々の殆どは「AI」というものが何なのかろくに理解できていません。皆よくわからないまま見当違いなことを言ってるなーと思うことが本当によくあります。AIとは何か、手短に要点だけまとめます。

まず、数学の世界には「数式」から「答え」を求めるのではなく、「答え」から「数式」を求めるというテクニックがあります。といっても難しい話ではなく、中学校の数学であった「ある直線の式があり、x=1のときy=4、x=4の時y=10である。この直線の式を求めよ」みたいな問題のことです。

この問題は「1を入力すると4を出力する」「4を入力すると10を出力する」という2つの「答え」から、「数式」を求めると言い換えられます。正解の数式は「y=2x+2」という簡単な式なので2組の「答え」から求められますが、これがもっと複雑で長い式(y=10x^6+3x^5-654x^4+… みたいな)の場合、10組とか20組くらいのたくさんの答えを用意しないと式が求まりません。逆に言うと、尋常じゃないくらい大量の「答え」を用意すれば、どんなに複雑で長い数式だろうと求めることができる、とも言えます。

よって、大学レベルの高度な数学テクニックとコンピュータのプログラムを駆使すれば大量の学習データ（例えば意味が全く同じ英語文と日本語文）をもとにその間をつなぐ規則（例えば英語を日本語に翻訳するためのルール）を反映した数式を求めることができます。このプロセスを機械学習といい、機械学習によって作られた数式（モデル）がいわゆるAIです。

「AIが数式というのは意味がわからない、生成AIの入力や出力はテキストとか画像とか音声であって数字じゃないだろう」と思うかもしれませんが、どんなデータであれ数字に変換できます（例えば「あ」は1、「い」は2という風に番号を振ったり、画像なら1ピクセル目はRed 200, Blue 100, Green 50みたいに場所ごとのRGB値を取り出したり。それ以前にそもそもデータは「1」と「0」の羅列なので数字で出来てる）。この世に存在する全てのAIは入力と出力のデータを数字に変換して、それをもとに導いた数式となります。

AIはざっくり「生成的モデル」と「識別的モデル」の2種類に分かれます。俗に言う「生成AI」はこの生成的モデルのうち技術力とノウハウの積み重ねによりここ1、2年で作れるようになった飛び抜けて性能がいいものをメディアや一般層の方々が雑にまとめてそう呼称しているだけにすぎません。「生成AI」に入らないものは大体一緒くたに「AI」と呼ばれることが多いですが、多少規模が違うだけでどっちもそんなに変わらないものなので、ここではあえていわゆる「生成AI」と「AI」をごっちゃにして話そうと思います。

私たちの生活は既にAIに依存している

私たちのまわりでAIが使われているところを思いつく限りざっくりまとめてみました。

PCやスマホでのテキストの自動変換
SiriやAlexaなどの音声認識
DeepLやGoogle翻訳などのテキスト翻訳
YouTubeの自動字幕付与
X, Instagram, YouTube, Netflix, Spotifyなどにおけるレコメンドアルゴリズム（個人の趣味趣向に合った投稿や動画を優先して表示）や有害なテキスト・画像・動画の判定
カメラのノイズリダクション
検索エンジンなどにおける「言葉の意味」の理解

最後のやつがどういうことかと言うと、AIを使わないと「おすし」と「寿司」と「Sushi」、「カフェ」と「喫茶店」がだいたい同じ意味であるということがコンピュータには理解できません。つまりGoogleで「おすし　美味しい店」と調べても「かっぱ寿司」「スシロー」が検索に出てこず、マップアプリで近くの「カフェ」を調べた時、近所にある「〇〇喫茶店」「喫茶 ✕✕」「Cafe △△」は全て除外されてしまうということです。

上記の例はまだまだ一部（ゲームのNPCのAIとかもあるし）ですが、インターネットを使わずに生活してるような人でない限り多くの人がAIの影響下で暮らしていることが分かると思います。もしこれらのAIを全て無くしてしまうと2008年とかのインターネット水準に逆戻りすることになるので、まー耐えきれないレベルで不便な思いをすることになります。

ちなみに今紹介したものの内8割方は「生成的モデル」≒「生成AI」が使われています。なので「生成AIなんてこの世に必要ない！滅びろ！」など過度な批判意見を見ると、「そんなこと言ってあなたの生活、生成AIに依存しきってますよね、、？」という気分になってしまいます。

「生成AIはぽっと出の存在、ここ1年くらいで急に出てきた」というよくある意見もあまり正しいとは言えません。皆さんが特に意識してなかっただけでとっくの昔からあるものです。技術があまりにも成長しすぎて単独でサービスとして出せるレベルになったのでChatGPTなどが出てきたというだけで。

「自分のイラストの絵柄を無断で学習されてしまう」という意見について

前述の通りAIは入力された何らかのデータに対して、それに対応する何らかのデータを出力するものです。

学習

一番最初は、AIは入力に対して完全にランダムなデタラメな出力を返します。この状態から、AIの出力の傾向を人手で用意したデータひとつひとつにちょーーっとずつ寄せていきます。それを数十万回、数百万回も繰り返せば、データ全体に通ずる傾向がなんとなく反映されます。この手順が（機械）学習と呼ばれます。MidjourneyとかStable Diffusionみたいな大企業が提供する高精度な画像生成AIは、対応付けされたテキストとイラストの組（「ブドウ」というテキストとブドウの絵のデータなど）を数千万とか数億組レベルで用意して、AIの出力の傾向をそれらにちょっとずつ寄せていくことで学習が行われています。

finetuning

一方すでに十分学習したAIモデルを特定の用途に特価させることを専門的にfinetuning（ファインチューニング）と呼びます。例えば一般的な語彙に強い翻訳AIにアニメに関するWikipedia記事からなる学習データでfinetuningして、アニメ用語に強い翻訳AIを作るみたいなことができます。この場合学習データはそんなに多く用意する必要はありません。よく「自分のイラストの絵柄を無断で生成AIに学習された」という話題を見るが、それはこちらが該当します。

例えるなら普通の「学習」は絵を1回も描いたことのない人間が長い時間とたくさんの労力をかけて練習を重ねて画力が上がっていく過程、「finetuning」は既に画力が習熟した人間が好きな漫画家の絵を模写したりして画風を真似ることに近いかと思います。

現実的に考えると前者の方はたとえ自分の描いた数百枚のイラストを勝手に学習に使われたとしても、前述の通り「ちょっと寄せ」ているだけだし、現実にはおおかたその数百万倍の画像が学習に使われることになるので、そのAIが自分のイラストの絵柄や画風や構図を完全に再現することはあんまりないと思います（学習データ全体の規模にもよりますが…）。一方後者はダイレクトに個人を狙い撃ちして画風やらを盗むということができます。その割にこの2つを「AIによるイラストの絵柄の学習」と一緒くたにして認識して議論をしている人がかなり多いように感じます。

Xのイーロン氏がAI画像生成ツール「Midjourney」と連携する方向で話を進めているようです。

Xはすでにプライバシーポリシーで「投稿内容、ユーザー情報は人工知能の学習対象に利用する」としています。… pic.twitter.com/SGhplvDRfk
— 悠屋 (@yuya_artwork) February 21, 2024

ただ「たとえAIが自分の描いた絵と同じ様なイラストを出力する可能性が0.1%もなかったとしても、自分の絵が学習に使われることそのものが絶対に受け入れられない」という意見がある気もしているので、実際に絵師の方々がどういう意識を持っているのか聞いてみたいなと思っています。

これからの話

法規制・著作権遵守は成されるべきだが……

現状生成AIに関して法規制は十分に整備されていませんし、許可されていない画像やテキストを勝手に学習に使っても先述の理由でバレようがないので、ある意味無法状態です。一般の人々の間でも、AIで生成した絵を「自分が描いた」と主張するややこしい人間によるトラブルもよく目にします。

ですのでこれから時間をかけてしっかりとした法規制、使用者のルール決め、提供する企業がクリーンであること、著作権遵守を進めていくべきなのは言うまででもありません。ですが、限界はあると思います。

そもそもこの問題に限らずインターネットにはいろいろ規制とかがありますが、ある程度違法な使い方も出来てしまうのが現実です。アニメや映画や漫画の違法アップロードやその他不適切な画像などが上がっているサイトはいくらでもあります。漫画村みたいに規模がでかいものなら検挙されたりしますが、個人が勝手にYouTubeにあげてるようなものだと逮捕もそうそうされず運営による動画の削除対応も全然間に合っていないことが多いと思います。他にも色んなサービスでこういうものを極力取り除く努力はしていますが、諸々のリスクを完全に0にするというのは簡単なことではありません。生成AIに関しても完全にリスクを0にするというのは多分無理だろうなあ……というのが正直なところです。

リスクがあるなら存在してはいけない？

「リスクを無くせないのなら、そんなもの存在しないべきだ！」と思うかもしれませんが、現実的ではないと思います。

例えば包丁は料理をするのに便利な道具ですが、その気になれば人を傷つけるために使うことができます。自動車は移動や物流の要ですが、運転を誤れば大きな事故を引き起こす可能性があります。スマホは便利ですが、ネット依存・SNS上での誤情報の大量拡散・歩きスマホによる事故などで人類に大きな害悪をもたらしているのはご承知のとおりです。

破壊的に便利な代物は必然的にそれに値するリスクが伴います。銃刀法や道交法など法律による規制はあっても、殺傷事件や交通事故やデマをこの世から根絶するほどの力は持たないし現実的に不可能です。

しかしいくら大きなリスクがあるからといって「スマホをなくそう！」「自動車を根絶しよう！」と声を上げたところで効果があるでしょうか？残念ながらありません。スマホや自動車が存在することによるリスクを補って余りあるメリットがあるからです。社会はそれらのリスクを受け入れた上で、あるいはそれらのリスクを最小限に留めるように生活システムやインフラを構築しています。

このような新しい技術や文化による時代の変化はなにも今に始まったことではありません。例えば産業革命により手作業で行われていた作業が機械化したり、人々が一番使うものが新聞→ラジオ→テレビ→YouTube・サブスク、ろうそく→白熱電球→蛍光灯→LEDと変わっていったりしています。いつの時代も「テレビなんて見てたら馬鹿になる！」とか「子供が低俗なYouTubeの動画ばかり見て困る！嫌いだ！」とか新しいものを拒絶する人はいますが、が何か旧来のものを上回るメリットが明確にあるなら時間をかけていつかは受け入れられ、その後に生まれた子どもたちにとってそれは当たり前の存在に変容していきます。恐らく生成AIもそういう「あって当たり前の存在」になっていくものかと思われます。

世間の動向を見ていると「わけわからん技術に私たちのアイデンティティが潰される！気持ち悪い！」「俺達が本気で叩けば潰せるはずだ！これまでの世界を取り戻すんだ！」みたいな感情論で動いている方が一定数いる気がしていて、現実的じゃないし非論理的だなあと思うとともに、そういう声の大きさが「法規制はどういう風に整備するべきなのか」、「AI絵師とか無断で学習に画像を使われることにはどう対策すればいいのか」、そして「これから生成AIとどう付き合っていくべきなのか」という本当に重要な課題に取り組む人々の妨げになってしまうのではないかと危惧しています。

おわりに

以上、個人的に納得いかなかったりモヤモヤしていることを書きました。私自身絵師界隈の当事者ではありませんし画像生成AIが専門というわけでもないので、読んでいる方からすれば「この意見は納得いかない」「事実と合っていない」「間違っている」というところもあると思います。ご指摘やご意見を頂けると幸いです。

また、専門的な説明はわかりやすさのためにあえて大雑把だったり性格ではない説明をしているところがありますのでご了承ください。