「AIと著作権に関する考え方について」を読む

2024年4月13日 15:50

すっかり春めいてきましたが、いかがお過ごしでしょうか。
本稿では、文化審議会著作権文化会法制度小委員会の「AIと著作権に関する考え方」（以下「考え方」）について解説します。考え方は2024年3月15日に最終版が公開されましたが、前代未聞の2万4938件ものパブリックコメントを集めており、世間の関心の高さが窺えます。

「考え方」には、私なりの意見もあるのですが、本稿では、私の意見はともかくとして、「考え方」を素直に読んだら、「結局、何がOKで、何がNGなのか」という観点から解説します。

なお、AIには様々なものがあり、生成AIに限りませんが、本稿では、「考え方」と同様に、AI一般ではなく、生成AIを念頭においています。あと、法律家の文章に多い「等」は、うざいので適宜省略しています。

１　「考え方」の意義

そもそも、この「考え方」の作成名義人は「文化審議会著作権文化会法制度小委員会」であり、これは文部科学省設置法20条に基づいて設置された審議会の中のさらに一つの有識者を構成員とする委員会です。ですから正確には政府の見解というよりも、有識者の見解を示したものです。また、政府の見解であろうが、有識者の見解であろうと、結局著作権に関する法律判断は究極的には裁判所がするものなので、法的拘束力は全くありません。もっとも、有識者が示した見解ということで、裁判所がそれなりに参考にすることはあり得ます。

要は、「考え方」は絶対に正しいものではなく、金科玉条のように守られるべきものではありません。このことは「考え方」自体の表紙や、2頁以下にも強調されています。

私としても「考え方」で示されている見解に大部分については賛成しますが、一部、疑問に感じるところはあります。これについては別の機会に述べることができればと思います。

本稿では、自分を抑えて（？）、「『考え方』によれば、何がOKで、何がNGなのか」と読めるのかについて解説します。

２　開発・学習段階と生成・利用段階の区別

「考え方」では、生成AIによる著作物の利用を「開発・学習段階」と「生成・利用段階」に分けています。

「開発・学習段階」とは、OpenAIやMetaといったAI開発者が、LLMを作成するために著作物を利用する段階のことです。なお、LoRAやRAGも「開発・学習段階」にあるとしています。

一方、「生成・利用段階」は、ユーザが、プロンプトを入力する際に著作物を入力したり、出来上がったAI生成物を、SNSに投稿したり、出版したりする段階のことです。

この分け方自体は、開発者とユーザが基本的に分離している生成AIの著作物利用実態に沿ったものと思います。

３　開発・学習段階

「考え方」は、開発・学習段階を、LLMを作成するための学習を「事前学習」と、LoRAや RAGの作成の「追加的学習」とに分けています。

（１）原則論

「考え方」19頁では、AI開発者が、他人の著作物を情報解析のために利用する場合には、原則として、著作権者の許諾を得ずに利用できる、としています。
これは著作権法30条の4の条文をそのまま述べたもので、特に目新しいものではありません。
著作権法30条の4は、著作物を「非享受目的」(注)で利用する場合には、原則として、著作権者の許諾を得なくても利用できると定めています。もっとも、例外として、「ただし書」に当たる場合には著作権者の許諾が必要です。

もっとも、AI開発者に、「非享受目的」と「享受目的」の両方の目的がある場合には、著作権法30条の4は適用されないとしています（19頁）。つまり、著作物の利用が情報解析目的であっても、同時に享受目的があればNG、ということです。このことを「考え方」は、「非享受目的と享受目的が併存する場合」と表現しています。

（注）「非享受目的」とは、「著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合」のことを言います。

（２）作風を模倣するAIの開発

LoRAなどを使って、「特定のクリエータの作品である少量の著作物のみを学習データとして追加的な学習を行うことで、当該作品群の影響を強く影響を受けた生成物を生成することを可能とする行為」による「作風の模倣」については、

「作風」がアイデアにとどまる場合には、作風が共通すること自体は著作権侵害とならない
特定のクリエイターの作品群が創作的表現が共通する作品群となっている場合には、意図的に、その創作的表現の全部・一部を出力させるための追加学習は、享受目的が併存する

との考えが示されています（20頁）。
　つまり、作風の模倣は著作権侵害とならないが、LoRAなどを使って、あるクリエイターの創作的表現が共通する作品群を学習させ、意図的に、その作品群の創作的表現を反映したアウトプットを生成する場合、その作品群をDLやコピーすることは著作権侵害に当たり得る(21頁)、とされています。

（３）RAG（検索拡張生成）

RAGでは、既存のデータベースやウェブサイトを利用してデータベースを作成することがあります。このデータベースに他人の著作物を無許諾で利用する場合には著作権侵害の有無が問題となります。なお、ベクトル化であっても著作物を利用していることには変わりはありません。
「考え方」は、RAGを使った生成AIによって著作物を含むデータを検索し、その結果の要約等を行なって回答を生成するものについて、

回答の生成が、RAGのデータベース作成に用いられた既存著作物の創作的表現を出力することを目的としない場合には、非享受目的として、データベース作成の際の既存著作物を無許諾で複製できる可能性がある
他人の著作物の創作的表現の全部・一部を出力することを目的として、RAGのデータベースの作成に他人の著作物を複製する場合は、非享受目的がなく、著作権法30条の4の適用はない

としています（22頁）。

つまり、RAGを使った生成AIでは、生成AIのアウトプットに、RAGのデータベースに取り込んだ著作物の創作的表現を出力する目的がある場合には著作権法30条の4の適用はない（＝著作権者の許諾が必要）、とされています。

そうだとすると、RAGのデータベースに取り込んだ著作物を要約する生成AIについては、データベース作成にあたって他人の許諾を得ない著作物の利用はできないことになります。

もっとも、アウトプットに表示されるものが単なる事実であるような場合（例えば、数値データのみを抽出するもの）やありきたりの表現（何がありきたりかの判断は難しい場合がありますが）には、創作的表現を出力することにならないので、「考え方」の基準によっても著作権侵害にならないように思われます。
また、著作権法47条の5（軽微利用）という規定があり、要件は著作権法30条の4よりも厳しいものの、この規定の適用ができれば、著作権者の許諾を得ずに著作物の利用が可能です。

（４）アイディアの類似にとどまるものの大量生成

著作権法30条の4のただし書には、「著作権者の利益を不当に害する」場合には同条が適用されず、非享受目的であっても、他人の著作物の利用には著作権者の許諾が必要とされています。

この点、(2)で述べた通り、作風や画風といったアイデアが類似するにとどまる生成物を生成しても、既存の著作物の著作権侵害にはなりません（23頁）。

しかし、作風や画風といったアイデアが類似するにとどまるものが大量に生成された場合には、「著作権者の利益を不当に害する」場合にあたるのではないか、ということが問題となります。

この点について、「考え方」は、作風や画風といったアイデアが類似するにとどまるものが大量に生成された場合であっても、生成物が、学習元著作物の創作的表現と共通しない場合には、「著作権者の利益を不当に害する」場合にはあたらない、としています（23頁）。つまり、作風や画風といったアイデアが類似するにとどまるもの大量生成されたとしても、既存著作物の利用が非享受目的である限り、既存著作物の学習は著作権侵害にはならない、とされています。

もっとも、「考え方」は、著作権侵害にならなくても、不法行為責任や人格権侵害に伴う責任が発生し得ることを指摘しています（24頁）。著作権侵害でないとしても、あくまで著作権の範囲内の話であり、やりたい放題ではないということです。

（５）情報解析に活用できるデータベース著作物

著作権法30条の4のただし書の「著作権者の利益を不当に害する」という表現は抽象的であり、具体的にどのような場合がこれにあたるのかは議論があるところです。
この点、従来から「大量の情報を容易に情報解析に活用できる形で整理したデータベースの著作物が販売されている場合に、当該データベースを情報解析目的で複製等する行為」が、この「著作権者の利益を不当に害する」場合にあたるとされてきており、この点は、争いはないものと思います。
問題は、それ以外の場合は、どうかということです。
この点、考え方は、「例えば」とした上で、

インターネット上のウェブサイトでユーザの閲覧に供するため記事が提供されており、
データベースの著作物から容易に情報解析に活用できる形で整理されたデータを取得できるAPIが有償で提供されている場合、
そのAPIを有償で利用することなく、
当該ウェブサイトに閲覧用に掲載された記事のデータから、当該データベースの著作物の創作的表現が認められる一定の情報のまとまりを、
情報解析目的で複製する行為

は、ただし書に該当し、30条の4の適用がない場合があり得るとしています（25頁）。
かなり新聞記事について力を入れて語っていますね（笑)

この記載は、ネットで無料公開されている新聞記事を、まとまった量のスクレイピングすることは、新聞社が記事データベースを有料で提供している場合には、たとえ生成AIの学習用であっても、新聞社の許諾が必要になる場合がある、ということを言っています。

もっとも、この「例え」にそのまま当てはまるのは、①新聞社が、データベースの著作物から容易に情報解析に活用できる形で整理されたデータを取得できるAPIを有償で提供している場合で、かつ②データベースの著作物の創作的表現が認められる一定の情報のまとまった新聞記事をスクレイピングする場合に限られています。データベースの著作物の創作的表現とは、著作権法上、情報の選択または体系的構成の創作性なので、この点の検討が必要と思われます。

（６）学習のための複製等を防止する技術的な措置が施されている場合

生成AIの学習用データを収集する手段として一般的なものとしてウェブサイトのスクレイピングがあるわけですが、スクレイピングを回避する手段として「robot.text」というメタタグをウェブサイトに仕込む方法があります（なお、このメタタグを回避してスクレイピングする方法もあるので万能ではありません）。

そこで、生成AIの学習用にウェブサイトの情報を使われたくない著作権者としては、ウェブサイトにrobot.textを仕込むことやID・パスワードを設定することが考えられます。そこで、このような技術的措置がとられれているウェブサイトのデータを複製することが、ただし書の「著作権者の利益を不当に害する」に当たるかが問題となります。要は、著作権者によるオプトアウト（著作権者の反対意思の表明によって著作物のAI学習を禁止すること）を認めるか、という問題です。

「考え方」は、

robot.textなどの技術的措置が取られていること
このような技術的措置が取られていることや、過去の実績（情報解析に活用できる形で整理したデータベースの作成実績、そのライセンス取引に関する実績等）といった事実から、ウェブサイト内のデータを含み、情報解析に活用できる形で整理したデータベースの著作物が将来販売される予定があることが推認される場合に
この技術的措置を回避して、スクレイピングによりウエブサイト内にある多数のデータを収集することにより、AI学習のためにそのデータベースの著作物の複製等をする行為は、そのデータベースの著作物との関係で、ただし書にあたり、著作権法30条の4が適用されないことが考えられる

としています（26頁）。

上記の「考え方」によれば、robot.textのメタタグが入っているウェブサイトをスクレイピングしたとしても、それだけでは、「著作権者の利益を不当に害する」とは言えないと考えられます（修正前の「考え方」にはそのように読める記載がありましたがパブコメ後に修正されました）。つまり、著作権者による単なるオプトアウトではAI利用は禁止できないということです。

もっとも、上記3の部分の記載について、ウェブサイトに掲載されているデータをスクレイピングすることが、データベース著作物を複製することになるとは必ずしも言えないので（善解して、「ウェブサイト内の多数のデータを収集することが、データベースの著作物の著作物の複製等に当たる場合には」とすれば意味は通じそうですが）、私個人としては、この記載の趣旨がつかみかねています。わかる方は教えていただければ幸いです。

（７）小括

天気のよい春うららかな休日にこの記事を書いていますが、開発学習段階まで書いて流石に疲れたのと、読者の方も、長い文章を読むのは大変かもしれないと思うので、一旦ここで筆を置かせていただきます。
「利用生成段階」については、別の機会に執筆させていただきます。