生成AIの学習データの問題　~反AIは知性を否定する愚者のすること~

2024年12月4日 03:06

はじめに

コメントとして、ここに書いてきましたが、その後、内容を補足するため、何度か加筆しており、文章が膨れ上がってきましたので、目次を作成しました。こう言うのが私のノート執筆のスタイルですので悪しからず。

しばらく経って、再び読まれましたら、文字数が大幅に増えていたというのもよくあることです。　しかし、いずれの加筆も基本的に元の趣意を変えるものではなく、より分かり易く、表現を変えたり、具体例を追加したりすることが多いです。

comment too long って言われた

あるところで、生成AIの学習についてのコメントを書いたら、

って言われたので、ここに記します。

本題

基本、人が見聞きでき、五感で感じることができるものは、人に限らずAIもすべて学習の対象となり得ます。　だって、AIに限らず、文明の利器とは人の能力を増幅し自動化することを目指して開発してきたからです。　さらに、昨今のAIに関しては可視化するまでもなく、人ではなし得ない多くのセンサや多量の情報を高速に処理・出力できます。

模倣や学習は今に始まったものではない

人でもオリジナルの創作、インスパイア、合法的なコピーと、盗作や贋作などは昔からありました。　歴史上、モーツァルトがサン・ピエトロ大聖堂で門外不出の「天下の秘曲」※(グレゴリオ・アレグリ作曲ミゼレーレ)を一度聞いただけで、耳コピしたのは有名な話です。

学習は知恵を得る行動、AIとの違いは速度

さらに、オリジナルの創作であっても、人である以上、生活や経験からクリエイター自身も学習して生み出したものです。　また、学習対象は、映像や音だけとは限らないでしょう。

AIは多くの経験(データ)からシンパシーを得やすいものを学習(抽出・圧縮・蓄積etc…)し、エンパシーによって生成するので、その過程は人と余り変わらないのです。　学習は知恵を得る行動で、人もAIも同じなのです。　違うのは、その処理速度です。　また、その能力を持ってなくてもAIを利用できれば、第三者が創作させることができるところです。

AIによる学習を防止するには

ですから、本当に、人やAIに学習してもらいたくなければ、少なくとも作品を誰が見るかもわからない公共の目につくところに曝露しないことです。　直接的にも、間接的にも、決して消費者や観客の目に触れられなければ、問題が生じません。　つまり、悪用する相手がいなければ問題が生じないのです。

問題は、他人の作品を学習させた生成AIを利用して、消費者や観客を騙して、誤解を与えたり、不当な利益を得ようとするところにあるのです。　悪いのはAIではなく、AIを利用してズルをする輩です。

トレーサビリティが重要

クリエイターの権利を守るには、生成AIの出自に関するトレーサビリティが非常に重要な鍵となるのです。　まあ、このチェックもAIでできますが、それこそ、権利者の作品を学習していないとAIで判定できません。　また、生成AIを広めたSNSが、この役割を担っている側面もあります。　なんとも、皮肉な話ですが、巷に溢れる大量の作品の中で、効果的にチェックするにはこれしかないでしょう。

制限は諸刃の剣、下手すると創作活動にも支障をきたす

このチェックを余りにも厳しくしすぎたり、逆に判定が杜撰だと、まったくのオリジナルにも拘わらず、他者の作品を参考にしていると、指摘されるかも知れません。　実際、生成AIの話ではありませんが、単純な楽曲でも、ネット配信で許可されたものや完全自作にも関わらず、著作権申立てされることは珍しくありません。　単純な合法的なコピーの判定でさえ難しいのです。　

知らず知らずのうちに既に利用されている

ましてや、学習データのソースの出自については、言わずもがなです。　WEBで発信し、ネットで簡単に検索できるようなものは、生成AI云々に関係なく、既に、検索エンジンに取り込まれ、営利目的で利用されています。　これが嫌なら、秘密にして、検索でヒットしないように、まさにSEOと真逆のことをしなければなりません。

公開データの利用制限は難しい

コピーされないようどんなに視聴する方法を工夫しても、人が見聞きすることができるものは機械でコピー可能です。　さらに、視聴者が多ければ多いほど、いくら制限しても、模倣がリークするのは時間の問題です。　ましてや個人でも利用可能なネットで見聞きできるものは、言うまでもありません。

また、経験そのもの提供していると言っても、それは学習そのものであり、AIもできます。　そのうち、技術が進み学習結果を得た方法が人かAIによるものか、区別できなくなるでしょう。　つまり、学習となるとデータ変換された後なので、無断使用と言われるものを防ぐのが難しいのです。　少なくとも、ネットで検索できるものは既に利用され、今後も利用され続け、止めることはできないでしょう。　ただし、営利目的・騙す目的の利用は、チェックされ、対処されるでしょう。

AIの利用を禁止する行為は知性の否定につながる

人類の進化は知性により成り立っている

人類が他の種と比べて進化したのは、知能を持ったからです。　知能(知性)は、過去の経験から学習し、未来を予測してより良き状態で生存するため、生存競争を勝ち抜くための強力な能力(手段)であるのです。　

人類は、古来、道具を使うことにより、生存競争において他の種より有利になりました。　

18世紀後半の産業革命以降、エンジン(動力)を得ることにより、その力を機械により増幅させ、肉体労働に関して、さらに他の種より有利になり、ある程度自動化もしてきました。

20世紀後半に入り人類は知識活動を増大させ、加速させる機械、コンピュータを発明しました。

使用目的が定まらない機械

しかし、それまでの機械と違い、人類が初めて作った具体的な使用目的が定まらないと言う機械、それがコンピュータでした。　ネットの普及がなかった時代、個人がPCを買う時、趣味以外で、あんな高いもの何の利用目的に使うのかと問われたときに、返答に窮したオタクは多かったでしょう。　私は、仕事にしている科学技術計算をすると言う目的で誤魔化していました。

とは言っても、初期のコンピュータは電算機と呼ばれ単純に算術演算を高速化させる機械でした。　その後、プログラムと言うアルゴリズムを実行する自動機械へと進化します。　現在、ネットにはコンピュータは必要不可欠と言う側面もありますが、多くのコンピュータ上で動くアプリのアルゴリズムは、それぞれ具体的な目的を持って問題解決する機能を有しています。　ですから、アプリケーション(応用)プログラムと呼ばれるのですけどね。

AIの黎明期、エキスパートシステム

1980年代になると、初期のAIの技術として、エキスパートシステム(専門化システム)が利用されるようになりました。　私も仕事でナレッジエンジニアの一部を齧ったことがありましたが、適用範囲が狭く限界を感じていました。

エキスパートシステムは、知識ベースと推論エンジンからなっています。　知識ベースはルールベースと呼ばれる if ... then ルールで書かれており、ナレッジエンジニアと呼ばれる計算機科学者のみが取り扱い可能な難しいものです。　推論エンジンはプログラムで、大雑把に言えば、三段論法のロジックが処理できるアルゴリズムで構成されています。

人間の専門家（エキスパート）の意思決定能力をエミュレートするものである。専門家のように知識についての推論によって複雑な問題を解くよう設計されており、通常のプログラミングのようにソフトウェア開発者が設定した手続きに従うわけではない。

Wikipedia 「エキスパートシステム」より

新しいAIの時代、ニューラルネットワーク

近年になって、機械学習、つまりAIの研究が進み、ヒトの脳の仕組みを模したニューラルネットワークを用いる技術が開発されました。　その中でもディープラーニングの進歩と応用には目覚ましい発展があります。

これは、その都度、特別のアルゴリズムを用いたプログラムではなく、しかも、エキスパートシステムのように専門家が知識ベースを作るのではなく、AI自らに学習させると言うものです。　つまり、複雑なロジックや構造を持ったものではなく、ヒトの大脳組織の神経ネットワークのように同質の構造を持っていて、しかも、学習することができ、臨機応変な出力を得られると言うもので、まさに、パターン認識から始まる知識そのものの構造なのです。

その結果、AIに使用するCPUは、複雑なものではなく、ごく単純な演算を多量に同時並行的に計算でき、近傍ノード(神経細胞に相当)が互いに高速に(ニューロンで)通信できるだけで良いのです。ですから、多数のピクセル単位で同時並行的に演算できるグラフィックボードが、AIのハードウェアとして流用されるのです。

反AIは知性を否定する愚者のすること

で、知性の進化にまつわるコンピュータの歴史を述べてきましたが、本題に戻ります。

AIは知性そのものをより強力にするものです。　ヒトの知性を補助し、知識活動を増大させ、加速させるものです。　文明の進化と言って良いでしょう。

その中で知性の一つである、創作活動も、ヒトだけがする特権ではありません。　ましてや、義務や仕事でもありません。

ヒトとしての権利や生命・財産と切り離して考えるべきなのです。

生成AIの利用を禁止する行為自体は、より進化した知性を否定することに他なりません。

機械化からは逃れることが出来ない

少し脱線しますが、以上述べたことをより一般化すると...

どのような産業でも文明が進めば、可能なものから機械化されます。　理由は簡単、24時間365日働いてくれて、文句を言わないからです。

しかし、機械化の導入は、機械を動かすためのエネルギーと適切なメンテナンスが必要です。　現実的には、その費用と成果物やサービスの品質とのバランス(コスパ)で決まるでしょう。

いくら、法規制しても、共産主義が崩壊したように、このような経済の自然な流れに抗うことはできません。

過去の戦争や争いが、宗教やイデオロギーを携えることがあっても、根本には、生存に適した、より快適な生活を求めたエネルギー争奪戦であったことを忘れないで欲しい。

進化とは、適者生存、生存競争なのです。　進化に対応できず、受け入れることができなかった者は、好むと好まざると拘らず、遅かれ早かれ、いずれ自然淘汰されてしまうのです。

番外：学術論文の剽窃チェック

ただし、学術論文などでは、コピペチェックはもちろんのこと、剽窃チェックツールの利用は、意図しない剽窃や盗用を排除し、論文投稿に備えるため、当たり前になっています。