AI時代でも健在の「やらずぶったくり」ビジネス　AI学習データの危機的不足

2024年9月30日 03:13

グーグルやMetaなどビッグテックの多くは「やらずぶったくり」で急成長を実現してきた。法規制がほとんどない時期に個人情報を集めまくり、著作物への対価を支払わずに利用して利益を得て、勝手に世界中の街の写真を撮りWiFiの情報を収集しまくってきた。法規制が整ってくる頃にはビジネスが巨大になっており、法規制が整ってきた頃にはすでにそれは後発企業を締め付ける参入障壁として機能する。
過去の新ビジネスの多くは法規制がまだない市場でやりたい放題やって、他人の権利や著作を「やらずぶったくり」で稼いでいたのでビッグテックが特別悪いことをしているわけではないのだが、とても多く儲けて、影響力も大きいだけだとも言える（充分特別扱いする理由になる気もする）。

●概要

最近注目のAIもこのパターンを踏襲し、ネットのコンテンツを収集して学習データとして利用してきた。そして、先行して資本を集め、いち早くビジネスを立ち上げた企業が出て来た頃、急速に学習データとしての利用を拒絶するWEBサイトなどが増加し、利用できるデータの枯渇に直面している。無数の弱小WEBサイトが大手メディアのように訴訟やライセンス契約などをAI企業と締結することなど難しい。どうやったかと言えば、ただ、ロボット避けを置いただけなのだ。この簡単な方法で、大手AI企業はデータ収集を行わないとアナウンスし、後発企業は学習データ不足に直面している。見事に「やらずぶったくり」ビジネスを踏襲した参入障壁の作り方だ。

先日、公開されたData Provenance Initiativeの「Consent in Crisis: The Rapid Decline of the AI Data Commons」（ https://www.dataprovenance.org/consent-in-crisis-paper ）は、一般的に使用されている3つのAIトレーニングデータセットに含まれる14,000のWEBを調査し、無視できない数のWEBサイトがデータの収集を防ぐための措置を講じていることを発見した。

Data Provenance Initiativeの「Consent in Crisis: The Rapid Decline of the AI Data Commons」（ https://www.dataprovenance.org/consent-in-crisis-paper ）

C4、RefinedWeb、Dolmaと呼ばれる3つのデータセットにおいて、全データの5%、最高品質のソースからのデータの25%が制限されていると推定している。制限方法は何十年も前からあるrobots.txtというファイルを置くだけ。C4データセットの45%が、WEBサイトの利用規約によって制限されていた。
大手AI企業はすでにこうしたWEBサイトからのデータ収集を完了しており、更新はできなくなるものの過去に収集したものに遡及して制限が適用されることはない。

こうしたData Wall によって大手AI企業は後発に参入障壁を築き、競争相手が限られたマーケットで無償で得た莫大なデータから生まれる利益を得ることができる。

●感想

ここにはもうひとつ問題があって、利用可能なデータの中で、生成AIが作り出すピンクスライムジャーナリズムなどゴミや偽・誤情報の割合が多くなってくることだ。当然ながら、ゴミを学習したAIはゴミの回答しかしなくなる。いまでも併記でウソや陰謀論を回答するAIがよりひどくなることを意味する。（全く流行らなかった言葉だが）インフォカリプスの時代の到来だ。

好評発売中！
『ネット世論操作とデジタル影響工作：「見えざる手」を可視化する』（原書房）
『ウクライナ侵攻と情報戦』（扶桑社新書）
『フェイクニュース　戦略的戦争兵器』（角川新書）
『犯罪「事前」捜査』（角川新書）＜政府機関が利用する民間企業製のスパイウェアについて解説。

いいなと思ったら応援しよう！

本noteではサポートを受け付けております。よろしくお願いいたします。

AI時代でも健在の「やらずぶったくり」ビジネス AI学習データの危機的不足

●概要

●感想

いいなと思ったら応援しよう！

AI時代でも健在の「やらずぶったくり」ビジネス　AI学習データの危機的不足