AIが学習するデータがもう足りない?そのスピードは予想をはるかに上回っていた。
今朝のポッドキャストを聞いていて耳を疑いました。AIの学習スピードって恐ろしい…
聞いていたのはこちら。読むと長いけど、31分で割と聞きやすい英語なので通勤途中におすすめです。
なんとなんと、インターネット上の信頼できる英語テキストの供給源を使い果たしたというのです。世界中の英語のコンテンツというと、膨大な量になります。OpenAIの研究者チームは「Whisper」という音声認識ツールを作成し、YouTubeビデオの音声を文字起こしすることで、新しい会話テキストを得ることに成功しています。なんと100万時間以上のYouTubeビデオを文字起こししました。これにより得られたテキストは、世界で最も強力なAIモデルの一つとされるGPT-4に使用されたとのこと。確かにGPT-4になってからのやり取りの自然さを感じますよね。
Facebookやインスタを抱えるMetaも同じく膨大なデータを吸い上げていますが、なんと去年、その限界に達しています。
その学習データは3兆語。1600年代からの著書があるイギリス屈指の図書館Oxford University’s Bodleian Libraryのデータ量をすでに超えているのです。
最近では合成データのようなものも開発しています。人間が作成したものではなく、AIモデルが生成するテキストや画像です。もはや人智を超えていると感じます。
一方で、AIの学習データの収集を規制する動きも出始めています。多くの出版者は、データがAIトレーニングに使用されることに懸念を抱いており、使用料を求めるケースも増えています。N YタイムズもOpenAIとMicrosoftを著作権侵害で訴えました。
反発が増す中、いくつかの出版者はペイウォールを設置したり、サービス規約を変更してデータの使用を制限したり、企業の自動ウェブクローラーをブロックしています。RedditやStackOverflowなどのサイトは、AI企業にデータへのアクセスを有料で提供し始め他とのこと。
これで困るのは大企業ではなく、小規模なAI企業です。また、学術研究者にとっては、公共のデータセットに依存するため、データのライセンス取得が困難になる恐れがあります。記事によると、Common Crawlのようなデータセットは何千もの学術研究で引用されていますが、その使用が制限される可能性があります。
最後の1行が刺さりますね。食べ放題で金を払わない客をどうするか。
そりゃそうだ。でももう、データ自体が枯渇している昨今、次はAIがAIから学ぶようになって行くのかな。