ハーバード大学によるデータセット無料公開~AI分野での公平な競争促進
ハーバード大学は12月12日、約100万冊のパブリックドメインの書籍を含む高品質なデータセットを公開すると発表しました。このデータセットは、ハーバード大学がマイクロソフトおよびOpenAIからの資金提供を受けて新設したInstitutional Data Initiative (IDI)が作成したもので、誰でも大規模言語モデル(LLM)やその他の人工知能(AI)ツールの訓練に使用することができます。IDIのデータには、Google ブックスのプロジェクトの一環としてスキャンされたもので、すでに著作権保護の対象外となっている書籍も含まれています。個人や小規模な企業でも著作権の問題を気にせず活用できるリソースを提供することで、AI分野でのより公平な競争促進を目指しています。
IDIのデータベースは、メタ・プラットフォームズのLlamaのようなAIモデルの訓練に使用された悪名高いデータセット「Books3」の約5倍の規模を誇り、さまざまなジャンル、年代、言語の書籍を網羅しています。シェイクスピア、チャールズ・ディケンズ、ダンテなどによる古典的な作品から、あまり知られていないチェコ語の数学の教科書やウェールズ語のポケットサイズの辞書まで収録されています。
このプロジェクトは、AI産業の小規模企業や個人の研究者を含む一般の人にも、通常は十分なリソースをもつ大手テック企業にしか集められないような高度に洗練されたコンテンツリポジトリを利用できるようにすることで、「平等な競争を促進する」試みであり、「厳密な審査を経たデータセットです」と、IDIのエグゼクティブディレクターを務めるグレッグ・レパート氏は説明しています。
パブリックドメインの作品を収録したこのデータベースは、AIモデルを構築する際に、ライセンスを取得したほかの資料と組み合わせて利用されることを想定していると、レパート氏は話します。
「これは、世界中で基盤のOSとして使われているLinuxに近いものであると考えています」レパート氏は語るものの、企業は競合他社との差別化を図るために、追加の訓練データを用いる必要があるとも説明しています。
マイクロソフトのバイスプレジデントで知的財産を担当する次席法務顧問のバートン・デイビス氏は、このプロジェクトを支援することは、AIスタートアップが活用できる「公共の利益に沿って管理されるデータプールをつくり出すことの重要性を重んじる、同社の基本的な方針と合致している」と強調しました。これは、言い換えれば、マイクロソフトは自社のAIモデルの訓練に使用してきたデータを、ハーバード大学の新たなデータベースにある書籍のようなパブリックドメインのデータに全面的に切り替えることまでは想定していないということだと考えられます。「モデルの訓練には、公的に利用可能なデータを活用しています」ともデイビス氏は説明しています。OpenAIの知的財産とコンテンツの最高責任者であるトム・ルービン氏は、同社がこのプロジェクトを支援できることを「喜ばしく思う」と声明で表明しています。
ある種のオープンソースとしてデータセットを公開する一方、現在、著作権で守られているデータをAI訓練に用いることを巡り数多くの訴訟が進行しており、AIツールが今後どのような手法で構築されることになるかは、まだはっきりしていません。AI企業が裁判に勝てば、著作権者とライセンス契約を結ぶことなく、インターネット上の情報を収集し続けることが可能になりますが、負ければ、AI企業はモデルの構築方法の大幅な見直しを迫られるかもしれません。ハーバード大学のデータベースのような一連のプロジェクトは、どのような結果になろうとも、パブリックドメインのデータセットへの需要が必ず発生するという前提の下に進められています。膨大な書籍にとどまらず、IDIはボストン公共図書館と協力し、現在パブリックドメインとなった新聞記事数百万点をスキャンする作業も進めています。また、今後もほかの機関と同様の協力関係を築くことに意欲を示しています。書籍のデータセットの公開方法については、具体的なことはまだ決まっていません。IDIはグーグルに対し、一般公開に向けた協力を求めているものの詳細はまだ検討中であり、グーグルで国際問題部門のプレジデントを務めるケント・ウォーカー氏は、声明でこのプロジェクトを「支援できることを誇りに思う」と伝えています。
どのように公開されるかはまだわかりませんが、実現すればIDIのデータセットは、企業が著作権にまつわる問題に直面することなく、有用で高品質なAI訓練用の資料の使用を約束する類似のプロジェクトやスタートアップ、施策に加わることになります。例えば、Calliope NetworksやProRataといった企業は、使用者にライセンスを発行し、AI訓練用のデータを提供するクリエイターや権利者に報酬を支払う仕組みを構築しようとしています。ほかにもパブリックドメインのデータを扱う新たなプロジェクトが登場しています。フランスのAIスタートアップであるPleiasは、昨年春にパブリックドメインの作品を収録した独自のデータセット「Common Corpus」を公開しました。このデータセットには約300万~400万冊の書籍や定期刊行物が含まれていると、プロジェクトコーディネーターのピエール=カール・ラングレ氏は説明しています。Common Corpusはフランス文化省の後援を受けており、オープンソースのAIプラットフォームHugging Faceでは、今月だけでも6万回以上ダウンロードされました。
Pleiasは先日、このデータセットを用いて訓練した初の大規模言語モデルを複数公開すると発表しました。これらのモデルは「完全にオープンデータのみで訓練され、欧州連合(EU)のAI規制法に準拠する初のモデルである」とラングレ氏は説明しています。同じようにパブリックドメインの画像のデータセットを作成する動きもあります。AIスタートアップのSpawningは今夏「Source.Plus」と呼ばれる独自のデータセットを公開しました。このデータセットはWikimedia Commonsのものをはじめ、美術館などが保存している作品などのパブリックドメインの画像を収録しています。また、ニューヨークのメトロポリタン美術館など一部の著名な文化機関は、以前から個別のプロジェクトとして収録作品を一般公開してきました。
Stability AIの元幹部で、現在は倫理的に訓練されたAIツールを認証する非営利団体を運営するエド・ニュートン=レックス氏は、こうしたデータセットの台頭は、高性能かつ質の高いAIモデルを構築するために著作権に守られた資料を盗む必要はないことを示していると説明しています。OpenAIは以前、英国の立法者に対し、著作権に守られた作品を使用せずにChatGPTのような製品を生み出すことは「不可能」だと主張していました。「このようなパブリックドメインの作品を収録した大規模なデータセットは、一部のAI企業がモデルの訓練のために著作権に守られた作品を収集する行為を正当化する『必要性の主張』をさらに揺るがすものです」とニュートン=レックス氏は説明しています。
迷走中ともいえる状況ではありますが、IDIやそれに類するプロジェクトが、実際にAI訓練の現状を変えられるかどうかについて、ニュートン=レックス氏は慎重な見方をしています。
「これらのデータセットが業界によい影響をもたらすには、これらのデータセットを、スクレイピングで取得した著作権で保護されている作品を置き換えるためにライセンスを取得したデータと組み合わせて使用する場合に限られます。そうではなく、これらのデータを無許可で使用されている世界中のクリエイターの作品を含むデータセットに追加されるだけであれば、それはAI企業にさらなる利益をもたらすだけです」と指摘しています。
AIは学習をしなければ、無価値のプログラムです。学習させるデータが多ければ多いほど、品質のいいデータであればあるほど、AIは飛躍的に成長します。膨大なデータセットを用意できるのは資金力のある大手企業だけであった現状を、オープンソースとして誰でも利用できるように公開したハーバード大学の取り組みは、個人やベンチャー企業といった資金力のない場合でもAIを学習させることができるだけに、よりAI開発が進むと期待できます。
AI開発をしているOpenAIやマイクロソフトが出資していることだけを見ると、敵に塩を送るようにも見えかねませんが、多くの競争力を得ることで、自社の開発にもいい刺激となると判断したのかもしれません。
自社の利益だけでなくAI分野全体の発展に寄与しようとする姿勢が大きな成功につながる、これは日本の企業にも見習ってほしいところです。