
人工知能の時代に言語と文化を保護するために必要なこと
近年の大規模言語モデルに基づいた生成AIの進展において、欧州の動きで顕著なのが、欧州言語や文化を保護するために、積極的にデジタルテキストの整備に取り組む動きが見られていることだ。
私は、この動きには、少々注目していて、以前にも取り上げた事がある(「デジタルとフィジカル」参照)。その背景にあるのは、いくら物理的に存在してもデジタルで存在しないものはなかったものにされかねないという恐れだと思う。
関連する事項として、12月3日にデンマークデジタル社会庁が、「人工知能に対応するための準備が進む(Danske tekster gøres klar til kunstig intelligens)」というプレスリリースを出した。
人工知能に対応するための準備が進む
(Danske tekster gøres klar til kunstig intelligens)(超訳)
今後、デンマーク語のデジタル・テキストは、無料でアクセスできるようになる。これは、言語モデルを構築するための重要な第一歩であり、それは、デンマークの文化や言語文脈が反映される結果につながるからだ。それらのデータは独立性、透明性を担保し、著作権やデータ保護規制も準拠する。
デンマーク語の言語モデルを構築するためには、デンマーク語のテキスト・データが標準化され、機械可読性をもつ必要があり、そうして初めて、人工知能の開発に利用できるようになる。この視点は、2027 年政府AIビジョンにも示されているものだ。目標は、2000億語を利用可能にする事である。
人工知能は、民間企業および公共機関のどちらのデンマーク語利用においても機能する必要がある。そして、人工知能は、単にデンマーク語を理解するだけではなく、言語から、デンマークの価値観や伝統を理解する必要があるのだ。
チャットボットやデジタル・アシスタントのベースとなる主要な言語モデルのほとんどは、アメリカのテクノロジー企業によって開発されている。つまり、世界で利用されている主な言語モデルは、英語のデータでトレーニングされているのだ。これが意味するのは、言語モデルは、米国の文化やフレーズに基づいていることが多いということである。(デンマークの価値観を言語モデルが出力する結果に反映させたいのであれば)利用可能な高品質のデンマーク語のテキスト・データがさらに必要になるという事である。
デジタル社会庁が、このプロジェクトの調整役であり、現在の目標として、国立公文書館、王立文書館などから大量のテキスト・データの収集を掲げている。すでに、図書館や国会のデータは利用可能(不正確)である。本プロジェクトでは、著作権とプライバシーの考慮も謳われている。
キーポイント
予算:総額 2,110 万 DKK 。本資金は、デンマーク語のテキスト・データを利用できるようにするために使用されるもので、2024 年ー 2027 年に実施される。
本プロジェクトには、約3000億の十分な品質のトークン(約 2,000 億語に相当)が対象となる。デンマークの言語、文化、価値観、習慣を、生成AIなどの新しい技術ソリューションに反映させるための基盤構築となる。この基盤を持って、デンマークにおいて、人工知能の活用可能性が高まると考えている。
本プロジェクトは、第一段階として、国立公文書館と国立図書館のテキスト・データのデジタル化に焦点を当てる。つまり、公的機関の出版物、デンマーク議会のデータ、および著作権の対象とならないその他のオープンデータが対象となる。
デジタル・データは、アクセス可能な方法、つまり、言語モデルの開発に使用できる形式で整備される。
*イラストは、CoPilotに作ってもらいました。怪しすぎ。