「BLOOM」が正式に発表された。
MITテクノロジーレビュー(MIT Technology Review)は2022年08月03日に、2022年07月12日に、新しいLLM(large language model/大規模言語モデル)「BLOOM」が、117日を費やして正式に発表されたと報告した。
コードを公開しておらず、言語モデルを一般に利用できるようにしていないオープンAI(OpenAI)の「GPT-3」や、Googleの「LaMDA(ラムダ)」といったより有名な他の大規模言語モデルと異なり、「BLOOM(BigScience Large Open-science Open-access Multilingal Language Model)」は、できる限り透明性を持つように設計されている。
研究者たちはBLOOMの訓練に用いたデータの詳細や、開発における課題、性能評価の方法について公表している。
「GPT-3」や「LaMDA」の言語モデルを一般に利用できるようにしていないので、外部の研究者は、これらの言語モデルがどのように訓練されているかについてほとんど分かっていない。
「BLOOM」は、1000人のボランティア研究者たちによる「ビッグサイエンス(BigScience)」と呼ばれるプロジェクトで、2021年に1年間かけて作られた。
https://time-az.com/main/detail/77427
このビッグサイエンス・プロジェクトはAIスタートアップであるハギング・フェイス(Hugging Face)が、フランス政府からの資金を使って取りまとめた。
研究者たちは、他の先進的なモデルと同等の性能を持ち、誰でも利用できる巨大言語モデルを開発することは、AI開発の文化に長期的な変化をもたらし、世界中の研究者が最先端のAI技術にアクセスできる民主化につながると期待している。
「BLOOM」の最大の特徴は、アクセスしやすさにある。
すでに利用可能になっており、ハギング・フェイスのWebサイトから、誰でも無料でダウンロードして研究に利用できる。
ユーザーは言語を選び、レシピや詩を書かせたり、文章を翻訳または要約させたり、プログラミングのコードを書かせたりするタスクをBLOOMに実行させられる。AI開発者はこのモデルを使って、独自のアプリケーションを構築することもできる。
1760億個のパラメーター(入力データを望ましい出力に変換するための変数)を持つが、これはオープンAIのGPT-3の1750億個のパラメーター数よりも多い。
ビッグサイエンスによると、「BLOOM」は同サイズの他モデルと同程度の正確性と有害性を備えるという。
スペイン語やアラビア語などの言語でこれほど大規模な言語モデルが作られたのは、「BLOOM」が初めてである。
しかし、同モデルの開発者でさえ、「BLOOM」は大規模言語モデルに根深く存在する問題を解決できないと警告する。
その問題とは、データガバナンスポリシーやプライバシーポリシーの不足や、人種差別的・性差別的な有害なコンテンツを吐き出すなどといったことである。
膨大な量のデータを使って学習させるディープラーニングアルゴリズムである大規模言語モデルは、AI研究において最も注目されている分野の一つである。GGPT-3やLaMDAのような強力な大規模言語モデルは、人間が書いたかのような文を作成し、オンラインでの情報処理の方法を変える大きな可能性を持っている。これらは、チャットボットとして、あるいは情報の検索、オンラインコンテンツの調整、書籍の要約、プロンプトに基づく全く新しい文章の生成などに利用することができる。しかし、問題点も多くある。
また、このモデルは非常に排他的である。このモデルは、高価なコンピューティングパワーを大量に使って大量のデータから学習させる必要があるが、これはGoogleのような大企業にしかできないことである。
最先端のLLMを開発しているほとんどの大手テクノロジー企業は、部外者の利用を制限しており、モデルの内部構造に関する情報も公開していない。そのため、彼らの責任を追及することは難しい。「BLOOM」に取り組む研究者たちが変えたいと願っているのは、この秘密主義と排他性である。
Metaはすでに現状から一歩踏み出している。2022年05月、同社は独自の大規模言語モデル「OPT-175B(Open Pretrained Transformer)」を、そのコードとモデルの学習方法を詳細に記したログブックとともに公開した。
世界中の何100人もの科学者が、手遅れになる前に最も強力な新興テクノロジーの一つを理解しようと協力している。
しかし、Metaのモデルはリクエストに応じてのみ入手可能であり、その使用は研究目的に限定されるというライセンスがある。
Hugging Faceはさらに一歩進んでいる。過去1年間の作業の詳細を示す会議は記録され、オンラインでアップロードされる。誰でも無料でモデルをダウンロードし、研究または商用アプリケーションの構築に使用することができるのである。
BigScience社が重視したのは、倫理的な配慮を後回しにせず、モデルの初期段階から埋め込むことだった。
LLMは、インターネットをスクラップして集めた大量のデータで訓練する。このようなデータセットには多くの個人情報が含まれており、危険なバイアスが反映されていることが多いため、問題が生じる可能性があある。このグループは、どのようなデータが使用され、誰のものであるかを明確にするために、LLMのためのデータガバナンス構造を開発し、オンラインで容易に入手できない世界中のさまざまなデータセットを調達している。
また、同グループは、利用規約のようなものである「Responsible AI License」を新たに立ち上げている。法執行や医療といったリスクの高い分野で「BLOOM」を使ったり、人を傷つけたり、騙したり、搾取したり、なりすましたりすることの抑止力として機能するように設計されている。このライセンスは、法律が追いつく前にLLMを自主規制するための実験だと、このプロジェクトにボランティアとして参加し、ライセンスを共同作成したAI研究者のデンマーク・コントラクター(Danish Contractor)は言う。しかし、最終的には、誰かが「BLOOM」を悪用することを止めることはできない。
BLOOMの倫理憲章を起草したHugging Faceの倫理学者ジアダ・ピスティーリ(Giada Pistilli)は、このプロジェクトでは当初から独自の倫理ガイドラインを設けており、それがモデル開発の指針として機能したと語る。例えば、多様なバックグラウンドとロケーションからボランティアを募集すること、外部の人間でも簡単にプロジェクトの成果を再現できるようにすること、成果をオープンにすることなどが挙げられる。
この哲学は、BLOOMが他のLLMと大きく異なる点として、理解できる人間の言語数の多さを挙げることができる。
フランス語、ベトナム語、北京語、インドネシア語、カタロニア語、ヒンディー語などのインド系言語13種、アフリカ系言語20種など、46種を扱うことができる。学習データの30%強が英語である。また、13のプログラミング言語を理解することができる。
これは、英語が主流の大規模言語モデルの世界では極めて異例なことである。これも、LLMがインターネットからデータをかき集めて作られた結果である。ネット上で最もよく使われているのは英語なのである。
「BLOOM」がこの状況を改善できたのは、世界中のボランティアを集め、たとえネット上であまり使われていない言語であっても、他の言語で適切なデータセットを構築することができたからである。例えば、Hugging FaceはアフリカのAI研究者とワークショップを開き、自治体や大学の記録など、アフリカ言語のモデル学習に使えるデータセットを探そうとしたと、Hugging Faceのインターンでアフリカ言語の自然言語処理に取り組む団体Masakhaneの研究者であるクリス・エメズー(Chris Emezue)は言う。
貧しい国のAI研究者にとって、これほど多くの異なる言語が含まれることは、大きな助けになるはずである。「BLOOM」は、アプリケーションの構築と母国語でのタスクのためのモデルの微調整に集中するために、モデルの開発と訓練という高価な部分を省略することができる。
「自然言語処理の未来にアフリカの言語を取り込みたいのであれば、言語モデルを学習する際にアフリカの言語を取り込むことは非常に重要で良いステップです。」とクリス・エメズーは言う。
BigScience社は、「BLOOM」を中心としたコミュニティの構築という「驚異的な」仕事をし、倫理とガバナンスを最初から巻き込むというアプローチは思慮深いと、スタンフォード大学財団モデル研究センターのディレクター、パーシー・リャング(Percy Liang, director of Stanford's Center for Research on Foundation Models)は言う。
しかし、パーシー・リャングはLLMの開発に大きな変化をもたらすとは考えていない。
「OpenAI」や「Google」、「Microsoft」は、まだまだ先を驀進しています」と彼は言う。
結局のところ、「BLOOM」はまだ大規模な言語モデルであり、関連するすべての欠陥とリスクを伴っている。」「OpenAI」のような企業は、モデルやコードを一般に公開していない。なぜなら、性差別や人種差別的な表現が含まれているため、そのような使い方は危険すぎるからだと主張している。
「BLOOM」にも不正確な情報や偏った表現が含まれる可能性があるが、モデルに関するすべてが公開されているため、人々はモデルの長所と短所を問いただすことができると、Hugging FaceのAI研究者兼倫理学者であるマーガレット・ミッチェルは述べている。
AIに対するBigScienceの最大の貢献は、「BLOOM」そのものではなく、そのボランティアが関わっている数々のスピンオフ研究プロジェクトに行き着くのかもしれない。例えば、そのようなプロジェクトは、モデルのプライバシーの信頼性を強化し、生物医学研究などの異なる分野でこの技術を使用する方法を考え出すことができる。
「BLOOM」のトレーニングを共同で行ったHugging Faceの研究者テヴェン・レ・スカオ(Teven Le Scao)は、「1つの新しい大規模言語モデルが歴史の流れを変えることはありません」と言う。「しかし、人々が実際に研究を行うことができる、優れたオープンな言語モデルを一つ持つことは、長期的に強い影響を与えます。
LLMの潜在的な害について言えば、「パンドラの箱はすでに大きく開いています」とテヴェン・レ・スカオは言う。「あなたにできる最善のことは、研究者がLLMを研究できるような最高の条件を整えることです。」と言っている。