5つの注目日本語LLMと日本語LLM開発の課題(by Bing)
タイトル画像は「姿かたちが日本的なロボット」のプロンプトによってClipdropで生成したもの
1.日本語LLMの進化と課題について
近年、自然言語処理の分野で大規模言語モデル(LLM)が注目を集めています。LLMとは、大量のテキストデータを用いて深層学習を行うことで、言語の構造や意味を学習するモデルのことです。LLMは、文章生成や質問応答、対話など、様々なタスクに応用できる汎用性の高いモデルとして期待されています。
特に日本語LLMの開発は、いくつかの挑戦を伴ってきましたが、新たな動きも生まれています。今回は、その背景と現状、将来的な展望について概観します。
(1) 日本語LLM開発の遅れの要因
日本語LLMの開発は、以下の主な要因により遅れてきました。
日本語の特殊性:日本語は英語と比べて文法や表現が異なるため、英語ベースのモデルでは十分な性能を発揮できません。また、日本語に関する知識や文化も英語とは異なります。日本語に適したモデルを開発するには、日本語の特徴を考慮した工夫や研究が必要です。
データの不足:LLMの開発には大量のテキストデータが必要ですが、日本語のデータは英語に比べて少なく、また品質や多様性にも問題があります。日本語のデータを収集・整備するには、多くの時間とコストがかかります。
計算資源の制約:LLMの開発には高い計算力が必要ですが、日本ではスーパーコンピュータやクラウドサービスなどの計算資源が不足しているという指摘があります。また、計算資源を活用するための技術や人材も不足しています。
(2)日本語LLM開発の新たな動き
幾つかの要因が、日本でのLLM開発を後押ししています:
社会的ニーズの高まり:コロナ禍やDX(デジタルトランスフォーメーション)の推進により、自然言語処理や生成AIなどの技術が社会的に求められるようになりました。日本語で利用可能な高品質なLLMを開発することは、日本のAI産業や社会にとって重要な課題です。
LLM開発技術の進歩:OpenAIやGoogleなどの海外企業や研究機関がLLM開発技術を公開したことで、日本国内でも参考にすることができるようになりました。また、オープンソースやクラウドサービスなどを活用することで、計算資源やデータセットへのアクセスも容易になりました。
政府や産学連携の支援策:日本政府は、生成AIの研究開発や人材育成に関する支援策を検討しています。文部科学省は、大規模言語モデルの開発に必要な計算資源やデータセットを提供する「国立大規模言語モデルセンター」の設置を予算要求しました。経済産業省は、生成AIの倫理的・社会的な課題に対処するためのガイドラインやガバナンス体制の構築を進めています。これらの支援策は、生成AIが日本の産業や社会に貢献できるように、環境整備や規制緩和などを行うことを目的としています。また、産学連携の取り組みも活発になっており、例えば、早稲田大学とヤフー株式会社が共同で日本語言語理解ベンチマークJGLUEを構築・公開したことが挙げられます。
(3) 日本語LLM開発のメリット
日本語性能の向上:日本語に特化したLLMを開発することで、日本語での自然言語処理や生成AIの性能を向上させることができます。これにより、日本語での情報検索や質問応答、文章生成などのタスクに対応するサービスやアプリケーションの品質や利便性を高めることができます。
日本語知識や文化の保存・発展:日本語に関する知識や文化をLLMに学習させることで、それらを保存・発展させることができます。これにより、日本語の豊かさや多様性を維持・増進することができます。
(4) 日本語LLM開発の課題
データ品質の確保:LLMの性能は学習データの品質や多様性に大きく依存します。しかし、日本語のデータは英語に比べて少なく、また品質や多様性にも問題があります。日本語のデータを収集・整備するには、多くの時間とコストがかかります。また、データに含まれる個人情報やプライバシー、バイアスや偏見などの倫理的な問題も考慮する必要があります。
計算資源の確保:LLMの開発には高い計算力が必要ですが、日本ではスーパーコンピュータやクラウドサービスなどの計算資源が不足しているという指摘があります。また、計算資源を活用するための技術や人材も不足しています。計算資源を確保し、コストを削減するためには、効率的なモデル設計や学習方法などの工夫が必要です。
LLMの管理:LLMは人間のような文章を生成する能力を持っていますが、それは必ずしも正しい情報や倫理的な内容とは限りません。LLMが生成する内容には偽情報やヘイトスピーチなどの危険性もあります。LLMを適切に利用し管理するためには、その出力内容を評価したり、ユーザーに対してその信頼性や限界を明示したりする必要があります。
(5) 日本のLLMの未来像
今後の日本国内でのLLM関連の動向として、以下のような展開が予想されます:
開発競争の激化:日本語LLMの開発に関心を持つ企業や研究機関が増えることで、LLMの開発競争が激化することが予想されます。これにより、LLMの性能や品質、多様性などが向上する可能性があります。しかし、同時に、LLMの開発に関する知財や倫理などの問題も深刻化する可能性があります。
応用範囲の拡大:日本語LLMは、自然言語処理や生成AIだけでなく、他の分野や領域にも応用できる可能性があります。例えば、教育や医療、エンターテイメントなどの分野で、LLMを活用したサービスやアプリケーションが登場することが予想されます。これにより、日本語LLMは日本社会にとって有用な技術となる可能性があります。
社会的影響の考慮:日本語LLMは、人間の言語や知識を模倣する能力を持っていますが、それは必ずしも正しい情報や倫理的な内容とは限りません。LLMが生成する内容には偽情報やヘイトスピーチなどの危険性もあります。また、LLMが人間の言語や知識を置き換えたり、操作したりする可能性もあります。これらのことは、日本語や日本文化に対する影響だけでなく、人間のコミュニケーションや思考に対する影響も及ぼす可能性があります。LLMの社会的影響を評価し、適切に対処するためには、多様なステークホルダーの参加や協働が必要です。
このような背景と展望を踏まえ、日本語LLMの更なる発展と適切な利用のための取り組みが期待されます。
2.5つの注目日本語モデル
さて、ここまで説明してきたように、LLMは、言語を理解し生成する能力を持つ最先端のAI技術として注目されています。しかし、その多くが英語を中心に学習されている中で、日本語や日本文化に特化したモデルは少ない状況でした。
ところが、最近では日本国内でそのギャップを埋めるための試みが増えてきました。多くの企業や研究機関が日本語に特化したLLMの開発に熱心に取り組んでいます。今回は、その中でも特に注目すべき以下の5つのLLMをピックアップして紹介します。
サイバーエージェントのOpenCALM
rinnaの日本語特化型GPTモデル
Japanese StableLM Alpha
LINEの日本語大規模言語モデル
東京大学松尾研究室のWeblab-10B
3.サイバーエージェントのOpenCALM
サイバーエージェントは、今年5月11日に130億パラメータの日本語LLMのOpenCALMを開発したことを発表しました。このモデルは、サイバーエージェントが保有する大規模な日本語Webコーパスを活用して学習したもので、自然な日本語の文章生成が可能です。
サイバーエージェントは、「極予測AI」「極予測TD」「極予測LP」などAIを活用した広告クリエイティブ制作領域のサービスにOpenCALMを活用しています。
また、サイバーエージェントは、今年5月17日に最大68億パラメータの日本語LLMのOpenCALM-7Bを一般公開しました。このモデルはオープンな日本語データで学習したもので、商用利用可能なCC BY-SA 4.0ライセンスで提供されています。
4.rinnaの日本語特化型GPTモデル
rinna株式会社は、今年5月17日に同社が開発した日本語に特化したGPT型LLMのjapanese-gpt-neox-3.6bをオープンソースで公開しました。GPTとは、OpenAI社が開発した生成AI・LLMのことで、Transformerというモデル構造を用いています。
36億のパラメータを持つこのモデルは、WikipediaやCommon Crawlなどのオープンな日本語データで学習されたもので、商用利用可能なMIT Licenseで提供されています。文章生成や対話などに対応しており、同社が提供するAIキャラクターの「AIりんな」やSNS「キャラる」などのサービスに活用されています。
また、rinna社は、今年7月31日に日英バイリンガルの大規模言語モデルbilingual-gpt-neox-4bもオープンソースで公開しました。このモデルは38億パラメータを持ち、英語と日本語の両方で文章生成や翻訳が可能です。
5.Japanese StableLM Alpha
画像生成AIツールのStable Diffusionで有名なStability AIは、今年8月10日に日本語に特化したLLMのJapanese StableLM Alpha 7Bを発表しました。このモデルは、70億パラメータを持ち、同社の性能評価で、既存の日本語LLMよりも高い性能を示したとされています。
Japanese StableLM Alphaは、Stability AIが今年4月19日に公開したオープンソースで最大70億パラメータのLLMのStableLMがベースとなっています。
Stability AIは、2種類の日本語LLMを公開しています。
Japanese StableLM Base Alpha 7Bは、テキストの生成や理解などの一般的なタスクのために使われる汎用言語モデルで、商用利用も可能です。
Japanese StableLM Instruct Alpha 7Bは、ユーザーからの具体的な指示や要求に基づき、特定のアクションや応答のために使われる指示応答モデルで、研究目的での利用のみが許可されています。指示応答モデルは、質問応答や文章要約などで優れた性能を発揮しています。
6.LINEの日本語大規模言語モデル
LINEは、今年8月14日に日本語に特化したLLMのjapanese-large-lmをオープンソースで公開しました。このモデルは、商用利用可能なApache License 2.0で提供されています。
LINEは、2020年11月から日本語に特化したLLMの「HyperCLOVA」の開発に取り組んでいました。今回のモデルは、それと並行して開発されたものです。
japanese-large-lmには36億パラメータモデルと17億パラメータモデルの2種類があります。これらのモデルは、LINE独自の大規模日本語Webコーパスを用いて学習されたもので、品質が向上しています。japanese-large-lmは、文章生成や質問応答・読解タスクなどに対応しており、他の日本語LLMと比較しても高い性能を示しています。
7.東京大学松尾研究室のWeblab-10B
東京大学松尾研究室は、今年8月18日に日本語と英語の2ヶ国語に対応した100億パラメータサイズのLLMのWeblab-10Bを事前学習と事後学習(ファインチューニング)により開発し、モデルを公開しました。このモデルは、WebコーパスやWikipediaなどのオープンなテキストデータを用いて学習されたもので、文章生成や対話・翻訳・要約などのタスクに対応しています。
Weblab-10Bは、東京大学松尾研究室が運営する「WebLab」というプロジェクトの一環として開発されました。WebLabは、Web上のテキストや画像・音声・動画などのマルチメディア情報を用いてAI技術を研究するプロジェクトです。Weblab-10Bはその中でも言語情報に特化したモデルとして位置づけられています。
以上、日本国内で注目の日本語LLMを5つ紹介しました。AIの進化は日々続いており、これからも更なる発展や新しい動向が期待されます。(完)
この記事は、Bing AI Chatに最近のニュースを調べさせ、note記事としてまとめてもらったものです。
筆者も一通りチェックはしていますが、誤りが含まれている場合がありますので、利用する際は注意してください。