大規模言語モデル(LLM)とは?因数分解して解像度を上げてみよう
CubecではLLMを段階的に理解できるように「医療に特化した大規模言語モデルを紹介する」全7回をシリーズでお届けしています。
第2回は「大規模言語モデル(LLM)はChatGPTとどう違うの?」という素朴な質問から博士に聞いてみます。
質問1:LLMとChatGPTの違いは何か?
博士、最近ChatGPTのことをよく耳にしますよね。
大規模言語モデル(LLM)というのもよく聞きますが、ChatGPTとLLMって同じではないのですか?
いい質問ですね。
それでは、ChatGPTとLLMの関係、LLMとは何かについて説明しましょう!
近年、OpenAI社のChatGPTが登場したことにより、人工知能(AI)への注目が高まっています。多くの人々の仕事や生活に変化をもたらしていますが、ChatGPTの基盤となる技術、大規模言語モデル(LLM: Large Language Models)についてはあまり知られていません。
実はChatGPTとLLMは同じものではありません。ChatGPTはLLMを使用して作られたサービスの1つなのです。
LLMはより広範な応用可能性を持つ基礎技術であり、ChatGPTはLLMを利用したサービスに過ぎません。ChatGPTで質問を入力すると、公開されていない多くの処理が重ねられて回答が出力されます。この「多くの処理」の中にLLMのモデルや技術が組み込まれているのです。
LLMをChatGPTと区別することで、LLMの可能性をより広く理解できます。ChatGPTはすばらしいサービスですが、LLMにはより多くの使い道があるのです。Cubecでは医療に特化したLLMを開発していますが、LLMについて正しく伝えるのは大切だと感じています。
LLMの可能性を理解することは、LLMを利用する側と開発する側、両方にメリットがあります。LLMを利用する側にとっては、新しいビジネスアイデアの創出につながる可能性があります。一方、LLMを開発する側にとっては、日本語処理の向上や特定分野に特化したAIの開発が可能になるのです。
生成AI時代だからこそLLMを開発、実装できる人を増やすことも大切です。データサイエンス協会においても、生成AIを利用できるだけでなく、企画・実装できる人材の重要性が指摘されています。
ここまでのポイントをまとめます。
質問2:大きくない言語モデルとは?LLMの原点をのぞいてみよう
ところで博士、LLMって「大規模言語モデル」っていいますよね。
「大規模」っていうことは「小規模」なものもあるのですか?
それが、あるのですよ。
では、LLMの基礎であり原点のお話をしましょう!
LLMの「大規模」という言葉から想像される通り、逆の小規模な言語モデルも存在します。それはLLMの基礎となる「普通の」言語モデルです。
「次に来る言葉を予測する」ことこそが、LLMの原点なのです。
普通の言語モデルでは、例えば「今日の天気は__です」という文があった場合、空欄に入る可能性が高い単語を予測します。この予測プロセスは、数学的には次のような式で表現されます。
この式は、文章の確率を表した数式です。例えば「私は猫が好きです」という文の場合は、次の通りに表現できます。
各単語が出てくる確率を掛け合わせています。これを条件分布の積と呼びます。この式を使い文章の中で次に来そうな単語を予測するのが、自己回帰言語モデルです。
この過程は、人間が早押しクイズを解く際の思考プロセスに似ています。読まれ始めた問題文から、何を聞かれているか予想して回答するでしょう。LLMはこの自己回帰言語モデルを大規模化し、さまざまな技術を加えたものなのです。
ポイントをまとめます。
質問3:LLMはどんな構成になっているのか?
博士、だんだんLLMのことがわかってきた気がします。
ところで、LLMはどんな構成になっているのですか?
LLMは主に5つの要素から構成されています。
これらについて解説しましょう!
基盤モデル
Scaling Pre-training
FT(Post learning)
RLHF
その他
基盤モデルは、先ほど説明した言語モデルの発展形です。これを支える技術として、Scaling Pre-training、FT(Post learning)、RLHFがあります。その他の要素には、プロンプトなどモデル自体を拡張するものが含まれます。
次のようにLLMを因数分解すると、各要素が掛け合わせっているのが分かるでしょう。
多くの企業は、主に「その他(α)」に取り組んでいます。特に検索拡張生成(RAG:Retrieval-Augmented Generation)という技術に注目しています。RAGは既存のLLMに外部知識を組み合わせる技術です。例えば、最新の医学論文などの情報をLLMと組み合わせることで、医療分野に特化したAIアシスタントが作れるのです。
一方、基盤モデルの開発に取り組む企業はあまりありません。これは、基盤モデルの開発が技術的に難しく、多大なリソースを必要とするためです。しかし、基盤モデルの開発はAIの基本的な能力を決定づける重要な要素であり、自社で基盤モデルを持つことで特定分野に特化したAIの開発が可能になります。
2024年前半時点での私の解釈では、RAGのみに取り組んでいる企業が約半数を占め、残りの企業がPre-training、FT、RLHFに取り組んでいます。日本国内で基盤モデル自体を開発している企業は数えるほどです。
基盤モデルはAIの基本的な能力を決める要素であるため、その開発はとても重要です。自社で基盤モデルを持てば、特定分野に特化したAIも作れるのです。
ポイントをまとめます。
LLMの世界を探索しよう!今後のスケジュール
LLMを理解するには、段階的に学んでいくことをおすすめします。
Cubecでは次回以降で、これら各技術を詳しく解説していく予定です。
スケジュールは次の通りで、次回は「第3回:広義のモデル開発がLLMの民衆化を加速した(RAG、Prompting、Agent)」をお届けします。
医療LLM開発に必要な点も話すので、楽しみにしていてくださいね。
さらに専門的な情報を知りたい人には、論文紹介もしています。
Cubecは一緒にチャレンジしてくれる仲間を募集しています。
興味があればぜひ、カジュアル面談も申し込んでください。
Cubecでは多様なバックグラウンドのメンバーが活躍しています。実際にどんな仕事をしているのか、メンバー紹介もご覧ください。
謝辞
今回の記事では東大の松尾研のサマースクールにスタートアップ枠で参加させていただいた内容を中心にまとめています。松尾研の皆様にはこの場を借りてお礼申し上ます。
この記事が気に入ったらサポートをしてみませんか?