生成AIはなぜ文章を作れるのか？【LLM原理】を徹底解説します

2025年1月14日 18:01

生成AIは所詮 "確率的な推測と選択" を行なっているに過ぎない。

みなさんこんにちは、TierMind編集部です。
今回は、ChatGPTやGeminiなどの生成AIの脳みそ、"大規模言語モデル（LLM）" の原理について解説していきます。

「"理を知れば術を得る"」のでぜひご覧ください

LLMを一言で表すと、

"「過去の膨大な文章データから単語同士の関係性を学習し、指示や文脈に応じた文章を生成する仕組み」"

正直、少しわかりにくいですよね。。
なので今回はLLM の原理を 4 つのステップ（事前学習・ベクトル化・トークン化・生成）に分けて深掘りしつつ、「だからこう使えばいい」というポイントもセットでお伝えしていきます。

1. 事前学習

何をしているのか
LLM は膨大な文章を読み込み、言葉同士の関係などの一般知識を学びます。ここで言う膨大な文章とは、

主にインターネット上にあるブログ記事やニュースサイト、書籍の電子データ など。

いわば「過去にウェブやデータベース上で公開された文章」をひたすら吸収しているのです。こうして

“猫は動物である” “リンゴは食べ物である”

など、日常的な知識を含めた 言語の「本質」 を膨大に吸収しているからこそ、人間と会話できるレベルの応答が可能になるのです。

日常会話レベルなら「ニャー＝猫の鳴き声」と簡単に連想でき、「果物といえばリンゴやミカン」といった当たり前の連想もスムーズで大雑把な質問にも対応できます。
しかしAIには事前学習の制約があります。

事前学習の制約

・ナレッジカットオフ
（一般知識は学んでいるのですが、最新情報には限界があります。）

ChatGPTナレッジカットオフ日: 2023年10月

これは、ChatGPTが2023年10月までの情報に基づいて回答が生成されることを意味します。それ以降の情報については、インターネット検索などのツールを使用しない限り対応できません。

・「あなたの最新の出来事」は知らない

この学習が行われた時点以降に起きたこと（たとえば 昨日あなたが会議で話した内容 や 極めて個人的な情報）はLLM の学習データに含まれていません。

つまり、LLM は「ウェブに存在する文章」をベースに学んでいるので昨日の商談の詳細 や あなた個人の秘密 を勝手に知ることは不可能です。

だからこう使う！（事前学習編）

最新トピックや自分だけが知る情報は、必ずプロンプトで伝える

「2025 年 3 月時点での市場シェア報告書です。A 社が 35% のシェアを獲得したと記載されています。これを踏まえて自社の売上目標を考えたい。」

→ LLM が “A 社が 35% シェアを持っている” という最新情報を認識できるため、提案や分析に反映されやすくなります。

昨日の商談内容などの "社内事情" を具体的に書く

「昨日 A 取引先とオンライン会議を行い、納期短縮・コスト削減 を強く要望されました。これを踏まえて提案書の草案を作りたい。」

こうすることで、LLM が “A 取引先のニーズ” を理解し汎用的な提案 だけでなく 相手に合わせた 提案文案を生成しやすくなります。

2. トークン化

何をしているのか
LLMは、入力された文章（プロンプト）を、小さな単位（トークン） に切り分けて処理しています。

英語の場合はスペースで分割、「cat」「meows」のように分ける
日本語は「猫」「は」「ニャー」「と」「鳴く」といった形態素解析やサブワード分割が必要

トークン数の制限や注意点

トークン数が多いほど、モデルの処理負荷が高まります。

社内 Wiki やデータベースなど、情報量が膨大な場合は、いきなり全部を投げない。
曖昧表記だと誤分割されてしまう

だからこう使う！（トークン化編)

“段階的” に文書を与え、必要に応じて追加投入

1「まず昨年度の売上データ（簡略版）を見て分析」

2「次に競合他社との比較データを追加」

3「最後に今年度の施策案をくれ」

→ステップごとに更新された内容を反映し、モデルの回答を進化させやすくなります。

数字や固有名詞を正確に書く

良くない例：「売上データについて」
良い例：「2025年Q1売上データ、前年比10％増の内容について分析して」

→ トークン分割を適切に行わせるために、具体的かつ明確な表現を心がけましょう。

3. ベクトル化

何をしているのか
単語やフレーズを ベクトル空間 にマッピングすることで、LLM は「似た概念同士」を近くに配置し、発想しやすくしています。

「売上」↔「利益」は近く、「売上」↔「犬の散歩」は遠くに置かれる。

ベクトル化することで、"売上" を見ると "利益" や "経費" が連想されるなど意味の近い単語を素早く見つけられます。

また、"cost"、"expenses"、"経費"という言葉が「近しい概念」として扱われ曖昧な同義語を推定しやすくなります。

注意点

「曖昧な単語」（売上という言葉を使ったとき、年度売上？累計売上なのか？）だと誤解が発生しやすい
日本語・英語が混在する文脈だと、誤解が生まれるケースもある

だからこう使う！（ベクトル化編）

曖昧な表現を避ける

良くない例：「数字のまとめを作って」
良い例：「今年の売上と利益、それぞれ前年比の増減率を簡潔にまとめて」

→ LLM が「数字のまとめ」をどう解釈すべきか混乱しないように具体的に指示。

関連情報をセットで入力

「売上・利益・経費の年間推移を踏まえた上で、2025 年の目標を提案して」

→ LLM のベクトル空間上で “売上” “利益” “経費” が繋がりやすくなり、一貫性のある分析を提示しやすくなるので回答の軸がブレにくくなります。

4. 生成（予測）

何をしているのか
過去のトークンや文脈を参照し、次に来るべきトークンを確率的に予測して文章を構築します。

例： "売上報告書" の文脈から "前年比" や "グラフ" といった関連語を選択。

確率的に予測することで、レポート作成やメール文面の下書き、多様な表現の候補を提供するなどの文脈に基づく自然な文章作成や同じテーマでも異なるトーンや構成で生成可能になりました。

注意点

指示が曖昧だと期待する回答が得られにくい
例： "売上報告を作って" では抽象的すぎる。
複雑な指示には追加プロンプトが必要

だからこう使う！（生成編）

具体的な指示を出す

「箇条書きで 5 点にまとめて」「A4 1 枚程度で」「プレゼン用スライド風に」

こう指示することで、
細かい指示に応じて体裁を整えてくれて加筆・修正の手間がグッと減ります。

追加の指示で調整する
例： "グラフの説明を詳しく補足して" と再生成を依頼する。

まとめ：LLM はどういう仕組みなのか、そしてどう使うか

総括すると、LLM は以下のプロセスを通じて文章を生成する“脳みそ”です。

事前学習で膨大な言語知識を蓄え（しかし最新情報は知らない）
ベクトル空間に単語やフレーズをプロットして意味や文脈を把握
トークン化によって入力された文章を細かく分割
それらを踏まえ、確率的予測で文章を紡いでいく

だから私たちは、

1. 最新情報は自分で補足
2. 段階的に文書を投入し、トークン数を管理
3. 曖昧な表現を避け、具体的かつ関連情報をまとめる
4. 欲しい結果を明確に示し、追加指示を繰り返す
5. トーンや形式を初めに指定する
6. ファクトチェック＆独自の情報で仕上げる

この 6 つを意識することで、LLM をより思いどおりに扱うことができます。ChatGPT や Gemini といったアプリを使うときも単なる雑談ツールではなく「強力な文章生成エンジン」として活用できるわけです。

ビジネス文書の作成や顧客対応、リサーチ業務の効率化などLLM を応用できるシーンは年々広がっています。これらの原理と使い方のポイントは、あらゆる業務や学習の場面で土台になる知識です。ぜひ一度、今回のポイントを実践してみてください。きっとより効率的でクリエイティブなやり取りを体感できるはずです。

いいなと思ったら応援しよう！

この記事が参加している募集

#AIとやってみた

48,585件