GPT系AIの仕組み(トークン化・確率分布による生成)

2025年2月10日 09:40

GPT系AIの仕組み（トークン化・確率分布による生成）

GPT系AI（例えばChatGPT）は、入力されたテキストをそのまま理解しているわけではなく、「トークン化」と「確率分布」に基づいて次の単語を予測しながら文章を生成しています。この仕組みをわかりやすく説明します。

この仕組みを理解すると、「なぜAIの出力がブレるのか？」や「どうすれば狙った出力を得られるのか？」が見えてきます。

1.トークン化とは？

AIは文章を単語ごとに理解しているわけではなく、「トークン」という単位に分解して処理します。
例えば、以下の文章を考えてみましょう。
「今日は天気がいいですね。」
この文章をトークン化すると、GPT系AIでは以下のようになります。
["今日は", "天気", "が", "いい", "です", "ね", "。"]

ここでのポイント；

トークンは必ずしも単語単位ではない
- 例えば「今日は」は1つのトークンですが、「天気」は別のトークンとして分かれています。
トークンの粒度はAIによって異なる
- 一般的な言語モデルでは「サブワード単位」でトークンを区切ります。
- 例えば英語では "running" を ["run", "ning"] のように分けることもあります。

👉 なぜトークン化するの？
コンピュータは文章を数値で処理するため、テキストを適切な単位に分割し、数値に変換する必要があるからです。

2.確率分布による生成

GPT系AIは、与えられたテキストに対して「次に来る単語（トークン）は何か？」を確率的に予測して文章を作ります。
例えば、「今日は天気が…」と入力すると、AIは次のように考えます。

候補トークン　確率
「いい」　　　80%
「悪い」　　　15%
「わからない」5%

この確率に基づいて、AIは「今日は天気がいい」と続ける可能性が最も高いと判断し、文章を生成します。

👉 ポイント

AIは「ルール」に従って文章を作っているわけではない
→ すべて統計的な予測に基づいている
確率の高い単語が必ず選ばれるわけではない
→ ランダム性を持たせることも可能（温度パラメータで調整）

＊温度パラメータ：AIが次の単語を選ぶ際の「ランダムさ」を調整するパラメータです。実際の「気温」とは関係なく、確率分布の変化をコントロールする数値 のことです。

3.確率的生成の影響

確率に基づいて文章を作るため、同じプロンプトでも異なる出力になることがあります。

例
プロンプト：「今日は天気がいいので」
　パターンA：「散歩に行こうと思います。」
　パターンB：「外でランチを楽しみたいですね。」
　パターンC：「洗濯日和ですね。」

同じ入力でも、次に来る単語の選択によって異なる文章が生成されます。

👉 この性質を理解すると、プロンプトの書き方を工夫できる！
・曖昧なプロンプトを使うと、出力がブレる
・明確なプロンプトを書くと、出力が安定する

まとめ

トークン化
- トークンとはAIがテキストを処理するための最小単位
- AIは文章を「トークン」に分けて理解する（単語単位ではない）
確率分布による生成
- 次の単語を確率的に予測しながら文章を作る
確率的な出力の特徴
- 同じ入力でも異なる結果が出ることがある

次回は、「プロンプトの影響を受ける要素」について解説していきます！