
GPT系AIの仕組み(トークン化・確率分布による生成)
GPT系AIの仕組み(トークン化・確率分布による生成)
GPT系AI(例えばChatGPT)は、入力されたテキストをそのまま理解しているわけではなく、「トークン化」と「確率分布」に基づいて次の単語を予測しながら文章を生成しています。この仕組みをわかりやすく説明します。
この仕組みを理解すると、「なぜAIの出力がブレるのか?」や「どうすれば狙った出力を得られるのか?」が見えてきます。
1.トークン化とは?
AIは文章を単語ごとに理解しているわけではなく、「トークン」という単位に分解して処理します。
例えば、以下の文章を考えてみましょう。
「今日は天気がいいですね。」
この文章をトークン化すると、GPT系AIでは以下のようになります。
["今日は", "天気", "が", "いい", "です", "ね", "。"]
ここでのポイント;
トークンは必ずしも単語単位ではない
例えば「今日は」は1つのトークンですが、「天気」は別のトークンとして分かれています。
トークンの粒度はAIによって異なる
一般的な言語モデルでは「サブワード単位」でトークンを区切ります。
例えば英語では "running" を ["run", "ning"] のように分けることもあります。
👉 なぜトークン化するの?
コンピュータは文章を数値で処理するため、テキストを適切な単位に分割し、数値に変換する必要があるからです。
2.確率分布による生成
GPT系AIは、与えられたテキストに対して「次に来る単語(トークン)は何か?」を確率的に予測して文章を作ります。
例えば、「今日は天気が…」と入力すると、AIは次のように考えます。
候補トークン 確率
「いい」 80%
「悪い」 15%
「わからない」5%
この確率に基づいて、AIは「今日は天気がいい」と続ける可能性が最も高いと判断し、文章を生成します。
👉 ポイント
AIは「ルール」に従って文章を作っているわけではない
→ すべて統計的な予測に基づいている確率の高い単語が必ず選ばれるわけではない
→ ランダム性を持たせることも可能(温度パラメータで調整)
*温度パラメータ:AIが次の単語を選ぶ際の「ランダムさ」を調整するパラメータです。実際の「気温」とは関係なく、確率分布の変化をコントロールする数値 のことです。
3.確率的生成の影響
確率に基づいて文章を作るため、同じプロンプトでも異なる出力になることがあります。
例
プロンプト:「今日は天気がいいので」
パターンA:「散歩に行こうと思います。」
パターンB:「外でランチを楽しみたいですね。」
パターンC:「洗濯日和ですね。」
同じ入力でも、次に来る単語の選択によって異なる文章が生成されます。
👉 この性質を理解すると、プロンプトの書き方を工夫できる!
・曖昧なプロンプトを使うと、出力がブレる
・明確なプロンプトを書くと、出力が安定する
まとめ
トークン化
トークンとはAIがテキストを処理するための最小単位
AIは文章を「トークン」に分けて理解する(単語単位ではない)
確率分布による生成
次の単語を確率的に予測しながら文章を作る
確率的な出力の特徴
同じ入力でも異なる結果が出ることがある
次回は、「プロンプトの影響を受ける要素」について解説していきます!