見出し画像

GPT系AIの仕組み(トークン化・確率分布による生成)

GPT系AIの仕組み(トークン化・確率分布による生成)

GPT系AI(例えばChatGPT)は、入力されたテキストをそのまま理解しているわけではなく、「トークン化」と「確率分布」に基づいて次の単語を予測しながら文章を生成しています。この仕組みをわかりやすく説明します。

この仕組みを理解すると、「なぜAIの出力がブレるのか?」や「どうすれば狙った出力を得られるのか?」が見えてきます。


1.トークン化とは?

AIは文章を単語ごとに理解しているわけではなく、「トークン」という単位に分解して処理します。
例えば、以下の文章を考えてみましょう。
「今日は天気がいいですね。」
この文章をトークン化すると、GPT系AIでは以下のようになります。
["今日は", "天気", "が", "いい", "です", "ね", "。"]

ここでのポイント;

  • トークンは必ずしも単語単位ではない

    • 例えば「今日は」は1つのトークンですが、「天気」は別のトークンとして分かれています。

  • トークンの粒度はAIによって異なる

    • 一般的な言語モデルでは「サブワード単位」でトークンを区切ります。

    • 例えば英語では "running" を ["run", "ning"] のように分けることもあります。

👉 なぜトークン化するの?
コンピュータは文章を数値で処理するため、テキストを適切な単位に分割し、数値に変換する必要があるからです。


2.確率分布による生成

GPT系AIは、与えられたテキストに対して「次に来る単語(トークン)は何か?」を確率的に予測して文章を作ります。
例えば、「今日は天気が…」と入力すると、AIは次のように考えます。

候補トークン 確率
「いい」   80%
「悪い」   15%
「わからない」5%

この確率に基づいて、AIは「今日は天気がいい」と続ける可能性が最も高いと判断し、文章を生成します。

👉 ポイント

  • AIは「ルール」に従って文章を作っているわけではない
    → すべて統計的な予測に基づいている

  • 確率の高い単語が必ず選ばれるわけではない
    → ランダム性を持たせることも可能(温度パラメータで調整)

*温度パラメータ:AIが次の単語を選ぶ際の「ランダムさ」を調整するパラメータです。実際の「気温」とは関係なく、確率分布の変化をコントロールする数値 のことです。

3.確率的生成の影響

確率に基づいて文章を作るため、同じプロンプトでも異なる出力になることがあります。


プロンプト:「今日は天気がいいので」
 パターンA:「散歩に行こうと思います。」
 パターンB:「外でランチを楽しみたいですね。」
 パターンC:「洗濯日和ですね。」

同じ入力でも、次に来る単語の選択によって異なる文章が生成されます。

👉 この性質を理解すると、プロンプトの書き方を工夫できる!
曖昧なプロンプトを使うと、出力がブレる
・明確なプロンプトを書くと、出力が安定する

まとめ

  1. トークン化

    • トークンとはAIがテキストを処理するための最小単位

    • AIは文章を「トークン」に分けて理解する(単語単位ではない)

  2. 確率分布による生成

    • 次の単語を確率的に予測しながら文章を作る

  3. 確率的な出力の特徴

    • 同じ入力でも異なる結果が出ることがある


次回は、「プロンプトの影響を受ける要素」について解説していきます!

いいなと思ったら応援しよう!