言語AIの進化史⑦トークン化とTF-IDF

澁谷直樹

2024年8月12日 14:15

前回は、クロード・シャノンのn-gramを紹介しました。今回は、トークン化とTF-IDFについて解説します。

本題に入る前に、次の２つの文章を比べて下さい。

男は犬を撫なでた。
男は犬を噛かんだ。

この2つの文章は、最初の部分が同じですが、後半の単語の選択により意味が大きく異なります。これを確率的に理解してみましょう。

両方とも「男は犬を」という同じ文字列で始まりますが、１番目の文章と比べると、２番目の文章はかなり出現確率が低い（珍しい）でしょう。これは「男は犬を」に「噛か」が続く確率（可能性）が低いからです。

ただし、我々は何の文脈も持たずに判断しています。

仮に、「犬に襲われて倒れたが必死に抵抗して」という文脈があるならばどうでしょうか。

次の２つの文章を比べて下さい。

犬に襲われて倒れたが必死に抵抗して、男は犬を撫なでた。
犬に襲われて倒れたが必死に抵抗して、男は犬を噛かんだ。

「（襲われている）男」が「犬を撫なでた」としたら、ちょっと変な感じがします。

よって、この文脈を与えられた条件下では、２番目の文章の方の確率が高くなるでしょう。逆に、１番目の文章の方の確率は低くなるべきです。

つまり、前のテキストを条件となって、その後に続くテキストの出現確率が変化しています。

このようなテキスト間の依存関係は、シャノンのn-gramによる条件確率のアプローチを使えばモデル化できそうです。そして、あらゆる条件（複数の文字）の次に来る文字の確率分布を学習できれば、文章の生成や分類が可能になるでしょう。

実際に、n-gramのアプローチはその後の確率的言語モデルの発展に貢献しました。前回の記事で紹介したように、n-gram的なアプローチがスパム・フィルタリングやテキスト分類などに応用されました。

しかし、シャノンのn-gramは文字（アルファベット）単位での処理を行います。これは、彼の目的はテキストの文字列の情報量の計算して効率よく伝達するためにn-gramを使用していたからです。つまり、文章の意味の理解は関係ありません。

一方、言語モデルの目的は言語の理解や生成なので、ある程度の意味を持つ要素を使って文章の確率分布を解析する方が効率が良くなります。

例えば、「dog」をアルファベットに分解し、「d」と「o」と「g」が並んだシーケンスと捉えるのと、「dog」を一つの意味的な塊かたまりとして処理することの違いを考えて下さい。前者は一文字をシンボルとしていますが、後者は意味のある要素をシンボルとしています。意味を理解するためなら後者の方が効率的でしょう。

ただし、ここで文章を単位要素に分解するルールの必要性が生じます。

また、この単位要素はさまざまな文書や文章に渡って共通のものであるべきです。さもなければ、テキストの分類や比較などに一貫性を持たせることができません。

このため、まずは大量のテキストを集めてデータベース化します。このようなテキストのデータセットをコーパス（Corpus）と呼びます。そして、コーパス内のテキストを単位要素に分割します。この単位要素をトークンと呼び、テキストを処理してトークンへと分割する処理のことをトークン化（Tokenization）と呼びます。

トークン化によってコーパスからの大量のテキストはトークンのシーケンス（順番に並べたもの）へと変換されます。そうして得られたトークンの集まり対して統計的な処理を行うことで、文書や文章の特徴を数値化して表現するTF-IDF（Term Frequency-Inverse Document Frequency）という手法が1970年代ごろに発展しました。

ここから先は

11,695字

キカベン・読み放題

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング、量子コンピュータ関連の用語の解説、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

このメンバーシップの詳細

ログイン

この記事が気に入ったらサポートをしてみませんか？