言語AIの進化史⑧埋め込みベクトル

2024年8月21日 14:07

前回は、トークン化とTF-IDFについて解説しました。TF-IDFは、Bag-of-Words（BoW）と同様に文章全体の特徴をベクトルで表現する手法です。その統計的特徴量の計算の仕方に特色がありました。

これで文書や文章の分類や類似性の計算することがある程度はできるようになりました。しかし、まだ前回に問題提起した課題が残っています。

前回からの再引用ですが、次の２つの文章を比べて下さい。

この二つの文章は、BoWやTF-IDFでは同等です。なぜなら、トークンの前後関係などから生じる文脈を捉えられないからです。

この解決方法として、トークン間の関係を機械学習モデルで扱えるように数値化（ベクトル化）することが考えられます。

よって、今回はトークンの数値化、特に埋め込みベクトルについて解説します。

ここから先は

6,786字 / 4画像

¥1,000 / 月

初月無料

アルゴリズム、機械学習、深層学習、強化学習、量子技術をわかりやすく

この記事が気に入ったらチップで応援してみませんか？