ネットの文章とChatBotの文章は「どれくらい離れているか」を可視化する

Kan Hatakeyama

2024年7月29日 09:20

(下書きをclaudeが書き直した記事です)

はじめに

みなさん、こんにちは。今日は大規模言語モデル（LLM）の学習プロセスについて、少し深掘りしてみたいと思います。

LLMの作成方法として、よく次の2段階のプロセスが紹介されています：

大量のインターネットデータや書籍などを使って事前学習を行う
その後、会話形式の指示データを使って微調整（ファインチューニング）を行う

この方法は、多くの研究者や開発者によって採用されているようです。しかし、ここで一つ疑問が浮かびます。事前学習に使用されるテキストと、最終的な会話データは、どれほど似ているのでしょうか？

(例)

今回の記事では、この疑問に答えるべく、両者のデータがどの程度異なっているかを視覚化してみました。

比較するテキスト

データセット

今回の分析では、以下の2つのデータセットを使用しました：

mc4-ja：インターネット上の日本語テキストを大量に集めたコーパス（事前学習用）
ichikara dataset：質の高い会話データ（事後学習用）

これらのデータセットは、Hugging Faceで公開されているものです。

それでは、各データセットの特徴を簡単に見てみましょう。

mc4の特徴：

広告やブログ記事が多く含まれています
時には成人向けコンテンツも含まれることがあります
文体や内容が多様で、整理されていない印象があります

ichikaraの特徴：

非常に整った会話データが記録されています
質問と回答のペアが明確です
丁寧な言葉遣いが多く、教育的な内容も含まれています

可視化

コード

これらのデータの違いを明確にするため、以下の手順で可視化を行いました：

各データセットから300件のサンプルを抽出
OpenAI APIを使用してテキストをベクトル化
UMAPを使用して2次元に圧縮
UMAP処理前のベクトルデータをヒートマップで可視化

umapの結果

ヒートマップ

結果の解釈

UMAPによる2次元プロット：この結果は非常に興味深いものでした。mc4（青）とichikara（オレンジ）のデータが明確に分離されたのです。これは、両者のデータ構造が大きく異なることを示唆しています。
コサイン類似度のヒートマップ：データ圧縮前のベクトルのコサイン類似度のヒートマップを見ると、mc4とichikaraのデータ間で類似度が低いことが確認できました。これは、2つのデータセットが異なる特徴を持っていることを示唆しています。

まとめ：LLMの学習に対する示唆

この分析結果から、以下のような仮説が導き出されます：

チャットボットは「インターネット上のテキスト」と「対話形式のテキスト」をかなり異なるデータとして認識している可能性がある(後者が「外挿領域」になってしまう可能性がある)。
高品質なチャットボットを作成するためには、大量の「対話形式のテキスト」での学習が必要かもしれない。

これは、人間の学習過程にも通じるものがあります。たとえば、家に引きこもってネットサーフィンをしただけの人と、実際に多くの会話を経験した人では、会話能力に大きな差が出るでしょう。同様に、LLMも単にウェブデータを学習するだけでなく、実際の会話データで訓練することで、より自然な対話が可能になるのではないでしょうか。

このことから、OpenAIのGPTモデルを含む多くの高性能モデルは、大量の会話訓練（指示追従性を向上させるための訓練）を行っているのかもしれません｡

最後に

今回の分析は簡易的なものですが、LLMの学習プロセスに対する示唆を得ることができました。今後、より詳細な研究が行われることで、さらに効果的なLLMの訓練方法が見つかるかもしれません。