ネットの文章とChatBotの文章は「どれくらい離れているか」を可視化する
(下書きをclaudeが書き直した記事です)
はじめに
みなさん、こんにちは。今日は大規模言語モデル(LLM)の学習プロセスについて、少し深掘りしてみたいと思います。
LLMの作成方法として、よく次の2段階のプロセスが紹介されています:
大量のインターネットデータや書籍などを使って事前学習を行う
その後、会話形式の指示データを使って微調整(ファインチューニング)を行う
この方法は、多くの研究者や開発者によって採用されているようです。しかし、ここで一つ疑問が浮かびます。事前学習に使用されるテキストと、最終的な会話データは、どれほど似ているのでしょうか?
(例)
今回の記事では、この疑問に答えるべく、両者のデータがどの程度異なっているかを視覚化してみました。
比較するテキスト
データセット
今回の分析では、以下の2つのデータセットを使用しました:
mc4-ja:インターネット上の日本語テキストを大量に集めたコーパス(事前学習用)
ichikara dataset:質の高い会話データ(事後学習用)
これらのデータセットは、Hugging Faceで公開されているものです。
それでは、各データセットの特徴を簡単に見てみましょう。
mc4の特徴:
広告やブログ記事が多く含まれています
時には成人向けコンテンツも含まれることがあります
文体や内容が多様で、整理されていない印象があります

ichikaraの特徴:
非常に整った会話データが記録されています
質問と回答のペアが明確です
丁寧な言葉遣いが多く、教育的な内容も含まれています

可視化
コード
これらのデータの違いを明確にするため、以下の手順で可視化を行いました:
各データセットから300件のサンプルを抽出
OpenAI APIを使用してテキストをベクトル化
UMAPを使用して2次元に圧縮
UMAP処理前のベクトルデータをヒートマップで可視化
umapの結果

ヒートマップ

結果の解釈
UMAPによる2次元プロット: この結果は非常に興味深いものでした。mc4(青)とichikara(オレンジ)のデータが明確に分離されたのです。これは、両者のデータ構造が大きく異なることを示唆しています。
コサイン類似度のヒートマップ: データ圧縮前のベクトルのコサイン類似度のヒートマップを見ると、mc4とichikaraのデータ間で類似度が低いことが確認できました。これは、2つのデータセットが異なる特徴を持っていることを示唆しています。
まとめ:LLMの学習に対する示唆
この分析結果から、以下のような仮説が導き出されます:
チャットボットは「インターネット上のテキスト」と「対話形式のテキスト」をかなり異なるデータとして認識している可能性がある(後者が「外挿領域」になってしまう可能性がある)。
高品質なチャットボットを作成するためには、大量の「対話形式のテキスト」での学習が必要かもしれない。
これは、人間の学習過程にも通じるものがあります。たとえば、家に引きこもってネットサーフィンをしただけの人と、実際に多くの会話を経験した人では、会話能力に大きな差が出るでしょう。同様に、LLMも単にウェブデータを学習するだけでなく、実際の会話データで訓練することで、より自然な対話が可能になるのではないでしょうか。
このことから、OpenAIのGPTモデルを含む多くの高性能モデルは、大量の会話訓練(指示追従性を向上させるための訓練)を行っているのかもしれません。
最後に
今回の分析は簡易的なものですが、LLMの学習プロセスに対する示唆を得ることができました。今後、より詳細な研究が行われることで、さらに効果的なLLMの訓練方法が見つかるかもしれません。