見出し画像

mC4データを文章量でアノテーションしました

はじめに

LLM(Large Language Models)の事前学習において、広く使われているデータセット「mC4」には、残念ながら多くの「ゴミデータ」が含まれています。実際のデータを手軽にチェックしてみたい方は、私が別の記事で取り上げているので、そちらもぜひご覧ください!

実際にデータを確認してみたところ、前処理を頑張ってもゴミデータを取り除くのは困難だと感じました。そこで、mC4データをアノテーションしてみました。このアノテーションデータを利用してゴミデータを検出するモデルを開発し、より品質の高いデータのみを使ってLLMの学習を行うことが目標です。

アノテーション方法

mC4データには、単なる単語の羅列が多く見られました。LLMの事前学習では次の単語を予測する作業が重要で、単語だけの羅列は学習データとしては適切ではありません。この問題に対処するため、データに含まれる文の割合を基にアノテーションを行いました。具体的には、データを1から5のスケールで評価し、以下の基準でアノテーションを実施しました:

  1. 文の割合が20%以下

  2. 文の割合が20~40%

  3. 文の割合が40~60%

  4. 文の割合が60~80%

  5. 文の割合が80~100%

アノテーション結果

500件のデータをアノテーションしました。1から5のスケールで行ったアノテーションの割合は、下図に示す通りです。特に1と5のスコアが目立って多いことがわかります。データセットには検索結果一覧、求人広告、日記、エロティックな内容が多く含まれていました。検索結果一覧のような単語の羅列が多いデータは、主にスコア1に分類しました。一方で、日記やエロティックな内容のように文が豊富なデータは、主にスコア5に分類しました。求人広告は立地などの説明が多くあったため、さまざまなスコアに分類しました。

アノテーション結果

アノテーションした結果はhuggingface datasetsに登録していますので、詳細を確認したい方はぜひダウンロードしてください。

おわりに

今回は、mC4データセットを文の割合を基準にアノテーションしてみました。500件のデータを見て、単語や意味不明な文字列の羅列が想像以上に多く驚きました。さらに、エロティックな内容も多く含まれており、これらのデータで日本語の学習を行うことについて疑問を感じました。
このアノテーション作業を通じて、mC4のデータの中身について多くを学べてとても良かったです。今後、アノテーションしたデータが有用であると感じれば、アノテーションデータの量を増やそうと思います。
また、今回は文の割合を基準にアノテーションしましたが、日記データなどは文の品質のばらつきがあったので、文の割合が高いデータで品質のアノテーションもしてみたいですね。


この記事が気に入ったらサポートをしてみませんか?