見出し画像

自然言語処理におけるデータクレンジングの重要性について

はじめに

こんにちは。D2C データサイエンティストの仲山です。

本記事では、自然言語処理におけるデータクレンジングの重要性について考えてみたいと思います。

データクレンジングとは、その名の通りデータを綺麗にすることです。
例として以下のような処理が該当します。

  • 不要な文字や記号、絵文字を排除する

  • 半角文字と全角文字が混在している場合はどちらかに統一する

分析に使用するデータは、自然言語処理に限らず綺麗な方が良いので、データクレンジングは行った方が良いということは理解ができます。
ただ、実際にデータクレンジングをするとしないで、分析結果にどの程度の影響があるのか気になったので、今回は「文同士の類似度を計算する」処理を通して、データクレンジングの影響について考えたいと思います。

…この続きは、エンジニアのための情報共有コミュニティ「Zenn」に投稿しています。是非ご覧ください!