自然言語処理におけるデータクレンジングの重要性について
はじめに
こんにちは。D2C データサイエンティストの仲山です。
本記事では、自然言語処理におけるデータクレンジングの重要性について考えてみたいと思います。
データクレンジングとは、その名の通りデータを綺麗にすることです。
例として以下のような処理が該当します。
不要な文字や記号、絵文字を排除する
半角文字と全角文字が混在している場合はどちらかに統一する
分析に使用するデータは、自然言語処理に限らず綺麗な方が良いので、データクレンジングは行った方が良いということは理解ができます。
ただ、実際にデータクレンジングをするとしないで、分析結果にどの程度の影響があるのか気になったので、今回は「文同士の類似度を計算する」処理を通して、データクレンジングの影響について考えたいと思います。
…この続きは、エンジニアのための情報共有コミュニティ「Zenn」に投稿しています。是非ご覧ください!