ルールベースでWebページから日本語のテキストを清掃する

2024年2月18日 16:58

はじめに

mc4などのコーパスを清掃するコードを調べたり書いたりしています。
本記事では、こちらのGitのコードを模倣しながら、若干の追記修正を入れてクリーニングしてみました。

2/21追記
関連コードをgithubにuploadしました｡

要するにどうなったのか?

以下のコード(MITライセンス)を実行することで、テキストが清掃されます。

def do_filter(text):
    text = text_normalizer.normalize(text) #正規化
    text = clean_text.do_clean(text, 100)  # 文末が...などを削除 (webページでよくある)
    text = clean_text2.do_filter(text)  # 繰り返しの多い文などを削除
    text = linewise_filtering.do_filter(text)  # ルールベースで行を削除
    text = freq_filter.do_filter(text)  # 単語だらけの行を削除

    return text

多段階のフィルタをかけた様子は以下の通り。
キレイな文章はそのまま残ります。

単語の羅列だらけの行などが、消えます。

フィルタ解説

1段階目

文字列を正則化します。以下のコードをそのまま使いました。
https://github.com/lighttransport/japanese-llama-experiment/blob/main/02_normalize/text_normalizer.py

2段階目

ルールベースでおかしな行を消していきます。
(ひらがなが全く含まれていない文、カンマで終わっている文など)
このタイミングで、bunkaiというライブラリが動きます。これによって、変な箇所での改行などが修正されます。

https://github.com/lighttransport/japanese-llama-experiment/blob/main/03_clean_step1/clean_text.py

3段階目

長すぎる文章などを消します。
元のscriptでは、is_repetition_removalという関数で、重複の多い文を消すアルゴリズムも実装されていたんですが、体感的には普通の文章も、相当数、消されたしまったので、コメントアウトしました。
(また、この処理は、かなり時間がかかるようです。これがあると、5it/sec、これがないと、500it/sec程度でした)

https://github.com/lighttransport/japanese-llama-experiment/blob/main/03_clean_step2/clean_mc4_task.py

4段階目

ルールベースで文章をキレイにします。'...(続きを表示)', '[ 続きを見る ]'などを消します
https://github.com/lighttransport/japanese-llama-experiment/blob/main/03_clean_step3_linewise/linewise_filtering.py

5段階目

本記事の追加実装です。
「脂肪吸引モニター体験脂肪吸引の基礎知識[385] [386] [387] [388] [389] [390] [391]」のような、日本語として成立していない行を消していきます。
形態素解析を行い、名詞や記号だらけの行を削除するアルゴリズムです。


import MeCab
from collections import Counter

# テキスト
tagger = MeCab.Tagger()


def do_filter(text):
    if text is None:
        return None

    lines = text.split("\n")
    out_lines = []
    for line in lines:
        out_line = frequency_filter(line)
        if out_line is not None:
            out_lines.append(out_line)
    if len(out_lines) == 0:
        return None
    return "\n".join(out_lines)


def frequency_filter(text, threshold=0.8):

    # テキストを解析
    parsed = tagger.parse(text)

    # 品詞をカウントするためのCounterオブジェクト
    pos_counter = Counter()

    # 解析結果を行ごとに処理
    all_counts = 0
    for line in parsed.split('\n'):
        # EOSまたは空行の場合はスキップ
        if line == 'EOS' or line == '':
            continue
        # タブで分割し、形態素情報を取得
        pos_info = line.split('\t')
        pos = pos_info[4]
        pos = pos.split("-")[0]
        # 品詞をカウント
        pos_counter[pos] += 1
        all_counts += 1

    meishi_and_symbol_counts = pos_counter['名詞'] + \
        pos_counter['記号']+pos_counter['補助記号']

    ratio = meishi_and_symbol_counts/all_counts
    # print(ratio, pos_counter)
    if ratio > threshold:
        return None
    else:
        return text

6段階目(未実装)

元のscriptでは、perplexityによって日本語らしさを判定する処理が入っていましたが、環境設定に時間がかかりそうだったので、一旦、割愛しました。
https://github.com/lighttransport/japanese-llama-experiment/tree/main/04_lm_scoring

フィルタリング結果・まとめ

こちらの記事で自動抽出したテキストを、更にクリーニングしました。

体感では、かなりキレイになった気がします。