一括置換用データの作り方


 さて、一括置換用のデータの作り方です。WZEditor用も、秀丸エディタ用も、同じ書式です。
 以下の書式で、拡張子relのファイルを作ります。

ファイル書式


 ファイルは、以下の書式で書きます。

<行頭>置換文字列<TAB>検索文字列<TAB>コメント

検索・置換は,すべて正規表現使用です。
コメントに「ari」と入力すると,確認しながら置換します
「EOF」だけの行があると,そこで置換を終了します
行頭に「#」または「?」があると,その行はコメント行になります。

 秀丸エディタ用は、WZEditor用と比べて以下の違いがあります。
「ari」確認ありのとき,2つ以上置換したい場合は「置換+次の行」を選んでください。
最後に置換した数を表示しません。

置換書式例


正規表現はそれなりに難しいなので、以下にほんの一例を載せます。
行数の制限は特に設けていません。今のところ4000行程度は問題なく置換できています。

実際の置換は、relファイルの先頭から順番に実行していきます。
そのため、置換する順番も大切になります。
100当番->110番
の後に
110番->一一〇番
とした場合は「110番」の表記はなくなりますが、
逆の順番にすると、「110番」の表記が残ってしまいます。

(test.rel)


#------------------------------------------------------------------------------------#-----------------------------------------------------
#※置換文字列の★や《》[]は、後で見直すためのマークです。
#※置換文字列の括弧類と「|」は全角で書きます。
#※noteだとバックスラッシュになっている記号は半角の¥マークです。

#正規表現なし、確認なし


110番<TAB>100当番
百円玉<TAB>100円玉
吉野家<TAB>吉野屋

#正規表現なし、確認あり

あること<TAB>ある子と<TAB>ari

#補助動詞をひらがなにする

お話しくださ<TAB>お話し下さ
ていただ\1<TAB>て頂([かきくけこい])

#文字が抜けてるところに入れる。


\1\2《を》\2<TAB>(が.{0,10})(あなた|私|彼|彼女|さん)(迎え)<TAB>助詞抜け
お返《し》しま<TAB>お返しま<TAB>「し」抜け
お話《し》させて<TAB>お話させて<TAB>お話しさせて


#「来る」->「くる」の置換。

#カ変動詞は、漢字からひらがなにするのに3行必要。でもこれだと「来なさい」はうまくいかないので、不完全。

\1く★\2<TAB>(って)来([るれ])<TAB>ex.多くなってくる
\1こ★\2<TAB>(って)来([ない])<TAB>ex.多くなってくる
\1き★\2<TAB>(って)来([たてま])<TAB>ex.多くなってくる

#「(何かの書類)が来る」を「くる」にしたい。


\1く★<TAB>([亜-黑]書.?)来([るれ])<TAB>ex.請求書がくる
\1こ★<TAB>([亜-黑]書.?)来([ない])<TAB>ex.請求書がくる
\1き★<TAB>([亜-黑]書.?)来([たてま])<TAB>ex.請求書がくる

#過剰敬語だと思ったもの




いらっしゃっ\1<TAB>いらっしゃられ([たて])<TAB>★過剰敬語・いらっしゃられた->いらっしゃった
いらっしゃ\1<TAB>いらっしゃられ([^たて])<TAB>★過剰敬語・いらっしゃられる->いらっしゃる


#検索文字列を複数指定する。

#一括置換後に再チェックするために、全ての候補を残す方法。
ヤマダ電機<TAB>ヤマダ電気|ヤマダ電器
[借用証|借用書|借用証書]<TAB>借用証|借用書|借用証書<TAB>正しいもの以外を後で削除する

#検索文字列を複数指定する。

#置換文字列は1つで、表記を統一する。
お見舞金<TAB>(お見舞い金|御見舞金)
くだを巻\2<TAB>(くだ|管)を[ま巻]([かきくけこい])<TAB>★お酒を飲んで騒ぐ意味

#検索文字列を複数指定する。

#温度でないときは慣用句と判断して置換する。
\1度を越<TAB>([^0123456789])度を超<TAB>◎度を越す(慣用句)

#「預け入れる」は、動詞、名詞、複合語で送り仮名が変わる。

預入れ\1<TAB>預け入れ([^るたてなよれろま])<TAB>預け入れ(名詞)->預入れ
預け入れ\1<TAB>預入れ([るたてなよれろま])<TAB>預入れる(動詞)->預け入れる
預入金<TAB>預け?入れ?金

#「分かる」と書きたいのに「分る」となる。

\1分か\2<TAB>([^自])分([らりるれろっ])

#「とき」と読むときはひらがな表記。

#「の」+「時」+ひらがな・句読点なら、「とき」と判断する。
のとき\1<TAB>の時([あ-ん。、])

#「memory」は「メモリー」と表記。

#続く文字が長音・片仮名以外のときは「メモリー」と判断する。
メモリー\1<TAB>メモリ([^ーァ-ン])

この記事が気に入ったらサポートをしてみませんか?