
EmEditor初心者 #3 重複を削除して列を抽出
データを扱う際に、重複したデータを削除したい時が多々ある。
医療系データでも、例えばDPCデータの処理の際にそういったことが必要になってくる。
エクセルなら関数やマクロですぐにできそうだが、DPCデータは(ファイルの種類によるが)一か月分でも数万行~数十万行と大きいため厳しい。そのため、EmEditorの操作を確認してみる。
0. ダミーデータ
3,000行あるダミーデータを準備。

1. 列内の重複を削除
IDの重複を削除したい場合、データを読み込んだ後に、
[並び替え]
→[重複行の削除 / ブックマーク(高度)]
→[指定する列のみを調べる]
で削除したい列を選択し、削除ボタンで実行。

2. 列を抽出
[CSV]
→[高度]
→「列の抽出」
で重複削除を実行した列を選択し、OKボタンで実行。

新たなシートが作成される。


もっと簡単な方法がある気がするが、ひとまずこれで作業はできるので、良しとしよう。基本を押さえて地道に頑張る。