生産性爆上げシリーズ!~正規表現 基礎編~
皆さんは、デスクワークで作業をしている際に文章の最後に句点「。」を忘れてしまったり、英数字の半角や全角が混在していたりと細かい作業ミスに悩まされたことはありませんか?
さらにはデータ分析をしているときに、そういった表記のばらつきがあるとエラーが出てしまったり、違った結果が出力されてしまうことがあります。
こんなときに「正規表現」を使うと、一括で表記のばらつきを確認できたり、ミスを修正することができます。
今回は正規表現とは何かを簡単にご紹介します!
正規表現で使うメタ文字と例
まず正規表現(Regular Expression)とは、文字列のパターンを特殊な文字(メタ文字)を用いて表現することです。
正規表現を使うことにより、電話番号や郵便番号のような決まった形式の文字列の検索や、例えば「1,000円」から「¥1,000」といった表示形式の置き換えを一括ですることができます。
また、正規表現で使用する特殊な文字、メタ文字を初めて聞いた方もいらっしゃると思います。
メタ文字とは、その本来の記号や文字の意味とは異なり、正規表現の中で特別な意味を持つ文字のことです。
一例ですが、皆さんは「+」を見るとどんな意味だと思いますか?
多くの方は足し算をするときのプラス記号だと思うのではないでしょうか?
しかし正規表現の中では「+」は直前の1文字の1回以上繰り返しを表しています。そのため、例えば正規表現で「abc+」と記載があれば、「abc」や「abcccc」など「c」が一回以上羅列されているものを指します。
反対に「ab」や「abd」のような「c」が羅列されていないものはマッチしません。
その他に「$」はドル(米国の通貨記号)をイメージされるかもしれませんが、これは末尾を表すメタ文字です。
この「$」を使うことで、行末に句点「。」があるかのチェックや、行末へ文字や記号の追加をすることができます。
この他にもメタ文字には多くの種類があります。
一気に見ると難しく感じてしまう方も多いと思いますが、メタ文字は必ずしも暗記する必要はなく、リスト化してメモなどに保存しておき、必要な時に確認するのがおすすめです。
まとめ
正規表現はテキストエディタやプログラミング言語で実装でき、分析する前段階のデータ加工では重要な技術です。
次回はIT業界で普及率が高いサクラエディタという無料でテキストを編集できるツールを使い、実際に正規表現を使う方法について解説します!
皆さんも正規表現を使いこなし、生産性を爆上げしていきましょう!
【ワークスアイディのホームページはこちら】