正規表現を使って、HTMLからテキストのみを抽出する

インターネット上のアンケートで、社内で回答内容を報告する場合、プルダウンメニューから回答を選択する形式だと、どんな選択肢があるか説明に困ります。

そんなとき僕は正規表現を使ってHTMLからでテキストのみを抽出して対処しています。

やり方は簡単

サクラエディタとか正規表現に対応したテキストエディタで、HTMLにある以下の文字列を空白に置き換えるだけです。

<[^>]+>

正規表現の意味は以下の通り。
[ ] 括られた文字列のどれか
[^ ] 括られた文字列のどれか以外
[^>] >以外
[^>]+ >以外の1回以上の繰り返し

改行とかタブが残るので適当に整えます。


この記事が気に入ったらサポートをしてみませんか?