ゼロ幅スペースと改行
仕事の本題と関係ないところでやたら時間をとられてしまって悔しいので記録しておきます。
「ゼロ幅スペース」と呼ばれるUnicode「U+200B」によって、なぜか改行されることがあったのでそちらのことです。
自分が検索していて全然わからなかったので、検索キーワードをまき散らしておくと、
Word 改行 見えない改行 見えないスペース Mac Windows 改行コード 文字コード Webページ 書式情報 コピペ
こんなところでしょうか。
アイキャッチ画像をもとに、そもそも何を話題にしているかご説明します。
今日のテーマ
これは仕事で実際に見たものではなく、後から再現したもので、文章自体はは夏目漱石の「こころ」です(青空文庫より)。
この中で、黄色いカーソルが当たっているところに、目には見えない空白が存在しております(「暑中休暇」の直前)。
十字キーで左から右に移動していくと、普通は一文字ずつ右に移動しますが、この行では、「生」「で」「あ」「っ」「た」「。」「」「暑」「中」「休」「暇」というように、僅かな空白があります。
Wordに張り付けても同様です。カーソル一回分突っかかります。
まったくわかりません。
実は「海水浴」の「水」と「浴」の間にも入れているのですがわかりません。
その文字を引っ張ってくる方法は後述しますが、検索すれば見つかります。どこにあるか表示されないので、「見つかる」という表現が適切かどうかわからないですが。
これは何?
そもそもこれはなんなのかというと、Wikipediaをざっと解釈したところ「改行可能な位置を示す」ための記号だそうです。
もうちょいコンピュータ寄りに話すと、HTMLの<wbr>タグのことだそうです。
で、これがWordに含まれた状態で、WordからWebにコピーすると、<wbr>が発動して改行される(ことがある)のです。こういう事象があって今回のきっかけになりました。
同じ文章でもメモ帳からのコピペでは発動しませんでした。
今回仕事で扱っていた元の文章自体がWebからコピーするものですが、色々調べていると、他にも「^p」とか「^l」みたいな特殊文字があるようで、最初はそれを試したものの該当せず。。
ようやく、サクラエディタで、一文字一文字Unicode番号が表示されることに気づいて分かった次第でした。
Unicodeの番号が分かれば再現できるもので、IMEパッドから「U+200B」を探せば引っ張ってくることができます。
冒頭の「こころ」に挟んだり、Wordで検索したりできたのは、このIMEパッドからとってきたためです。一応見えなくても文字なので、コピペできます。
まとめ
今回の事象自体は、まったくもって二度と困ることはないだろう事案ですが、コンピュータ知識を深めたり、トラブル解決経験としては、面白いものでした。
誰の役にも立たない可能性も高いですが、ご参考になれば幸いです。
ただ、万万が一同じことで困った人がいたら最高にスッキリできるので、投げ銭できるようにしてみようと思いました。スッキリされた方はぜひお願いします。
こんなことを毎度書いてますのでまた見に来ていただけると嬉しいです!
ここから先は
¥ 100
ちょっと役立ったなと思ったら、サポートいただけると嬉しいです。マウスを買い替える資金になります!