
【PDF】ほとんどの人が知らずに拡散してしまう!康煕部首(こうきぶしゅ)というとてもやっかいな文字【TIP】
⽉・⽕・⽔・⽊・⾦・⼟・⽇
この文字、読めますか?
これらは小学校1年生で習う漢字なので日本語話者にとって、おそらく「げつ」「か」「すい」「もく」「きん」「ど」「にち」一週間のことかなと思われるはずです。
しかし、これらはコンピュータにとって正しくないのです。一週間を正しく表示しようとすると「月・火・水・木・金・土・日」となります。
⽉・⽕・⽔・⽊・⾦・⼟・⽇
月・火・水・木・金・土・日
上段と下段は異なる文字です。普通は「???」となるはずです。実は上段の文字はタイトルにもある「康煕部首(こうきぶしゅ)」の一部です。表示するフォントにもよりますが、普通の人には絶対に見分けがつきません。
そして下記が康煕部首一覧です。214部首あり日常的によく使う漢字が多くあることがわかります。
※Unicode(ユニコード)で表示していることが前提です
康煕部首(Kangxi Radicals)一覧
$$
\begin{array}{|l|llllllllllllllll|}
\hline
& 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & A & B & C & D & E & F \\
\hline
U+2F0x & ⼀ & ⼁ & ⼂ & ⼃ & ⼄ & ⼅ & ⼆ & ⼇ & ⼈ & ⼉ & ⼊ & ⼋ & ⼌ & ⼍ & ⼎ & ⼏ \\
U+2F1x & ⼐ & ⼑ & ⼒ & ⼓ & ⼔ & ⼕ & ⼖ & ⼗ & ⼘ & ⼙ & ⼚ & ⼛ & ⼜ & ⼝ & ⼞ & ⼟ \\
U+2F2x & ⼠ & ⼡ & ⼢ & ⼣ & ⼤ & ⼥ & ⼦ & ⼧ & ⼨ & ⼩ & ⼪ & ⼫ & ⼬ & ⼭ & ⼮ & ⼯ \\
U+2F3x & ⼰ & ⼱ & ⼲ & ⼳ & ⼴ & ⼵ & ⼶ & ⼷ & ⼸ & ⼹ & ⼺ & ⼻ & ⼼ & ⼽ & ⼾ & ⼿ \\
U+2F4x & ⽀ & ⽁ & ⽂ & ⽃ & ⽄ & ⽅ & ⽆ & ⽇ & ⽈ & ⽉ & ⽊ & ⽋ & ⽌ & ⽍ & ⽎ & ⽏ \\
U+2F5x & ⽐ & ⽑ & ⽒ & ⽓ & ⽔ & ⽕ & ⽖ & ⽗ & ⽘ & ⽙ & ⽚ & ⽛ & ⽜ & ⽝ & ⽞ & ⽟ \\
U+2F6x & ⽠ & ⽡ & ⽢ & ⽣ & ⽤ & ⽥ & ⽦ & ⽧ & ⽨ & ⽩ & ⽪ & ⽫ & ⽬ & ⽭ & ⽮ & ⽯ \\
U+2F7x & ⽰ & ⽱ & ⽲ & ⽳ & ⽴ & ⽵ & ⽶ & ⽷ & ⽸ & ⽹ & ⽺ & ⽻ & ⽼ & ⽽ & ⽾ & ⽿ \\
U+2F8x & ⾀ & ⾁ & ⾂ & ⾃ & ⾄ & ⾅ & ⾆ & ⾇ & ⾈ & ⾉ & ⾊ & ⾋ & ⾌ & ⾍ & ⾎ & ⾏ \\
U+2F9x & ⾐ & ⾑ & ⾒ & ⾓ & ⾔ & ⾕ & ⾖ & ⾗ & ⾘ & ⾙ & ⾚ & ⾛ & ⾜ & ⾝ & ⾞ & ⾟ \\
U+2FAx & ⾠ & ⾡ & ⾢ & ⾣ & ⾤ & ⾥ & ⾦ & ⾧ & ⾨ & ⾩ & ⾪ & ⾫ & ⾬ & ⾭ & ⾮ & ⾯ \\
U+2FBx & ⾰ & ⾱ & ⾲ & ⾳ & ⾴ & ⾵ & ⾶ & ⾷ & ⾸ & ⾹ & ⾺ & ⾻ & ⾼ & ⾽ & ⾾ & ⾿ \\
U+2FCx & ⿀ & ⿁ & ⿂ & ⿃ & ⿄ & ⿅ & ⿆ & ⿇ & ⿈ & ⿉ & ⿊ & ⿋ & ⿌ & ⿍ & ⿎ & ⿏ \\
U+2FDx & ⿐ & ⿑ & ⿒ & ⿓ & ⿔ & ⿕ & & & & & & & & & & \\
\hline
\end{array}
$$
ここまでで「別に読めるからいいじゃん」と思われる方もいらっしゃるかもしれませんが、コンピュータは別の文字として扱うため、検索しても見つけることができないのです。(一部例外あり)
例えば「⼭⽥」など康煕部首がデータベースに登録されてしまうと「山田(やまだ)」という人は存在しないことになり混乱を招くことになります。そしてこの文字をコピー・アンド・ペースト(以下、コピペ)なんてことをしてしまうと康煕部首が混じった文章が量産されてしまうのです。
一般的なエディタやワードなどでは康煕部首をそのまま表示してしまいますが、私が普段使用しているWindowsのEmacs Ver. 29.3はなぜか「文字コード」表示されるため気が付くことができます。
(設定がほぼ同じはずのmacOSのEmacs Ver. 29.3は康煕部首を表示するので、おそらくデフォルトフォントが関係しています。Windows版のデフォルトフォントをメイリオ・游ゴシック・Verdanaなどに変更すれば康煕部首は表示できます)


なぜ康煕部首が発生?
そもそも本来入力(変換)することができないはずの康煕部首が混ざった文章が存在するのかというとはっきりとした原因はわかりません。ただ康煕部首が登録されているUnicodeの領域([U+2F00]-[U+2FDF])が通常使用されている漢字(CJK統合漢字*)の領域([U+4E00]-)よりも先に見つかるため、誤って表示されてしまうのではないかと言われています。
*CJK C:Chinese, J:Japanese, K:Koreanの略
これは個人的な見解ですが、WindowsのPDFファイルから文章をコピペをするとこの現象が発生しやすいような気がしてます。Windowsユーザの多くが使用しているAdobe Acrobat Readerや、それ以外のPDF閲覧ソフトウェアでも同様の現象は起こります。
macOSは標準でインストールされているPreview(プレビュー)でPDFの編集・閲覧が可能ですが、こちらはWindowsでコピペをすると康煕部首になる文章を同じようにコピペしても、偶然なのかこの現象は起きませんでした。なお、macOSでも他のPDF閲覧ソフトウェアでコピペするとこの現象が起こります。
対応策
前述した通り、通常は見た目で判断することはできません。そのため、怪しいと思ったら康煕部首を検出・変換できるWebサービスがいくつかあるので利用するのが良いのではないかと思います。
また、WordPressであれば、プラグインをインストールすれば正規表現を使った検索で記事内の康煕部首を見つけることが可能です。Search Regexなどで康煕部首は簡単に見つけることができます。

余談
CJK統合漢字は中国語、日本語、朝鮮語で使われている漢字をひとまとめにしたもので、同じ漢字(同じ文字コード)でも各国で微妙に異なるために中国語の漢字が日本人向けに表示されると違和感を感じることがあるようです。
そして欧米人であれば英数字+記号を表示するために1byte(最大256文字)あれば大丈夫だからと、2byte(最大65536文字)は無駄と言われてきた過去も、現在、世界的にEmoji(絵文字)が普及したことにより4byte(40億以上)も認められるようになってきたので、このような問題もいつか解決するかもしれません。