見出し画像

JIS非漢字 - その謎のセレクション

JIS漢字コードについては

JIS漢字の制定 - 1978年

新JISの混乱 - 日本語は2種類ある

あたりに書いてきました。ここで採用された第1水準と第2水準の漢字についてはおいておくとして、「漢字ではない」その他の文字についてまとめておきたいと思います。

JIS X 0208

JIS X 0208コード表

非漢字の一覧

元々の国際的なルールを考えればJISを使う時は文字セット全体を切り替えるものなので、ASCII(いわゆる半角英数字)に含まれる文字もJISに含める方針はあったようです(フォントのバランスを考えてもASCIIを併用するのは難しい)。そこでアラビア数字は3区16点から、アルファベットは3区33点から採録されています。そしてカタカナについても5区1点から、ひらがなは4区1点からになっています。

ASCIIに含まれるコロンや疑問符といった記号についてもJISにあり、これらは1区の最初の方に割り当てられました。こうして既にASCIIやJIS X 0201 (旧 JIS C 6220)で割り当てられていた文字についてもJIS X 0208 (旧 JIS C 6226)でのコードを持つことになりました。悪いことには何らかの変換規則があるわけではなく、その並びについても同じとは限りませんでした(例えば0208のカタカナには濁点、半濁点付きの文字に対してもコードが割り当てられている)。

少しばかり謎なのが6区にはギリシア文字があり、7区にはキリル文字(ロシア語のアルファベット)が含まれています。言ってみればJISだけ日本でよく使われている世界中の文字をカバーしようとしていたのだとは思います。というのも書籍、特に教科書などで使われていた文字はすべてカバーすべしという方針があったからのようです。まあアラビア文字は教科書にもなかったのでしょうが、漢文に出てくる漢字がカバーできていたかは怪しいとは思うのですが(ここは例外だったのでしょう)。

1区 特殊文字
2区 特殊文字
3区 数字、ラテン文字
4区 平仮名
5区 片仮名
6区 ギリシア文字
7区 キリル文字
8区 罫線素片

JIS X 0208

悩ましいのが8区に含まれる罫線素片で、JISが制定される以前から大型機の端末で表や枠を表現するために使われていたという理由で押し込まれたようです。罫線はいわゆるセミグラフィック文字として一部の8ビットPCでも持っていた文字で、いわゆる記号でもなければ文字でもありません。これがJISに含まれたのは、その後に禍根を残した感じがしないでもありません(まあ罫線素片は1バイト圏でも採用されたのですが)。まあ絵文字とかも日本でコードを割り当てて使われ始め、世界に広がっていったわけですから、どうやら日本人には新しい文字を発明する才能があるようです。

罫線素片

利用できる文字(JIS X 0208で規定する非漢字)

https://www.nilim.go.jp/lab/bcg/siryou/tnn/tnn0403pdf/ks0403018.pdf

そもそもASCIIが制定された時代は、文字は「印字」されて使われることが多く、特殊な文字を扱いたい時は「重ね打ち」することで表現することが出来ました。ASCIIに含まれる記号の中でも”~”や”^”は、そういった使い方を想定していました。最初のJIS漢字が制定された時代は、まだその考え方が残っており、濁点やウムラウトなどの「ダイアクリティカルマーク」としてコードを割り当てられています。

もっとも文字は印字されることはもちろんありますが、その後ディスプレイなどに「表示」されて使われることが基本となり、殆どのディスプレイでは「重ね打ち」がサポートされていないので、後の改定で重ね打ちで表現できるような「合字」に対しても独立した文字としてコードを割り当てるという方針に変わったようです。

(プログラマのための)いまさら聞けない標準規格の話

最初はこれだけしか漢字以外の文字にコードが割り当てられていなかったのですが、実際にいろいろなパソコンで使われるようになると、それぞれのメーカーが独自に未定義とされているコードに新たな記号を割り当てて使うようになりました。未定義の部分は使ってはいけない「はず」なのですが、それはデータを「交換する」ときの話(JISで決められているのはあくまで「交換用」コードです)で、それぞれのメーカーが同じ機種の範囲で使うだけであれば別に構わないわけです。そこでウチのPCの方が便利ですよという訳で、独自の文字を追加し始め、それがデファクトスタンダードとして認められてしまう訳です。

まあ未定義コードを使うときの方法をもう少し丁寧に決めるということもできたような気もするのですが、お国の決めることは、そこまでの面倒はみないという姿勢もあったように思えます。結局、複数のデファクトスタンダードが出来てしまい、後の規格では、それらを整理して記号が追加されることとなりました。ただ、この時の名残もあって同じに見える記号が、複数のコードを持つというケースも出てしまい、コード体系の変換をしてから元のコードに戻すと、どういう訳か元に戻らずコードが変わるという事態も出てくるという実に面倒なこととなり、将来に禍根を残したのは確かです。

ということで、そろそろ機種依存文字の話なんかになるのかな。

ヘッダ画像は、JIS非漢字の一部。

#日本語文字コード #JIS #X0208 #非漢字 #罫線素片 #合字 #重ね打ち #未定義コード

いいなと思ったら応援しよう!