半角文字は256文字まで
今、『数学思考のエッセンス: 実装するための12講』を読んでいる。
この手の本にしては珍しく、数式が一切出てこない。「数式が1つでも登場する本は売上が激減する」ことを聞いたことがある。そんなことを狙ってなのか、登場しない。
数式による説明はなく、あくまでも文章と図表で説明している。
私としては、あるていど数式があった方が、文字の解釈が合っているのか確かめられていいのだが、世間的には受け入れられないらしい。文章だけで理解しようとすると頭がこんがらがってくる。
本書は統計やグラフの見方について教えてくれる本だ。翻訳本ということもあり、日本で発売されたのは遅い。
本書では統計やグラフの見方など基本的なことを書いた上で、新型コロナウイルスの情報に対してこれらがどうやって使われているのかを応用例として、時おり説明している。
「コロナは終わったのか?終わってないのか?」
今でも、議論が続いていることだと思っている。しかし、個人的には世界に広まってしまっているので終わりはないと思っている。
*
そんな本書で気になったというか、気づいたのは、半角文字は256文字までしかない、ということ。
情報系の話で、1文字を表すために使われる単位がバイト。
1バイトは8ビット。1ビットは0か1の2進数で表される。2通りある。
1ビットなら扱える情報は2つ。たとえば0が「a」、1が「b」を示す。
2ビットなら2×2で4通り。
0が「a」。1が「b」。10で「c」。11なら「d」
3ビットなら2×2×2=8通り。
2ビットの情報に加えて、100で「e」。101で「f」。110で「g」。111で「h」
これが8ビットでは、2の8乗で256通り。
1バイトで入力できるのは半角文字だけ。全角文字を入力するには2バイト必要。
この話は知っていたが、いつもここで止まっていた。
というか、ここでも十分に分かることなんだけれども、半角文字は256種類しか扱えない。1バイトは256種類の情報を扱える。
半角文字はキーボードにある文字と覚えておくのがいいだろう。アルファベットと数字と「−+/-@':";」とかの特殊文字。日本語の場合はカタカナも半角文字。
全角文字は2バイト、つまり16ビットで、2の16乗の文字が扱える。2の16乗は65536。
ここでふと思ったのは、「だいたい6.5万文字で漢字全部って扱えるの?」と。
調べてみると、以下のサイトでは、日本語で1万程度、中国語で5−6万程度の漢字があるようだ。
常用漢字で2136文字。そう考えたら、2バイトで十分に漢字を扱えることがわかる。そもそも漢字でキツキツだったら、顔文字や絵文字が生まれなかったのでは?と思いました。