見出し画像

4月18日「気になるフォントを抜き出す」

現在、CJK統合漢字の深淵の中をさまよっています。

CJK統合漢字というのは何かというと、えーっと…

ChatGPTちゃんに聞きましょう。

長いですね。

要は中国語・日本語・韓国語で使われてる漢字を「同じ漢字なんだろう? じゃあ、同じ文字じゃん!」とまとめて登録しちゃってるわけですね。これによりコードが同じになって便利~! という感じなのですが。

どの国でも、まったく同じ字を使っていれば何の問題もなかったのですが、それぞれ字体が違います。

コードは同じなので「国設定」とか「フォント設定」とかで区別するしかないんですよね。

このことが、「ローカリゼーション」つまり、いろんな言語に翻訳するうえで、かなり問題になってしまっています。

ネイティブでもわからないような微妙な字体の違いなどが、「コードの違い!」とかで判別できずにフォントの差異だけになってしまっているため、実質、いろんな言語に翻訳する側としては対応しようがない状態になってしまっているんですね。

そんなわけで、ローカライズには期待できなさそうなので、自分でフォントを変えることができないかな、と思って色々調べているのです。

まずは日本の漢字と、だいぶ違うな、違和感あるな…みたいな文字の一覧が欲しかったのですが、あまり集合知のなかにはないみたいです。

しょうがないので、自分で見比べて抜き出すしかないかな、とChatGPTちゃんと一緒にプログラムを作っています。

とりあえずJIS漢字第一水準の漢字のなかで、中国語フォントと見比べて、違和感のある漢字を抜き出そうとしています。

400個くらい見比べたあと、

ChatGPTくん? このスクリプト、漢字が400個くらいしか出てこないよ? JIS第一水準の漢字、2000個以上あるはずなんだけれど……

う~ん、途中で失敗に気づいたのでまたやり直しです!

この記事が気に入ったらサポートをしてみませんか?