第三水準とIBM拡張文字の関係
Webシステムで悩ましい問題の1つが文字コード。
今回は文字コードに加えて、「字形セット」にも
切り口を当てて、考えてみたい。
「字形セット」は歴史的経緯で、様々なものが乱立し、
「字形セット」間で文字コード位置が異なったりします。
このシステムは「字形セット」の〜〜に対応しています。
と言い切るのが結構難しい。
全ての字形を列挙するしか方法はないかなと。
図でわかりやすくCP932の歴史等を書いているサイト*1
*2
「文字コード」って、以下が代表的
「字形セット」って、「a」とか「あ」とか「①」とかのセットを指す(と個人的に定義してみました)。以下が代表的。「面」「区」で字形セットを表現していますね(文字コードとは別)。*3
ここまではいいとして、以下がどうなっているんだろう?と疑問におもったので、整理してみたい。
IBM拡張文字は全部で388文字(そのうち漢字部分は360文字)この中で JIS X 2013 に収録されているのは 304 (276) 文字。「鄯」から「∴」までの非漢字84文字はすべて対応する文字が収録されています。ただし文字コードの位置は異なります。
文字コードの難しさがこの文章に集約されているとおもう。
- 文字コードと字形セットの関係*5
- Windows-31Jと第三水準の関係は?
- Windows-31JはIBM拡張文字を表現できるので、一部表現できそう
- Windows-31Jと第三水準の関係は?
参考
*7
*1:http://una.soragoto.net/topics/13.html
*2:http://www2.ocn.ne.jp/~cheerful/develop/code/encode.html
*3:http://homepage2.nifty.com/zaco/code/page06.html
*4:http://www.seiai.ed.jp/sys/text/cs/chp02/c02a050.html
*5:http://www.seiai.ed.jp/sys/text/cs/chp02/c02a050.html