第三水準とIBM拡張文字の関係

Webシステムで悩ましい問題の1つが文字コード
今回は文字コードに加えて、「字形セット」にも
切り口を当てて、考えてみたい。


「字形セット」は歴史的経緯で、様々なものが乱立し、
「字形セット」間で文字コード位置が異なったりします。
このシステムは「字形セット」の〜〜に対応しています。
と言い切るのが結構難しい。
全ての字形を列挙するしか方法はないかなと。
図でわかりやすくCP932の歴史等を書いているサイト*1
*2


文字コード」って、以下が代表的

「字形セット」って、「a」とか「あ」とか「①」とかのセットを指す(と個人的に定義してみました)。以下が代表的。「面」「区」で字形セットを表現していますね(文字コードとは別)。*3

  • 第一水準
  • 第二水準
  • 第三水準
  • 第四水準
  • IBM拡張文字
  • NEC拡張文字
  • 外字


ここまではいいとして、以下がどうなっているんだろう?と疑問におもったので、整理してみたい。

  • 字形セットと字形セットの関係
    • 例えば第三水準とIBM拡張文字の関係は?
      • 第三水準とIBM拡張文字が重複を持つ*4
      • 字形セットによって文字コードの位置が異なる

IBM拡張文字は全部で388文字(そのうち漢字部分は360文字)この中で JIS X 2013 に収録されているのは 304 (276) 文字。「鄯」から「∴」までの非漢字84文字はすべて対応する文字が収録されています。ただし文字コードの位置は異なります。

文字コードの難しさがこの文章に集約されているとおもう。

  • 字形セット(JISX0213)とUTF-8Shift_JISの関係*6
    • エクセルで表現してくれているので、すごく見やすいです。

参考
*7