第三水準とIBM拡張文字の関係

Webシステムで悩ましい問題の1つが文字コード。
今回は文字コードに加えて、「字形セット」にも
切り口を当てて、考えてみたい。

「字形セット」は歴史的経緯で、様々なものが乱立し、
「字形セット」間で文字コード位置が異なったりします。
このシステムは「字形セット」の〜〜に対応しています。
と言い切るのが結構難しい。
全ての字形を列挙するしか方法はないかなと。
図でわかりやすくCP932の歴史等を書いているサイト*1
*2

「文字コード」って、以下が代表的

「字形セット」って、「a」とか「あ」とか「①」とかのセットを指す(と個人的に定義してみました)。以下が代表的。「面」「区」で字形セットを表現していますね(文字コードとは別)。*3

ここまではいいとして、以下がどうなっているんだろう？と疑問におもったので、整理してみたい。

字形セットと字形セットの関係
- 例えば第三水準とIBM拡張文字の関係は？
  - 第三水準とIBM拡張文字が重複を持つ*4
  - 字形セットによって文字コードの位置が異なる

IBM拡張文字は全部で388文字（そのうち漢字部分は360文字）この中で JIS X 2013 に収録されているのは 304 (276) 文字。「鄯」から「∴」までの非漢字84文字はすべて対応する文字が収録されています。ただし文字コードの位置は異なります。

文字コードの難しさがこの文章に集約されているとおもう。

文字コードと字形セットの関係*5
- Windows-31Jと第三水準の関係は？
  - Windows-31JはIBM拡張文字を表現できるので、一部表現できそう

参考
*7