...

JIS2004とは? ~JIS2004を理解するためのはじめの一歩~ 日本アイ・ビー・エム システムズ・エンジニアリング株式会社

by user

on
Category: Documents
586

views

Report

Comments

Transcript

JIS2004とは? ~JIS2004を理解するためのはじめの一歩~ 日本アイ・ビー・エム システムズ・エンジニアリング株式会社
日本アイ・ビー・エム システムズ・エンジニアリング株式会社 2010年7月
JIS2004とは?
~JIS2004を理解するためのはじめの一歩~
© 2010 IBM Corporation
目次
ƒ 1.はじめに
– 29年ぶりに新しい常用漢字表が告示
– 新常用漢字とJIS2004、Windows 7の関係
ƒ 2.Windows 7とJIS2004
– JIS2004とは
– Windows 7のJIS2004対応
– IBM日本語ホストコード
ƒ 3.参考文献
3
© 2010 IBM Corporation
1.はじめに
4
© 2010 IBM Corporation
今年、内閣が29年ぶりに新しい漢字表を告示する予定
ƒ 出典:
http://www.yomiuri.co.jp/kyoiku/news/20100519-OYT8T00778.htm
5
© 2010 IBM Corporation
新常用漢字とJIS2004って関係あるの?
ƒ 新常用漢字表に追加された文字の例とJIS2004の関係
SJIS
常用漢字表
岡
媛
嵐
椅
6
埼
肘
鬱
虹
虎
熊
鷹
麺
© 2010 IBM Corporation
新常用漢字とJIS2004って関係あるの?
ƒ 新常用漢字表に追加された文字の例とJIS2004の関係
SJIS
常用漢字表
岡
媛
嵐
埼
肘
鬱
虹
虎
熊
鷹
ト
ン
ォ
フ
応
対
4
0
0
と い!
2
い
S
I
J
でな できな
表示
・
入力
椅
7
麺
© 2010 IBM Corporation
新常用漢字とWindows 7って関係あるの?
ƒ 新常用漢字表に追加された文字とWindows 7の関係
SJIS
常用漢字表
岡
媛
嵐
サロゲートペアの
文字
8
虹
虎
肘
填
熊
鷹
麺
椅
Unicode
埼
鬱
頬
剥
叱
© 2010 IBM Corporation
新常用漢字とWindows 7って関係あるの?
ƒ 新常用漢字表に追加された文字とWindows 7の関係
SJIS
剥
頬
填
叱
Unicode
サロゲートペアの
文字
9
常用漢字表
岡
媛
嵐
椅
埼
鬱
虹
肘
麺
虎
熊
鷹
Windows 7では
Unicodeになる!
© 2010 IBM Corporation
DBサーバー
(zメインフレーム系)
望まれる新常用漢字への対応
ƒ 今後は新常用漢字を含めたJIS2004特有の文字の使用が予想される
ƒ では、データベース・アクセス環境をどう対応させていけばいいのか
クライアント
2層構成
社内
ユーザー
DB2 for z/OS
3層構成
WebSphere
Application
Server
一般
ユーザー
10
アプリケーション・
サーバー
DB2 UDB
for LUW
DBサーバー
(オープン系)
© 2010 IBM Corporation
DBサーバー
(zメインフレーム系)
望まれる新常用漢字への対応
ƒ 今後は新常用漢字を含めたJIS2004特有の文字の使用が予想される
ƒ では、データベース・アクセス環境をどう対応させていけばいいのか
クライアント
2層構成
社内
ユーザー
DB2 for z/OS
3層構成
WebSphere
Application
Server
一般
ユーザー
11
使用される文字コードは
SJIS ? Unicode ?
フォントはJIS2004対
応?JIS90ベース?
アプリケーション・
サーバー
データベースの
文字コードは
SJIS ? Unicode ?
EBCDIC ?
DB2 UDB
for LUW
DBサーバー
(オープン系)
© 2010 IBM Corporation
当資料の内容について
ƒ 当資料は、Windows 7の普及に伴い、今後使用が増えると予想されるJIS2004対応
の文字についてまとめたものです。Windows 7でのJIS2004対応の内容やJIS規格
とIBMホストコードとの関連についてご紹介します。
ƒ Microsoftでは、Windows Vista およびWindows 7で、JIS2004に対応していますが、
当資料で取り上げている内容の範囲においては、 Windows Vista とWindows 7
での差異はないと考えられるため、簡略化のため、特に記載がない限り、Windows
7という表記にしています。
12
© 2010 IBM Corporation
2.Windows 7とJIS2004
13
© 2010 IBM Corporation
JIS2004とは
ƒ JIS X0213の2004年の改訂版の呼び名
ƒ JIS X0213は2000年に制定されており、そのレベルの規格をJIS2000という
ƒ 2004年の改定レベルを含めていう場合はJIS2004とよぶ
– 即ち、JIS2000もJIS2004もJIS X0213の規格である
11233文字
11223文字
Windows 7での
標準サポート範囲
JIS2004
JISX0213
JIS2000
Windows XPまでの
標準サポート範囲
・4344文字
追加
(第3、第4水準)
6879文字
6877文字
6802文字
JIS78
JISX0208
旧JIS
JIS83
JIS90
・44文字
入れ替え
・300文字
字形変更
・75文字追加
・2文字追加
・168文字
字形変更
・10文字追加
この部分の追加や変更
が、当資料のポイント
新JIS
1978年制定 1983年改訂 1990年改訂
2000年制定 2004年改訂
14
© 2010 IBM Corporation
Windows 7(およびWindows Vista)のJIS2004対応
ƒ JIS X0213:2004(JIS2004)に対応したフォントを標準搭載
– Vista以前のWindowsと、どこが違うの?
① 字形が変更
した文字がある
③ サロゲートペア
の文字がある
15
② 拡張文字
(新規追加の文字)が
ある
④ 合成文字が
表現できる
© 2010 IBM Corporation
① 字形が変更した文字がある
ƒ Vistaより前のWindowsのフォントと比べ、一部の文字の字形が変更
Windows 7のIME変換
XPのIME変換
葛
どうして変更したの?
JIS2004で、常用漢字表以外の漢字が含まれる
表外漢字字体表の印刷標準字体に対応し、
168文字の例示字形を変更したため
16
© 2010 IBM Corporation
① 字形が変更した文字がある
どう影響
するの?
同じ文字でも、XPで見た場合と字形が違うものがでてくる
XPで見た場合
Windows 7で見た場合
下線は、JIS2004での字形変更対象文字、青字は変更が確認できた文字
17
© 2010 IBM Corporation
② 拡張文字(新規追加の文字)がある
ƒ Vistaより前のWindowsでは使用できなかった文字が追加された
Windows 7のIME変換
どうして追加したの?
JIS2000およびJIS2004で、第3水
準、第4水準の漢字や非漢字が
4344文字追加されたため
どのように追加したの?
Unicodeでしか入力できない文字は
環境依存文字(unicode)と表示さ
れるので、JISX0213対応で追加さ
れた文字かどうかの判別は可能
このような文字が含まれる場合、
ANSI形式で保管しようとすると警告
がでる
18
既存のベンダー選定文字に含まれ
ていたもの以外は、
すべてUnicodeで追加
© 2010 IBM Corporation
② 拡張文字(新規追加の文字)がある
どう影響
するの?
UnicodeかつJIS2004対応フォントでないと見えない文字がでてくる
Windows 7で作成した文書
JIS2004対応フォントで
もANSI(SJIS)で
保管すると、見えなくな
る文字がある
Unicodeで
保管
保管
XPで見ると..
?ばかり???
Unicodeで保管しても、XPでは見える文字と
見えない文字がある 見えても異なるフォントになることもある
19
© 2010 IBM Corporation
② 拡張文字(新規追加の文字)がある
だったらWindows 7だけ使っていれば問題ないのでは?
XPを使用していた 土田さん
正しくは「土」には点がついている
のですが、パソコンでは入らず、
いつも「土」で代用していました。
この字じゃ
ないんだ
けどなぁ
最近、新しくWindows 7を購入。インターネットで買い物を
しようとし、氏名欄に自分の苗字を入れようとしたら、点の
ついた「土」が候補に出てきました。
あっ、これ!
これからは正しい
文字が使えるわ!
後日購入確認してみたら文字化けが。
使用するアプリケーションのシステムが
追加された文字に対応していなければ、
結局文字化けが発生
20
あら?
名前がちゃんと
入ってないわ?
データベース
??
文字化け
・田
© 2010 IBM Corporation
③ サロゲートペアの文字がある
ƒ 追加された文字の中には、 Unicode(UTF-16)で2つの2バイトコードのペアで
1文字をあらわすサロゲートペアと呼ばれる方式のコードになる文字がある
– Unicodeの多くの文字は、1文字2バイト(UTF-16の場合)だが、サロゲートペアの文字は、1文
字を表すのに4バイト必要となる
どうしてそんな
文字があるの?
第3水準・第4水準漢字の中には、JIS2000制定当時
Unicodeに未登録の文字が存在。
これらの文字は新規にUnicodeに登録されたが、一部の文
字については2バイトで表現できる領域には収録しきれず,
補助面を使ったサロゲートペアと呼ばれる方法で表現する
文字として登録されたため
•サロゲートペアとは、UnicodeのU+10000からU+10FFFFまでの範囲の補足文字のみを、サロゲートと呼ば
れる方式によって、 2つのUCS-2文字の組み合わせ(4バイト)で1文字を表現したもの
•SJISにおける半角と全角の切り替えに似た仕組み
•U+D800~U+DBFFのコードがあったら、その後の2バイトまでを含めて1文字とする
•3-4バイト目はU+DC00~U+DFFFとなる
UTF-16
あ
U+3042
3042
UTF-16 サロゲートペア
U+2123D
21
D844 DE3D
© 2010 IBM Corporation
③ サロゲートペアの文字がある
どう影響
するの?
サロゲートペアの文字に対応していない環境やアプリケーションでは、
2文字とみなされ正しい処理ができない
D844DE3D 7530
苗字の漢字頭2文字分を取り出したい
2文字を4バイトとして取り出すと
677E 5C45
見た目は1文字だが、データとしては1文字が4バイトとなるため、
データ保管領域のサイズに注意
22
© 2010 IBM Corporation
④ 合成文字が表現できる
ƒ XPなどでは表現できない合成文字の表示が可能となった
– サロゲート ペア同様、UTF-16では4バイトで1文字となる
ƒ 合成文字とは、Unicodeにおいて、基底となる文字とそれを修飾する結合文字
の2文字を1文字として表現した文字
– 従来よりヨーロッパの言語で使われているアクセント付きのアルファベットを,ベースとなるアル
ファベットとアクセントの2文字を組み合わせて1文字として表示することがあった
日本語に関係あるの?
基底文字
ひらがな、カタカナの合成文字が追加されています
結合文字
日本語文字の合成文字の種類
+
鼻濁音
アイヌ語用文字
エンターを押すと
一文字に!
23
© 2010 IBM Corporation
④ 合成文字が表現できる
XPで見た場合、基底となる文字しか見えず、修飾文字は文字化けする
どう影響
するの?
XPで見ると..
見た目は1文字だが、データとしては1文字が4バイトとなるため、データ
保管領域のサイズに注意
Windows 7での合成文字は、あくまでも表示機能によって2つの
Unicode文字を1文字に見せたもの
Unicodeデータとしては2文字として処理される
24
© 2010 IBM Corporation
JIS2004に対応するためには
もうSJISの世界では対応できません
入力、出力、データの保管、
すべてUnicodeで統一する必要がありそう
そうは言っても…
ホストの世界は、EBCDICが主流、
過去の資産もあるし、全てUnicodeにするのは困難
EBCDICのままではだめなの?
25
© 2010 IBM Corporation
IBM日本語ホストコード
ƒ JIS90まではJIS規格の内容を受け、ホストEBCDICコードとしてCCSID930,939を拡張
ƒ JIS2000およびJIS2004に対しては、JIS規格の制定/改訂に先行してその内容を取り込
み、新しいCCSID1390,1399が誕生、拡張
CCSID 1390,1399
V2
CCSID
1390,1399の誕生
CCSID 930,939
86年改訂
11233文字
11223文字
79年初版
6879文字
11635文字
•JIS90対応
JIS78
JIS90
2002年改訂
拡張ホストV2
22102文字
JIS2004対応
21028文字
NEC選定文字
Unicode日本
語サブセット
(JISX0212等)
JIS2004
・4344文字
追加
JIS83
6802文字
拡張ホスト
V1
JIS2000
7190文字
•JIS78対応
•IBM選定文
字を含む
6877文字
26
11633文字
•JIS83対応
•外字
92年改訂
99年
・168文字
字形変更
・10文字追加
CCSID1390,1399
V2であれば
JIS2004に
完全対応
© 2010 IBM Corporation
拡張ホスト(CCSID1390/1399)V1とV2
ƒ V1とV2で含まれる文字の違い
Unicode
その他
1506文字
JIS X0208
(JIS90)
6879文字
V1に含まれる部分
JIS X0212
6067 文字
UDC
(外字)
6205文字
930/939
1390/1399 V1
1390/1399 V2
1992年11月版
1999年3月版
2002年11月版
JIS X0212 6067文字
280
○
○
JIS X0208 6879文字
○
以下に含まれる
以下に含まれる
JIS X0213 11233文字
×
10159
○
JISX0212,X0213以外の
○
○
○
×
○
○
4370
○
○
IBM選定文字 34文字
その他
UDC(外字)
27
1472文字
6205文字
© 2010 IBM Corporation
拡張ホスト(CCSID1390/1399)V1とV2
ƒ V1とV2で含まれる文字の違い
Unicode
JIS X0213 (JIS2004)
11233文字
JIS X0208
(JIS90)
6879文字
サロゲート
ペア文字
EBCDICでは他の
漢字と同様
1文字2バイトの
コードになる
その他
1506文字
V1に含まれる部分
V2に含まれる部分
JIS X0212
6067 文字
合成文字
X0213で追加されたX0212以外の文字
V1とV2の差(1074文字)は、
ほとんどこの部分
UDC
(外字)
6205文字
サロゲート・ペアの文字
合成文字はここに含まれる
930/939
1390/1399 V1
1390/1399 V2
1992年11月版
1999年3月版
2002年11月版
JIS X0212 6067文字
280
○
○
JIS X0208 6879文字
○
以下に含まれる
以下に含まれる
JIS X0213 11233文字
×
10159
○
JISX0212,X0213以外の
○
○
○
×
○
○
4370
○
○
IBM選定文字 34文字
その他
UDC(外字)
28
1472文字
6205文字
© 2010 IBM Corporation
3.参考文献
29
© 2010 IBM Corporation
参考文献
ƒ 「JIS漢字字典」 日本規格協会 芝野耕司 編著
ƒ JIS X 0213:2004 / Unicode 実装ガイド
http://www.microsoft.com/japan/windows/products/windowsvista/jp_font/default.mspx
ƒ シフトJIS X 0213文字一覧
http://www.eonet.ne.jp/~kotobukispace/ddt/jisx0213/sjis8xxx.html
ƒ 第3水準漢字一覧
http://www.itscj.ipsj.or.jp/ISO-IR/233.pdf
ƒ 第4水準漢字一覧
http://www.itscj.ipsj.or.jp/ISO-IR/229.pdf
30
© 2010 IBM Corporation
End
31
© 2010 IBM Corporation
Fly UP