JIS2004とは? ~JIS2004を理解するためのはじめの一歩~ 日本アイ・ビー・エム システムズ・エンジニアリング株式会社
by user
Comments
Transcript
JIS2004とは? ~JIS2004を理解するためのはじめの一歩~ 日本アイ・ビー・エム システムズ・エンジニアリング株式会社
日本アイ・ビー・エム システムズ・エンジニアリング株式会社 2010年7月 JIS2004とは? ~JIS2004を理解するためのはじめの一歩~ © 2010 IBM Corporation 目次 1.はじめに – 29年ぶりに新しい常用漢字表が告示 – 新常用漢字とJIS2004、Windows 7の関係 2.Windows 7とJIS2004 – JIS2004とは – Windows 7のJIS2004対応 – IBM日本語ホストコード 3.参考文献 3 © 2010 IBM Corporation 1.はじめに 4 © 2010 IBM Corporation 今年、内閣が29年ぶりに新しい漢字表を告示する予定 出典: http://www.yomiuri.co.jp/kyoiku/news/20100519-OYT8T00778.htm 5 © 2010 IBM Corporation 新常用漢字とJIS2004って関係あるの? 新常用漢字表に追加された文字の例とJIS2004の関係 SJIS 常用漢字表 岡 媛 嵐 椅 6 埼 肘 鬱 虹 虎 熊 鷹 麺 © 2010 IBM Corporation 新常用漢字とJIS2004って関係あるの? 新常用漢字表に追加された文字の例とJIS2004の関係 SJIS 常用漢字表 岡 媛 嵐 埼 肘 鬱 虹 虎 熊 鷹 ト ン ォ フ 応 対 4 0 0 と い! 2 い S I J でな できな 表示 ・ 入力 椅 7 麺 © 2010 IBM Corporation 新常用漢字とWindows 7って関係あるの? 新常用漢字表に追加された文字とWindows 7の関係 SJIS 常用漢字表 岡 媛 嵐 サロゲートペアの 文字 8 虹 虎 肘 填 熊 鷹 麺 椅 Unicode 埼 鬱 頬 剥 叱 © 2010 IBM Corporation 新常用漢字とWindows 7って関係あるの? 新常用漢字表に追加された文字とWindows 7の関係 SJIS 剥 頬 填 叱 Unicode サロゲートペアの 文字 9 常用漢字表 岡 媛 嵐 椅 埼 鬱 虹 肘 麺 虎 熊 鷹 Windows 7では Unicodeになる! © 2010 IBM Corporation DBサーバー (zメインフレーム系) 望まれる新常用漢字への対応 今後は新常用漢字を含めたJIS2004特有の文字の使用が予想される では、データベース・アクセス環境をどう対応させていけばいいのか クライアント 2層構成 社内 ユーザー DB2 for z/OS 3層構成 WebSphere Application Server 一般 ユーザー 10 アプリケーション・ サーバー DB2 UDB for LUW DBサーバー (オープン系) © 2010 IBM Corporation DBサーバー (zメインフレーム系) 望まれる新常用漢字への対応 今後は新常用漢字を含めたJIS2004特有の文字の使用が予想される では、データベース・アクセス環境をどう対応させていけばいいのか クライアント 2層構成 社内 ユーザー DB2 for z/OS 3層構成 WebSphere Application Server 一般 ユーザー 11 使用される文字コードは SJIS ? Unicode ? フォントはJIS2004対 応?JIS90ベース? アプリケーション・ サーバー データベースの 文字コードは SJIS ? Unicode ? EBCDIC ? DB2 UDB for LUW DBサーバー (オープン系) © 2010 IBM Corporation 当資料の内容について 当資料は、Windows 7の普及に伴い、今後使用が増えると予想されるJIS2004対応 の文字についてまとめたものです。Windows 7でのJIS2004対応の内容やJIS規格 とIBMホストコードとの関連についてご紹介します。 Microsoftでは、Windows Vista およびWindows 7で、JIS2004に対応していますが、 当資料で取り上げている内容の範囲においては、 Windows Vista とWindows 7 での差異はないと考えられるため、簡略化のため、特に記載がない限り、Windows 7という表記にしています。 12 © 2010 IBM Corporation 2.Windows 7とJIS2004 13 © 2010 IBM Corporation JIS2004とは JIS X0213の2004年の改訂版の呼び名 JIS X0213は2000年に制定されており、そのレベルの規格をJIS2000という 2004年の改定レベルを含めていう場合はJIS2004とよぶ – 即ち、JIS2000もJIS2004もJIS X0213の規格である 11233文字 11223文字 Windows 7での 標準サポート範囲 JIS2004 JISX0213 JIS2000 Windows XPまでの 標準サポート範囲 ・4344文字 追加 (第3、第4水準) 6879文字 6877文字 6802文字 JIS78 JISX0208 旧JIS JIS83 JIS90 ・44文字 入れ替え ・300文字 字形変更 ・75文字追加 ・2文字追加 ・168文字 字形変更 ・10文字追加 この部分の追加や変更 が、当資料のポイント 新JIS 1978年制定 1983年改訂 1990年改訂 2000年制定 2004年改訂 14 © 2010 IBM Corporation Windows 7(およびWindows Vista)のJIS2004対応 JIS X0213:2004(JIS2004)に対応したフォントを標準搭載 – Vista以前のWindowsと、どこが違うの? ① 字形が変更 した文字がある ③ サロゲートペア の文字がある 15 ② 拡張文字 (新規追加の文字)が ある ④ 合成文字が 表現できる © 2010 IBM Corporation ① 字形が変更した文字がある Vistaより前のWindowsのフォントと比べ、一部の文字の字形が変更 Windows 7のIME変換 XPのIME変換 葛 どうして変更したの? JIS2004で、常用漢字表以外の漢字が含まれる 表外漢字字体表の印刷標準字体に対応し、 168文字の例示字形を変更したため 16 © 2010 IBM Corporation ① 字形が変更した文字がある どう影響 するの? 同じ文字でも、XPで見た場合と字形が違うものがでてくる XPで見た場合 Windows 7で見た場合 下線は、JIS2004での字形変更対象文字、青字は変更が確認できた文字 17 © 2010 IBM Corporation ② 拡張文字(新規追加の文字)がある Vistaより前のWindowsでは使用できなかった文字が追加された Windows 7のIME変換 どうして追加したの? JIS2000およびJIS2004で、第3水 準、第4水準の漢字や非漢字が 4344文字追加されたため どのように追加したの? Unicodeでしか入力できない文字は 環境依存文字(unicode)と表示さ れるので、JISX0213対応で追加さ れた文字かどうかの判別は可能 このような文字が含まれる場合、 ANSI形式で保管しようとすると警告 がでる 18 既存のベンダー選定文字に含まれ ていたもの以外は、 すべてUnicodeで追加 © 2010 IBM Corporation ② 拡張文字(新規追加の文字)がある どう影響 するの? UnicodeかつJIS2004対応フォントでないと見えない文字がでてくる Windows 7で作成した文書 JIS2004対応フォントで もANSI(SJIS)で 保管すると、見えなくな る文字がある Unicodeで 保管 保管 XPで見ると.. ?ばかり??? Unicodeで保管しても、XPでは見える文字と 見えない文字がある 見えても異なるフォントになることもある 19 © 2010 IBM Corporation ② 拡張文字(新規追加の文字)がある だったらWindows 7だけ使っていれば問題ないのでは? XPを使用していた 土田さん 正しくは「土」には点がついている のですが、パソコンでは入らず、 いつも「土」で代用していました。 この字じゃ ないんだ けどなぁ 最近、新しくWindows 7を購入。インターネットで買い物を しようとし、氏名欄に自分の苗字を入れようとしたら、点の ついた「土」が候補に出てきました。 あっ、これ! これからは正しい 文字が使えるわ! 後日購入確認してみたら文字化けが。 使用するアプリケーションのシステムが 追加された文字に対応していなければ、 結局文字化けが発生 20 あら? 名前がちゃんと 入ってないわ? データベース ?? 文字化け ・田 © 2010 IBM Corporation ③ サロゲートペアの文字がある 追加された文字の中には、 Unicode(UTF-16)で2つの2バイトコードのペアで 1文字をあらわすサロゲートペアと呼ばれる方式のコードになる文字がある – Unicodeの多くの文字は、1文字2バイト(UTF-16の場合)だが、サロゲートペアの文字は、1文 字を表すのに4バイト必要となる どうしてそんな 文字があるの? 第3水準・第4水準漢字の中には、JIS2000制定当時 Unicodeに未登録の文字が存在。 これらの文字は新規にUnicodeに登録されたが、一部の文 字については2バイトで表現できる領域には収録しきれず, 補助面を使ったサロゲートペアと呼ばれる方法で表現する 文字として登録されたため •サロゲートペアとは、UnicodeのU+10000からU+10FFFFまでの範囲の補足文字のみを、サロゲートと呼ば れる方式によって、 2つのUCS-2文字の組み合わせ(4バイト)で1文字を表現したもの •SJISにおける半角と全角の切り替えに似た仕組み •U+D800~U+DBFFのコードがあったら、その後の2バイトまでを含めて1文字とする •3-4バイト目はU+DC00~U+DFFFとなる UTF-16 あ U+3042 3042 UTF-16 サロゲートペア U+2123D 21 D844 DE3D © 2010 IBM Corporation ③ サロゲートペアの文字がある どう影響 するの? サロゲートペアの文字に対応していない環境やアプリケーションでは、 2文字とみなされ正しい処理ができない D844DE3D 7530 苗字の漢字頭2文字分を取り出したい 2文字を4バイトとして取り出すと 677E 5C45 見た目は1文字だが、データとしては1文字が4バイトとなるため、 データ保管領域のサイズに注意 22 © 2010 IBM Corporation ④ 合成文字が表現できる XPなどでは表現できない合成文字の表示が可能となった – サロゲート ペア同様、UTF-16では4バイトで1文字となる 合成文字とは、Unicodeにおいて、基底となる文字とそれを修飾する結合文字 の2文字を1文字として表現した文字 – 従来よりヨーロッパの言語で使われているアクセント付きのアルファベットを,ベースとなるアル ファベットとアクセントの2文字を組み合わせて1文字として表示することがあった 日本語に関係あるの? 基底文字 ひらがな、カタカナの合成文字が追加されています 結合文字 日本語文字の合成文字の種類 + 鼻濁音 アイヌ語用文字 エンターを押すと 一文字に! 23 © 2010 IBM Corporation ④ 合成文字が表現できる XPで見た場合、基底となる文字しか見えず、修飾文字は文字化けする どう影響 するの? XPで見ると.. 見た目は1文字だが、データとしては1文字が4バイトとなるため、データ 保管領域のサイズに注意 Windows 7での合成文字は、あくまでも表示機能によって2つの Unicode文字を1文字に見せたもの Unicodeデータとしては2文字として処理される 24 © 2010 IBM Corporation JIS2004に対応するためには もうSJISの世界では対応できません 入力、出力、データの保管、 すべてUnicodeで統一する必要がありそう そうは言っても… ホストの世界は、EBCDICが主流、 過去の資産もあるし、全てUnicodeにするのは困難 EBCDICのままではだめなの? 25 © 2010 IBM Corporation IBM日本語ホストコード JIS90まではJIS規格の内容を受け、ホストEBCDICコードとしてCCSID930,939を拡張 JIS2000およびJIS2004に対しては、JIS規格の制定/改訂に先行してその内容を取り込 み、新しいCCSID1390,1399が誕生、拡張 CCSID 1390,1399 V2 CCSID 1390,1399の誕生 CCSID 930,939 86年改訂 11233文字 11223文字 79年初版 6879文字 11635文字 •JIS90対応 JIS78 JIS90 2002年改訂 拡張ホストV2 22102文字 JIS2004対応 21028文字 NEC選定文字 Unicode日本 語サブセット (JISX0212等) JIS2004 ・4344文字 追加 JIS83 6802文字 拡張ホスト V1 JIS2000 7190文字 •JIS78対応 •IBM選定文 字を含む 6877文字 26 11633文字 •JIS83対応 •外字 92年改訂 99年 ・168文字 字形変更 ・10文字追加 CCSID1390,1399 V2であれば JIS2004に 完全対応 © 2010 IBM Corporation 拡張ホスト(CCSID1390/1399)V1とV2 V1とV2で含まれる文字の違い Unicode その他 1506文字 JIS X0208 (JIS90) 6879文字 V1に含まれる部分 JIS X0212 6067 文字 UDC (外字) 6205文字 930/939 1390/1399 V1 1390/1399 V2 1992年11月版 1999年3月版 2002年11月版 JIS X0212 6067文字 280 ○ ○ JIS X0208 6879文字 ○ 以下に含まれる 以下に含まれる JIS X0213 11233文字 × 10159 ○ JISX0212,X0213以外の ○ ○ ○ × ○ ○ 4370 ○ ○ IBM選定文字 34文字 その他 UDC(外字) 27 1472文字 6205文字 © 2010 IBM Corporation 拡張ホスト(CCSID1390/1399)V1とV2 V1とV2で含まれる文字の違い Unicode JIS X0213 (JIS2004) 11233文字 JIS X0208 (JIS90) 6879文字 サロゲート ペア文字 EBCDICでは他の 漢字と同様 1文字2バイトの コードになる その他 1506文字 V1に含まれる部分 V2に含まれる部分 JIS X0212 6067 文字 合成文字 X0213で追加されたX0212以外の文字 V1とV2の差(1074文字)は、 ほとんどこの部分 UDC (外字) 6205文字 サロゲート・ペアの文字 合成文字はここに含まれる 930/939 1390/1399 V1 1390/1399 V2 1992年11月版 1999年3月版 2002年11月版 JIS X0212 6067文字 280 ○ ○ JIS X0208 6879文字 ○ 以下に含まれる 以下に含まれる JIS X0213 11233文字 × 10159 ○ JISX0212,X0213以外の ○ ○ ○ × ○ ○ 4370 ○ ○ IBM選定文字 34文字 その他 UDC(外字) 28 1472文字 6205文字 © 2010 IBM Corporation 3.参考文献 29 © 2010 IBM Corporation 参考文献 「JIS漢字字典」 日本規格協会 芝野耕司 編著 JIS X 0213:2004 / Unicode 実装ガイド http://www.microsoft.com/japan/windows/products/windowsvista/jp_font/default.mspx シフトJIS X 0213文字一覧 http://www.eonet.ne.jp/~kotobukispace/ddt/jisx0213/sjis8xxx.html 第3水準漢字一覧 http://www.itscj.ipsj.or.jp/ISO-IR/233.pdf 第4水準漢字一覧 http://www.itscj.ipsj.or.jp/ISO-IR/229.pdf 30 © 2010 IBM Corporation End 31 © 2010 IBM Corporation