« Footballing Midweekers | ホーム | 飲みましたよ »
2006年11月27日
Vistaが来たりて文字を書く
そうだ。文字符号においては8ビット即ち「バイト」じゃなくて「オクテット」と呼ぶべきなんでしたよね。いかんす忘れていましたよ。
http://itpro.nikkeibp.co.jp/article/NEWS/20061122/254691/
日本語文字セットがVista最大の問題として急浮上 [ITpro]
自分自身覚えてること思い出しながら並行してぐぐりながらではありますが:
- そもそも字形(グリフ)の変更と新字の追加は話題としてまず最初から分離しましょうよ。
- 「追加される新しい文字の一部をUnicodeで表現すると、通常の2バイトではなく4バイトで表現」この記事おそらく最も意味不明なところ。Unicodeはずいぶん前から多バイト(オクテット)文字集合なんですけど。
- あと文字符号が何ぼだろうとエンコーディングが何になるか分かんないとどーとも言えないんですけどね。今までだってUTF-8使ってれば平気で3バイト(オクテット)でばんばん届いてたりするわけだし。
- 新字対応は確かに厄介なんで、対応する必要ありますよね。プリンタにフォントインストールするとか、方法がないわけじゃないと思いますけど。
- 「カラムの長さを固定しているデータベースに、4バイト文字を登録するようなケース」…うーん、たとえば確かMySQL 5.xなんかだと文字列カラムはバイト数じゃなく文字数を使うようになったDBもあるし、Oracleとかはよく知らないけどそこは何とも言えないなあ。それでも何割かはそうしたケースに当てはまる?かな?そんときゃUnicode使うのに2バイトを当て込んだ担当者の不明を罵るか、不運を嘆くしかないかと。
- SJISで送り込んでたら4バイトにはならないし、まぁそれでいんぢゃね?
- つかフロントエンドで「はねる」とか、そもそもあまり期待しないほうがいいんじゃないかと。従来のC/SとWebUIの世界だとそれぞれまた前提が違ってくるだろうけど。
- 記事中、4バイト(オクテット)になりうるのはUnicodeであってSJISもとは一言も言ってないが、「2バイトで表現できない文字は、JISの第三水準、第四水準の文字の一部なので」…と来ると一瞬あれ?と思ってしまうじゃないですか。おい。いいのかよ。
うーむ。書いてて俺自身よく分かんなくなってきた。日経のこの記事がおかしいことは分かるんだが、どこまでおかしいかがいまひとつ分からないや(苦笑)。やっぱ一度復習しよ。
トラックバック(0)
トラックバックURL: http://foursics.jp/cgi-bin/mt/mt-tb.cgi/38
コメントする