半角カナが通るようになって以来やっていなかった多言語対応テスト

去年の10月に試した時は

  • Firefoxで見ると正常に読める
  • IEで見ると文字化け

という結果だった.その後 本文中で半角カナが使えるようになったことで 結果に何か変化はあるか.同じテキストを貼って試してみる.

拼音汉字转换

Google 运用智能软件系统对拼音关键词能进行自动中文转换并提供相应提示。例如:搜索“shang wu tong”, Google 能自动提示 “您是不是要找:商务通”。如果您点击“商务通”, Google 将以“商务通”作为关键词进行搜索。对于拼音和中文混和关键词, 系统也能做有效转换。对于拼音“lü”, “lüe”, “nü” 或 “nüe”,您可输入 “lv”, “lve”, “nv” 或 “nve”。如果拼音中没有空格,例如 “shangwutong”,Google 也会做相应处理,但是在多个拼音中加空格能提高转换准确率和速度。

……. 前 よ り ひ ど く な っ て る.

これだけだと FirefoxIEも使ってない人には何の話だか分からんだろうから,画面をキャプチャしたのを貼っておくぞ.

hatenadiary_gb_20051011 こっちが昨年10月のテスト結果で,

hatenadiary_gb_20060205 こっちが たった今テストした結果.

まぁどっちも支那語として読むにはアンマリな水準.

今此処までしか分からない

  1. GB2312には上位バイトが0xA1〜0xDFにある文字がザラにある.これがどこかの段階で半角カナとして扱われるから文字化けが起きる
  2. 同じ頁をFirefoxで表示した時には文字化けは起きないわけだから,サーバ側に保存されている文書中でデータの欠損や混入が起きているわけではない
  3. そもそも既に入力済みの文書を後で編輯しようとすると,GBにしか無い文字は全て数字実体参照になっている*1わけだから,この段階では「上位バイトが0xA1〜0xDFに」もへったくれも無い
  4. ということは,文字化けが起きるのは,EUC-JPの文書を表示する際に 数字実体参照されている文字をバイトコードに戻した後の IEの処理の仕方の拙さのせいだ
  5. 同じく数字実体参照されるハングルの場合にはこうした文字化けが全くといってよいほど見られない*2のは一体どういう訳だろう
  6. ちなみに,上で図示した文字化けの仕方は IEのフォント設定如何に依らない

*1:つまりサーバ側ではそういう保存の仕方をしている筈.

*2:少なくとも私ははてなダイアリー上ではお目に掛かっていない.IEを使う機会が殆ど無いからかも知れないが.