| GB18030编码方式 |
发信人: baptist (Saint), 信区: Programming q8Vlqx http://blog.numino.net/ 标 题: Re: 看了看GB18030,是人是鬼还是神? qjd06r http://blog.numino.net/ 发信站: 水木社区 (Thu Mar 5 04:07:19 2020), 站内 P61jf5 http://blog.numino.net/ Q4J4en http://blog.numino.net/ 我知道了。 fQyCZh http://blog.numino.net/ 在 gb18030 编码里面,“我” (0xced2) 是硬编码的,和 U+6211 没有 0ES9Jr http://blog.numino.net/ 任何关系。 Y2w5Es http://blog.numino.net/ efuS16 http://blog.numino.net/ gb18030 双字节2区里面,最常用的先按拼音排序;较常用的再按笔画排序。 83bPJq http://blog.numino.net/ (0xb0a1-0xd7f9) (0xd8a1-0xf7fe) 7R1s91 http://blog.numino.net/ “我”之所以是 0xced2 是因为它在双字节2区里面刚好排在了这个位置。 lk3555 http://blog.numino.net/ (0xce page, d2 position) p03uJN http://blog.numino.net/ 9pyEzD http://blog.numino.net/ 其他区的汉字应该也是按笔画排序的(至少双字节3区里面是的)。 X96f10 http://blog.numino.net/ ebCM3z http://blog.numino.net/ Unicode 汉字的排列应该是(部分)按照笔画多少来排的: kd093z http://blog.numino.net/ 4roc0u http://blog.numino.net/ .0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F gXU2BW http://blog.numino.net/ 620. 戀 戁 戂 戃 戄 戅 戆 戇 戈 戉 戊 戋 戌 戍 戎 戏 T5vEJw http://blog.numino.net/ 621. 成 我 戒 戓 戔 戕 或 戗 战 戙 戚 戛 戜 戝 戞 戟 TXb9hT http://blog.numino.net/ 622. 戠 戡 戢 戣 戤 戥 戦 戧 戨 戩 截 戫 戬 戭 戮 戯 hJb9FI http://blog.numino.net/ 623. 戰 戱 戲 戳 戴 戵 戶 户 戸 戹 戺 戻 戼 戽 戾 房 QDKtV2 http://blog.numino.net/ 624. 所 扁 扂 扃 扄 扅 扆 扇 扈 扉 扊 手 扌 才 扎 扏 3Yve4I http://blog.numino.net/ 625. 扐 扑 扒 打 扔 払 扖 扗 托 扙 扚 扛 扜 扝 扞 扟 ys89Hj http://blog.numino.net/ 626. 扠 扡 扢 扣 扤 扥 扦 执 扨 扩 扪 扫 扬 扭 扮 扯 giAY24 http://blog.numino.net/ 627. 扰 扱 扲 扳 扴 扵 扶 扷 扸 批 扺 扻 扼 扽 找 承 ww56q4 http://blog.numino.net/ 628. 技 抁 抂 抃 抄 抅 抆 抇 抈 抉 把 抋 抌 抍 抎 抏 gSY7kW http://blog.numino.net/ 629. 抐 抑 抒 抓 抔 投 抖 抗 折 抙 抚 抛 抜 抝 択 抟 l2P9hT http://blog.numino.net/ 62A. 抠 抡 抢 抣 护 报 抦 抧 抨 抩 抪 披 抬 抭 抮 抯 lbMI6T http://blog.numino.net/ 62B. 抰 抱 抲 抳 抴 抵 抶 抷 抸 抹 抺 抻 押 抽 抾 抿 np7BZU http://blog.numino.net/ 62C. 拀 拁 拂 拃 拄 担 拆 拇 拈 拉 拊 拋 拌 拍 拎 拏 i3EO4C http://blog.numino.net/ 62D. 拐 拑 拒 拓 拔 拕 拖 拗 拘 拙 拚 招 拜 拝 拞 拟 uJ9tzz http://blog.numino.net/ 62E. 拠 拡 拢 拣 拤 拥 拦 拧 拨 择 拪 拫 括 拭 拮 拯 0cYmMg http://blog.numino.net/ 62F. 拰 拱 拲 拳 拴 拵 拶 拷 拸 拹 拺 拻 拼 拽 拾 拿 Ozwf25 http://blog.numino.net/ 5Fq53k http://blog.numino.net/ 6h912f http://blog.numino.net/ src: 4qnSMR http://blog.numino.net/ gb18030-2000, p. 24 (“我” 的 gb18030 编码) JUUb60 http://blog.numino.net/ gb13000-2010, p. 494 (“我” 的 gb2312 编码和它在 unicode 里面的 codepoint) 4E3m9I http://blog.numino.net/ The Unicode Standard v12, chap. 18, KQjT72 http://blog.numino.net/ ibid, appendix E, Han Unification History Ht3jmF http://blog.numino.net/ pQPLkN http://blog.numino.net/ 【 在 baptist (Saint) 的大作中提到: 】 79VFmB http://blog.numino.net/ 我错了。我不知道怎么从 unicode 得到 gb18030 的 encoding。 91SUWD http://blog.numino.net/ efzUdS http://blog.numino.net/ 比如“我”, 8VlEIe http://blog.numino.net/ unicode codepoint: U+6211 (01100001 10110111) vFapfU http://blog.numino.net/ 对应的 utf-8 encoding: 0x e6 88 91 (1110.0110 10.000110 10.110111) oS1KH1 http://blog.numino.net/ 对应的 utf-16 encoding: 0x 6211 (10110111 01100001, little endian) 5kE8tE http://blog.numino.net/ 如果我知道文件编码是 utf-8,我可以找到对应的 unicode codepoint. bul25w http://blog.numino.net/ sw01VL http://blog.numino.net/ gb18030中“我”的 encoding 是 0xced2, 对应的 gb13000(ucs2 ~= unicode) 3LG9x6 http://blog.numino.net/ 的 codepoint 也是 unicode codepoint U+6211。 H8ymLQ http://blog.numino.net/ XzTZWb http://blog.numino.net/ 但我不清楚 0xced2 是怎么从 U+6211 得到的。 2fymvp http://blog.numino.net/ nD7n4N http://blog.numino.net/ 你知道吗? zQIy5h http://blog.numino.net/ 46gkIz http://blog.numino.net/ 4a1kl6 http://blog.numino.net/ 【 在 Bernstein (Berns) 的大作中提到: 】 O5OBDT http://blog.numino.net/ : 你理解错了,先去看看资料吧; ilLuED http://blog.numino.net/ : 我至少了解 4A7GQf http://blog.numino.net/ 4tw4bL http://blog.numino.net/ IP3q8n http://blog.numino.net/ -- 925axd http://blog.numino.net/ 9KA3Gz http://blog.numino.net/ T8udHI http://blog.numino.net/ cPT65P http://blog.numino.net/ -- aDaCd2 http://blog.numino.net/ h35J4A http://blog.numino.net/ ※ 来源:·水木社区 newsmth.net·[FROM: 114.246.87.*]
|
|