更多相关内容...>>GB18030编码方式
GB18030编码方式
发信人: baptist (Saint), 信区: Programming
mk8V2a http://blog.numino.net/
标 题: Re: 看了看GB18030,是人是鬼还是神?
7psOED http://blog.numino.net/
发信站: 水木社区 (Thu Mar 5 04:07:19 2020), 站内
I688Ri http://blog.numino.net/

W4R8BX http://blog.numino.net/
我知道了。
9MP36q http://blog.numino.net/
在 gb18030 编码里面,“我” (0xced2) 是硬编码的,和 U+6211 没有
35QJwT http://blog.numino.net/
任何关系。
2hz512 http://blog.numino.net/

mtMG8M http://blog.numino.net/
gb18030 双字节2区里面,最常用的先按拼音排序;较常用的再按笔画排序。
0089rf http://blog.numino.net/
(0xb0a1-0xd7f9) (0xd8a1-0xf7fe)
trjo94 http://blog.numino.net/
“我”之所以是 0xced2 是因为它在双字节2区里面刚好排在了这个位置。
7D6sDi http://blog.numino.net/
(0xce page, d2 position)
ezCNL6 http://blog.numino.net/

H4arx6 http://blog.numino.net/
其他区的汉字应该也是按笔画排序的(至少双字节3区里面是的)。
4b3wGg http://blog.numino.net/

AkNPms http://blog.numino.net/
Unicode 汉字的排列应该是(部分)按照笔画多少来排的:
0lzH7X http://blog.numino.net/

y3wqg4 http://blog.numino.net/
.0 .1 .2 .3 .4 .5 .6 .7 .8 .9 .A .B .C .D .E .F
7te0xt http://blog.numino.net/
620. 戀 戁 戂 戃 戄 戅 戆 戇 戈 戉 戊 戋 戌 戍 戎 戏
qCsfeC http://blog.numino.net/
621. 成 我 戒 戓 戔 戕 或 戗 战 戙 戚 戛 戜 戝 戞 戟
13MLfU http://blog.numino.net/
622. 戠 戡 戢 戣 戤 戥 戦 戧 戨 戩 截 戫 戬 戭 戮 戯
WI7UY3 http://blog.numino.net/
623. 戰 戱 戲 戳 戴 戵 戶 户 戸 戹 戺 戻 戼 戽 戾 房
G0j77b http://blog.numino.net/
624. 所 扁 扂 扃 扄 扅 扆 扇 扈 扉 扊 手 扌 才 扎 扏
uD56kA http://blog.numino.net/
625. 扐 扑 扒 打 扔 払 扖 扗 托 扙 扚 扛 扜 扝 扞 扟
0nW2L5 http://blog.numino.net/
626. 扠 扡 扢 扣 扤 扥 扦 执 扨 扩 扪 扫 扬 扭 扮 扯
8WlbYv http://blog.numino.net/
627. 扰 扱 扲 扳 扴 扵 扶 扷 扸 批 扺 扻 扼 扽 找 承
Lw19f7 http://blog.numino.net/
628. 技 抁 抂 抃 抄 抅 抆 抇 抈 抉 把 抋 抌 抍 抎 抏
nyR0RH http://blog.numino.net/
629. 抐 抑 抒 抓 抔 投 抖 抗 折 抙 抚 抛 抜 抝 択 抟
fZ5I23 http://blog.numino.net/
62A. 抠 抡 抢 抣 护 报 抦 抧 抨 抩 抪 披 抬 抭 抮 抯
354TeQ http://blog.numino.net/
62B. 抰 抱 抲 抳 抴 抵 抶 抷 抸 抹 抺 抻 押 抽 抾 抿
7NV1XJ http://blog.numino.net/
62C. 拀 拁 拂 拃 拄 担 拆 拇 拈 拉 拊 拋 拌 拍 拎 拏
lC9z27 http://blog.numino.net/
62D. 拐 拑 拒 拓 拔 拕 拖 拗 拘 拙 拚 招 拜 拝 拞 拟
rdwZ3M http://blog.numino.net/
62E. 拠 拡 拢 拣 拤 拥 拦 拧 拨 择 拪 拫 括 拭 拮 拯
4n4Is9 http://blog.numino.net/
62F. 拰 拱 拲 拳 拴 拵 拶 拷 拸 拹 拺 拻 拼 拽 拾 拿
xuPPoq http://blog.numino.net/

G90Oab http://blog.numino.net/

fUVQ7S http://blog.numino.net/
src:
qBBdYh http://blog.numino.net/
gb18030-2000, p. 24 (“我” 的 gb18030 编码)
5p6xsB http://blog.numino.net/
gb13000-2010, p. 494 (“我” 的 gb2312 编码和它在 unicode 里面的 codepoint)
4x04XC http://blog.numino.net/
The Unicode Standard v12, chap. 18,
tc10Zr http://blog.numino.net/
ibid, appendix E, Han Unification History
w87gx6 http://blog.numino.net/

6n7tMR http://blog.numino.net/
【 在 baptist (Saint) 的大作中提到: 】
ic7q35 http://blog.numino.net/
我错了。我不知道怎么从 unicode 得到 gb18030 的 encoding。
pBt7b0 http://blog.numino.net/

l32GpH http://blog.numino.net/
比如“我”,
dToHYv http://blog.numino.net/
unicode codepoint: U+6211 (01100001 10110111)
E5f0ii http://blog.numino.net/
对应的 utf-8 encoding: 0x e6 88 91 (1110.0110 10.000110 10.110111)
C5xg6S http://blog.numino.net/
对应的 utf-16 encoding: 0x 6211 (10110111 01100001, little endian)
eDNsWR http://blog.numino.net/
如果我知道文件编码是 utf-8,我可以找到对应的 unicode codepoint.
9ZgS6g http://blog.numino.net/

chxcft http://blog.numino.net/
gb18030中“我”的 encoding 是 0xced2, 对应的 gb13000(ucs2 ~= unicode)
mJ2dJH http://blog.numino.net/
的 codepoint 也是 unicode codepoint U+6211。
584qAd http://blog.numino.net/

k793o5 http://blog.numino.net/
但我不清楚 0xced2 是怎么从 U+6211 得到的。
3AL2C5 http://blog.numino.net/

85aO2f http://blog.numino.net/
你知道吗?
bre4dQ http://blog.numino.net/

chhrz1 http://blog.numino.net/

i8Ct60 http://blog.numino.net/
【 在 Bernstein (Berns) 的大作中提到: 】
bp7a65 http://blog.numino.net/
: 你理解错了,先去看看资料吧;
SnhrTH http://blog.numino.net/
: 我至少了解
D1KQI2 http://blog.numino.net/

AWrH9r http://blog.numino.net/

p8Q3Fd http://blog.numino.net/
--
pq334G http://blog.numino.net/

YyBh1c http://blog.numino.net/

a0Ll4o http://blog.numino.net/

2K77fH http://blog.numino.net/
--
306kbt http://blog.numino.net/

J390yq http://blog.numino.net/
※ 来源:·水木社区 newsmth.net·[FROM: 114.246.87.*]
更多相关内容...>>GB18030编码方式

Bug报告 |  免责声明 |  联系我们 |  加入收藏

Copyright © 2006 NuminoStudio(www.numino.net) All Rights Reserved