admin 管理员组

文章数量: 887021


2024年1月23日发(作者:springcloud微服务项目)

汉字编码常用字符集

1. GB2312(国标2312)是中国国家标准,于1980年发布。它包含了6,763个常用汉字和682个非汉字图形字符,采用双字节编码方案。GB2312的字符编码范围是0xA1A1至0xFEFE,其中0xA1A1至0xA9FE是第一字节,0xA1至0xFE是第二字节。

2. GBK(国标扩展码)是GB2312的扩展版本,于1995年发布。它兼容GB2312字符集,并新增了21,886个汉字和6,763个图形字符,总共包含了22,177个汉字。GBK采用双字节编码方案,字符编码范围是0x8140至0xFEFE,其中0x81至0xFE是第一字节,0x40至0xFE是第二字节。

3. GB18030(国标18030)是GB2312和GBK的进一步扩展,于2000年发布。它包含了70,244个汉字和图形字符,其中包括GB2312和GBK字符集的所有字符。GB18030采用单字节、双字节和四字节编码方案,字符编码范围是0x00至0x80、0x81至0xFE和0x81308130至0x8439FEFE。

4. Unicode是一种国际标准字符集,旨在统一全球范围内的字符编码。它包含了几乎所有的语言字符,包括汉字。Unicode采用

不同的编码方案,常见的有UTF-8、UTF-16和UTF-32。其中,UTF-8是一种变长编码方案,可以表示Unicode字符集中的任意字符,它在表示ASCII字符时只使用一个字节,而表示非ASCII字符时使用多个字节。

总结起来,汉字编码常用字符集包括GB2312、GBK、GB18030和Unicode。GB2312和GBK是双字节编码方案,而GB18030则采用了单字节、双字节和四字节编码方案。Unicode是一种国际标准字符集,采用不同的编码方案,其中UTF-8是最常用的编码方案之一。这些字符集的出现,使得汉字能够在计算机系统中得到正确的表示和处理。


本文标签: 字符 字符集 字节 编码方案 采用