关于UTF8,UTF16,UTF32,UTF16-FreeNAS中文网

admin 管理员组

文章数量: 887021

关于UTF8,UTF16,UTF32,UTF16

        Unicode是Unicode.org制定的编码标准，目前得到了绝大部分操作系统和编程语言的支持。Unicode.org官方对Unicode的定义是：Unicode provides a unique number for every character。可见，Unicode所做的是为每个字符定义了一个相应的数字表示。比如，“a“的Unicode值是0x0061,“一”的Unicde值是0x4E00，这是最简单的情况，每个字符用2个字节表示。

        Unicode.org定义了百万个以上的字符，如果将所有的字符用统一的格式表示，需要的是4个字节。“a“的Unicode表示就会变成0x00000061，而“一“的Unicode值是0x00004E00。实际上，这就是UTF32，Linux操作系统上所使用的Unicode方案。

        但是，仔细分析可以发现，其实绝大部分字符只使用2个字节就可以表示了。英文的Unicode范围是0x0000-0x007F，中文的Unicode范围是0x4E00-0x9F**，真正需要扩展到4个字节来表示的字符少之又少，所以有些系统直接使用2个字节来表示Unicode。比如Windows系统上，Unicode就是两个字节的。对于那些需要4个字节才能表示的字符，使用一种代理的手法来扩展(其实就是在低两个字节上做一个标记，表示这是一个代理，需要连接上随后的两个字节，才能组成一个字符)。这样的好处是大量的节约了存取空间，也提高了处理的速度。这种Unicode表示方法就是UTF16。一般在Windows平台上，提到Unicode,那就是指UTF16了。

        至于UTF16-LE和UTF16-BE，与计算机的CPU构架有关。LE指Little Endian，而BE指Big Endian。关于这方面的信息，网上有很多相关的帖子。我们一般的X86系统都是Little Endian的，可以认为UTF16=UTF16-LE.

        由于对于欧洲和北美，实际上使用的编码范围在0x0000-0x00FF之间，只需要一个字符就可以表示所有的字符。即使是使用UTF16来作为内存的存取方式，还是会带来巨大的空间浪费，因此就有了UTF8的编码方式。这是一种很灵活的编码，对于只需要1个字节的字符，就使用一个字节，对于中日韩等原本需要两个字节才能表示的字符，则通过一个UTF16－UTF8的算法实现相互之间的转换（一般需要3个字节才能表示），而对于需要4个字节才能表示的字符，UTF8可以扩展到6个字节每个字符。UTF8使用的算法很有意思，大致映射关系如下：
        UTF-32                                    UTF8
        0x00000000 - 0x0000007F          0xxxxxxx
         0x00000080 - 0x000007FF           110xxxxx 10xxxxxx
         0x00000800 - 0x0000FFFF          1110xxxx 10xxxxxx 10xxxxxx
         0x00010000 - 0x001FFFFF          11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
         0x00200000 - 0x03FFFFFF          111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
         0x04000000 - 0x7FFFFFFF          1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
        可以发现这和IP的分址算法很是相像。
        由于UTF8可以方便的转换为UTF16和UTF32（不需要码表，转换算法可以在Unicode.org上找到C代码）。而且UTF8在每个操作系统平台上的实现都是一样的，也不存在跨平台的问题，所以UTF8成为跨平台的Unicode很好的解决方案。当然，对于中文来说，由于每个字符需要3个字节才能表示，还是有点浪费的。

本文标签：关于UTF8 UTF16 UTF32

版权声明：本文标题：关于UTF8,UTF16,UTF32,UTF16 内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1686633852h19807.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

技术交流 – FreeNAS中文网

关于UTF8,UTF16,UTF32,UTF16

关于UTF8,UTF16,UTF32,UTF16

更多相关文章

关于UTF8,UTF16,UTF32,UTF16

大端小端,ascii,unicode,utf8,utf16,utf32,gb2312,gbk,gb18030等字符编码问题

发表评论

推荐文章

windows10系统下找不到相机

Windows下RabbitMQ安装以及启动发生系统错误 1067。进程意外终止解决办法

2017年的迷茫与悲痛

Windows 7 & Windows Server 2008 R2 简体中文版下载 (updated Oct 2024)

笔记本专用Win7系统下载推荐：四款装机旗舰版任选

热门文章

使用tab键分割的文章能快速转换成表格。( )_笔记本Win10的几个功能与键盘的使用技巧你知道多少？...

解锁 Android 手机 - 如何解锁 Android 手机？

UR#34. 多项式乘法

以下哪个设备不是计算机网络硬件,以下哪个设备不是计算机网络硬件？

mybatis中循环查询、插入语句

Windows10上安装离线Linux

崩溃时快速自动重新启动Windows程序

windows+python环境下安装xxx.tar.gz文件

使用U盘启动盘安装Ubuntu操作系统

如何挑选笔记本电脑？

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

Windows7 系统安全设置权限技巧

（Windows系统）详细介绍Windows系统含有英文版

最新Windows 11教育版下载：专为教育设计的系统！

Win7系统下搭建NFS服务器

零基础使用UltraISO制作并安装纯净Win10系统指南

技术交流 – FreeNAS中文网

关于UTF8,UTF16,UTF32,UTF16

关于UTF8,UTF16,UTF32,UTF16

更多相关文章

关于UTF8,UTF16,UTF32,UTF16

大端小端,ascii,unicode,utf8,utf16,utf32,gb2312,gbk,gb18030等字符编码问题

发表评论

推荐文章

windows10系统下找不到相机

Windows下RabbitMQ安装以及启动发生系统错误 1067。进程意外终止解决办法

2017年的迷茫与悲痛

Windows 7 &amp; Windows Server 2008 R2 简体中文版下载 (updated Oct 2024)

笔记本专用Win7系统下载推荐：四款装机旗舰版任选

热门文章

使用tab键分割的文章能快速转换成表格。( )_笔记本Win10的几个功能与键盘的使用技巧你知道多少？...

解锁 Android 手机 - 如何解锁 Android 手机？

UR#34. 多项式乘法

以下哪个设备不是计算机网络硬件,以下哪个设备不是计算机网络硬件？

mybatis中循环查询、插入语句

Windows10上安装离线Linux

崩溃时快速自动重新启动Windows程序

windows+python环境下安装xxx.tar.gz文件

使用U盘启动盘安装Ubuntu操作系统

如何挑选笔记本电脑？

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

Windows7 系统安全设置权限技巧

（Windows系统）详细介绍Windows系统 含有英文版

最新Windows 11教育版下载：专为教育设计的系统！

Win7系统下搭建NFS服务器

零基础使用UltraISO制作并安装纯净Win10系统指南

Windows 7 & Windows Server 2008 R2 简体中文版下载 (updated Oct 2024)

（Windows系统）详细介绍Windows系统含有英文版