UTF-FreeNAS中文网

admin 管理员组

文章数量: 887021

UTF

UTF-16、UTF-16BE、UTF-16LE编码方式的区别

文章分类:Java编程

Java代码

import java.io.IOException;
/**
* UTF-16BE: 16 位 UCS 转换格式，Big Endian（最低地址存放高位字节，符合人们的阅读习惯）字节顺序
* UTF-16LE: 16 位 UCS 转换格式，Little-endian（最高地址存放高位字节）字节顺序
* UTF-16: 16 位 UCS 转换格式，字节顺序（是高字节在前还是低字节在前）由流中的前两字节中字节顺序标记来确定
*
* UTF-16BE: FE FF 字节顺序标记
* UTF-16LE: FF FE 字节顺序标记
*/
public class Test {
public static void main(String[] args) throws IOException {
String str = "中" ;
//------------编码
//Java里使用的是UTF-16BE方式来存储数据的
System.out.println(Integer.toHexString(str.charAt(0 ) & 0x00FFFF | 0xFF0000 ).substring( 2 , 6 )
.toUpperCase());//4E2D
/*
* 进行编码时，因为 UTF-16 编码方式本身未指定字节顺序标记，所以默认使用 Big Endian 字节
* 顺序编码，并将 Big Endian 字节顺序标记写入到流中，所以流前面多了 FE FF 二字节的高字节
* 顺序标记
*/
System.out.println(byteToHex(str.getBytes("utf-16" ))); //FE FF 4E 2D
/*
* 进行编码时，UTF-16BE 和 UTF-16LE charset 不会将字节顺序标记写入到流中
* 即它们所编出的码每个字符只占二个字节，要注意的是解码时要使用同样的编码
* 方式，不然会出现问题乱码
*/
System.out.println(byteToHex(str.getBytes("utf-16BE" ))); //4E 2D
System.out.println(byteToHex(str.getBytes("utf-16LE" ))); //2D 4E
//使用 utf-16BE 对高字节序进行解码，忽略字节顺序标记，即不会将流前二字节内容看作字节序标记
System.out.println(new String( new byte []{ 0x4E , 0x2D }, "utf-16BE" )); // 中
//使用 utf-16LE 对低字节序进行解码，忽略字节顺序标记，即不会将流前二字节内容看作字节序标记
System.out.println(new String( new byte []{ 0x2D , 0x4E }, "utf-16LE" )); // 中
//------------解码
/*
* 使用 utf-16 进行解码时，会根据流前两字节内部来确定是低还是高字节顺序，如果流的前两字节
* 内部不是高字节序 FE FF，也不是低字节序 FF FE时，则默认使用高字节序方式来解码
*/
//因为0x4E,0x2D为“中”字的高字节表示，所以前面需要加上 FE FF 字节顺序标记来指示它
System.out.println(new String( new byte []{( byte ) 0xFE ,( byte ) 0xFF , 0x4E , 0x2D }, "utf-16" )); //中
//因为0x2D,0x4E为“中”字的低字节表示，所以前面需要加上 FF FE 字节顺序标记来指示它
System.out.println(new String( new byte []{( byte ) 0xFF ,( byte ) 0xFE , 0x2D , 0x4E ,}, "utf-16" )); //中
//使用默认高字节顺序方式来解码，
System.out.println(new String( new byte []{ 0x4E , 0x2D }, "utf-16" )); //中
//因为 0x2D,0x4E 为“中”的低字节序，但 utf-16 默认却是以高字节序来解的，所以出现乱码
System.out.println(new String( new byte []{ 0x2D , 0x4E ,}, "utf-16" )); //?
}
public static String byteToHex( byte [] bt) {
StringBuilder sb = new StringBuilder( 4 );
for ( int b : bt) {
sb.append(Integer.toHexString(b & 0x00FF | 0xFF00 ).substring( 2 , 4 )
.toUpperCase());
sb.append(" " );
}
return sb.toString();
}
}

import java.io.IOException;/*** UTF-16BE: 16 位 UCS 转换格式，Big Endian（最低地址存放高位字节，符合人们的阅读习惯）字节顺序 * UTF-16LE: 16 位 UCS 转换格式，Little-endian（最高地址存放高位字节）字节顺序 * UTF-16: 16 位 UCS 转换格式，字节顺序（是高字节在前还是低字节在前）由流中的前两字节中字节顺序标记来确定* * UTF-16BE: FE FF 字节顺序标记* UTF-16LE: FF FE 字节顺序标记*/
public class Test {public static void main(String[] args) throws IOException {String str = "中";//------------编码//Java里使用的是UTF-16BE方式来存储数据的System.out.println(Integer.toHexString(str.charAt(0) & 0x00FFFF | 0xFF0000).substring(2, 6).toUpperCase());//4E2D/** 进行编码时，因为 UTF-16 编码方式本身未指定字节顺序标记，所以默认使用 Big Endian 字节* 顺序编码，并将 Big Endian 字节顺序标记写入到流中，所以流前面多了 FE FF 二字节的高字节* 顺序标记*/System.out.println(byteToHex(str.getBytes("utf-16")));//FE FF 4E 2D /** 进行编码时，UTF-16BE 和 UTF-16LE charset 不会将字节顺序标记写入到流中* 即它们所编出的码每个字符只占二个字节，要注意的是解码时要使用同样的编码* 方式，不然会出现问题乱码*/System.out.println(byteToHex(str.getBytes("utf-16BE")));//4E 2D System.out.println(byteToHex(str.getBytes("utf-16LE")));//2D 4E //使用 utf-16BE 对高字节序进行解码，忽略字节顺序标记，即不会将流前二字节内容看作字节序标记System.out.println(new String(new byte[]{0x4E,0x2D},"utf-16BE"));// 中//使用 utf-16LE 对低字节序进行解码，忽略字节顺序标记，即不会将流前二字节内容看作字节序标记System.out.println(new String(new byte[]{0x2D,0x4E},"utf-16LE"));// 中//------------解码/** 使用 utf-16 进行解码时，会根据流前两字节内部来确定是低还是高字节顺序，如果流的前两字节* 内部不是 高字节序 FE FF，也不是低字节序 FF FE时，则默认使用 高字节序 方式来解码*///因为0x4E,0x2D为“中”字的高字节表示，所以前面需要加上 FE FF 字节顺序标记来指示它System.out.println(new String(new byte[]{(byte) 0xFE,(byte) 0xFF,0x4E,0x2D},"utf-16"));//中//因为0x2D,0x4E为“中”字的低字节表示，所以前面需要加上 FF FE 字节顺序标记来指示它System.out.println(new String(new byte[]{(byte) 0xFF,(byte) 0xFE,0x2D,0x4E,},"utf-16"));//中//使用默认 高字节顺序 方式来解码，		 	System.out.println(new String(new byte[]{0x4E,0x2D},"utf-16"));//中//因为 0x2D,0x4E 为“中”的低字节序，但 utf-16 默认却是以 高字节序来解的，所以出现乱码System.out.println(new String(new byte[]{0x2D,0x4E,},"utf-16"));//? }public static String byteToHex(byte[] bt) {StringBuilder sb = new StringBuilder(4);for (int b : bt) {sb.append(Integer.toHexString(b & 0x00FF | 0xFF00).substring(2, 4).toUpperCase());sb.append(" ");}return sb.toString();}
}

注，只有UTF-16，即只有使用Unicode编码存储或传递时，才涉及到高字节还是低字节序的问题，UTF-8一般是没有字节序的概念的，因为utf-8编码本身中就已含有了编解码转换方式了。

本文标签： UTF

版权声明：本文标题：UTF 内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1686633783h19801.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

技术交流 – FreeNAS中文网

UTF

UTF

UTF-16、UTF-16BE、UTF-16LE编码方式的区别

更多相关文章

UTF

中文字符编码之GBK,UTF

win7下载cmd中设置字符集位UTF-8

win7环境压缩文件utf-8编码压缩

Windows 7 中文版命令行如何修改字符编码为UTF-8？

发表评论

推荐文章

base64编码解码中的问题及思考

部署K8S集群

笔记本电脑使用经验之重装系统

便签存储在哪个文件夹,Windows 7便笺保存位置

WINDOWS系统中，文件名不能包含下列任何字符

热门文章

Ventory-u盘启动制作工具：让你的Ubuntu之旅更加顺畅

win7不能在本地计算机启动防火墙,Win7防火墙启动不了的原因及解决办法

开发微信支付

从零搭建若依(Ruoyi

5、Factory Mehod工厂方法模式（创建型模式）

uoj #152. 【UR #10】汉诺塔

windows11升级专业版

【大模型】ChatGPT API key 获取到代码集成使用详解

通过SSH远程登录Windows电脑的详细指南

【Tableau Desktop 企业日常技巧12】Tableau安装版本要求和配置信息

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

Windows7 系统安全设置权限技巧

（Windows系统）详细介绍Windows系统含有英文版

最新Windows 11教育版下载：专为教育设计的系统！

Win7系统下搭建NFS服务器

零基础使用UltraISO制作并安装纯净Win10系统指南

技术交流 – FreeNAS中文网

UTF

UTF

UTF-16、UTF-16BE、UTF-16LE编码方式的区别

更多相关文章

UTF

中文字符编码之GBK,UTF

win7下载cmd中设置字符集位UTF-8

win7环境压缩文件utf-8编码压缩

Windows 7 中文版命令行如何修改字符编码为UTF-8？

发表评论

推荐文章

base64编码解码中的问题及思考

部署K8S集群

笔记本电脑使用经验之重装系统

便签存储在哪个文件夹,Windows 7便笺保存位置

WINDOWS系统中，文件名不能包含下列任何字符

热门文章

Ventory-u盘启动制作工具：让你的Ubuntu之旅更加顺畅

win7不能在本地计算机启动防火墙,Win7防火墙启动不了的原因及解决办法

开发微信支付

从零搭建若依(Ruoyi

5、Factory Mehod工厂方法模式（创建型模式）

uoj #152. 【UR #10】汉诺塔

windows11升级专业版

【大模型】ChatGPT API key 获取到代码集成使用详解

通过SSH远程登录Windows电脑的详细指南

【Tableau Desktop 企业日常技巧12】Tableau安装版本要求和配置 信息

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

Windows7 系统安全设置权限技巧

（Windows系统）详细介绍Windows系统 含有英文版

最新Windows 11教育版下载：专为教育设计的系统！

Win7系统下搭建NFS服务器

零基础使用UltraISO制作并安装纯净Win10系统指南

【Tableau Desktop 企业日常技巧12】Tableau安装版本要求和配置信息

（Windows系统）详细介绍Windows系统含有英文版