常用编码方式及其格式转换-FreeNAS中文网

admin 管理员组

文章数量: 887021

2023年12月17日发(作者：简述seaborn的优势)

计算机时代２０１２年第１期　・　３３　・　常用编码方式及其格式转换　冯灵清，杨怀卿，刘宇晶　（山西农业大学，山西太谷０３０８０１）　摘要：由于存在着多种编码方式，在进行信息处理时，经常需要在不同编码方式之间进行转换。为此，对ＡＳＣＩＩ码、　ＧＢＫ码、Ｕｎｉｃｏｄｅ码以及这三种编码方式之间的转换进行了介绍，并给出了具体实现转换的流程图和部分代码。　关键词：ＡＳＣＩＩ；ＧＢＫ；Ｕｎｉｃｏｄｅ；格式转换　中图分类号：ＴＰ３９１．１１　文献标志码：Ａ　文章编号：１００６—８２２８（２０１２）０１—３３—０３　Ｃｏｍｍｏｎ　ｃｏｄｉｎｇ　ｍｅｔｈｏｄｓ　ａｎｄ　ｆｏｒｍａｔ　ｃｏｎｖｅｒｓｉｏｎ　Ｆｅｎｇ　Ｌｉｎｇｑｉｎｇ，Ｙａｎｇ　Ｈｕａｉｑｉｎｇ，Ｌｉｕ　Ｙｕｊｉｎｇ　（Ｓｈａｎｘｉ　Ａｇｒｉｃｕｌｔｕｒａｌ　Ｕｎｉｖｅｒｓｉｔｙ，Ｔａｉｇｕ，Ｓｈａｎｘｉ　０３０８０１，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：Ｂｅｃａｕｓｅ　ｔｈｅｒｅ　ａｒｅ　ｍａｎｙ　ｅｎｃｏｄｉｎｇ　ｍｅｔｈｏｄｓ，ｔｈｅ　ｃｏｎｖｅｒｓｉｏｎ　ｂｅｔｗｅｅｎ　ｄｉｆｅｒｅｎｔ　ｅｎｃｏｄｉｎｇ　ｍｅｔｈｏｄｓ　ｉｓ　ｏｆｔｅｎ　ｎｅｅｄｅｄ　ｉｎ　ｉｎｆｏｒｍａｔｉｏｎ　ｐｒｏｃｅｓｓｉｎｇ．Ｆｏｒ　ｔｈｉｓ　ｒｅａｓｏｎ，ｗｅ　ｄｅｓｃｒｉｂｅ　ＡＳＣＩＩ，ＧＢＫ　ａｎｄ　Ｕｎｉｃｏｄｅ，ａｓ　ｗｅｌｌ　ａｓ　ｔｈｅ　ｃｏｎｖｅｒｓｉｏｎ　ｂｅｔｗｅｅｎ　ｔｈｅ　ｔｈｒｅｅ　ｅｎｃｏｄｉｎｇ，ａｎｄ　ｇｉｖｅ　ｔｈｅ　ｆｌｏｗ　ｄｉａｇｒａｍｓ　ａｎｄ　ｐａｒｔｓ　ｏｆ　ｔｈｅ　ｃｏｄｅ　ｔｏ　ｒｅａｌｉｚｅ　ｔｈｅ　ｃｏｎｖｅｒｓｉｏｎ．　Ｋｅｙ　ｗｏｒｄｓ：ＡＳＣＩＩ；ＧＢＫ；Ｕｎｉｃｏｄｅ；ｆｏｒｍａｔ　ｃｏｎｖｅｒｓｉｏｎ　０引言　随着信息技术的不断发展，不同信息平台之间的信息交流　量越来越大，在接受来自不同平台的信息的平台上打开文本文　时出现乱码。　１常用编码方式　１．１　ＡＳＣｌｌ码　件，会出现乱码或者是无法读取的现象，因为不同信息平台会　使用不同的字符编码方式。　ＡＳＣＩＩ码（Ａｍｅｒｉｃａｎ　Ｓｔａｎｄａｒｄ　Ｃｏｄｅ　ｆｏｒ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｉｎｔｅｒｃｈａｎｇｅ），全称叫美国国家信息交换标准码，于１９６８年提　出，被国际标准化组织（ｉｓｏ）￣定为国际标准。ＡＳＣＩＩ码使用　都是以二进制编码方式存储和计算的。我们若把硬盘拆开会　七位二进制数表示一个字符，这样可以表示出１２８个字符。其　看到一些盘片，用显微镜把盘片的每一处放大，可以看到盘片　中包含了英文的大小写字母、数字、标点符号等常用的字符，数　表面凹凸不平，其凸起的地方是被磁化的，凹的地方是没有被　字代号从０至１２７。　磁化的；凸起的地方代表数字ｌ，凹的地方代表数字０。硬盘只　ＡＳＣＩＩ码常常被用于输入输出设备，比如键盘的输入，显示　能用０和ｌ来表示所有文字、图片等信息。就文字来说，由于文　器和打印机输出等。从键盘输入字符信息时，编码便会将字符　字中存在着大量的重复字符，而计算机是用来处理数字的，我们　转换成ＡＳＣＩＩ码输入计算机内部，计算机处理后再将ＡＳＣＩＩ码　可以用一个数字编码来表示每一个字符，对每一个字符规定一　表示的数据转换成对应字符在显示器或打印机上输出。大多　个惟一的数字代号，对应每一个代号，就可建立其相对应的图　数的小型机和全部的个人计算机都使用此码。　形。这样，在每一个文件中，我们只需要保存每一个字符的编　但是，ＡＳＣＩＩ码能有效的解决西文文字的信息化问题，但对　码就相当于保存了文字；在需要显示的时候，先取得保存起来　于汉字字符却完全不适用。为了满足国内计算机使用汉字的　的编码，然后通过编码表，查到字符对应的图形，然后将这个图　需要，中国国家标准总局发布了一系列的汉字字符集国家标准　形显示出来，这样我们就可以看到文字了。这些用来规定每一　编码，统称为ＧＢ码，或国标码。　个字符所使用的代码的表格，就称为编码表。编码就是对我们　１．２　ＧＢＫ码　１３常使用字符的一种数字编号。计算机中常用的西文字符编　针对汉字，中国的标准化组织出台了ＧＢ２３１２简体中文编　码有ＡＳＣＩＩ码（美国标准信息交换码），汉字字符编码有　码，目前我们常用的汉字编码一般采用的就是ＧＢ２３１２，但是这　Ｕｎｉｃｏｄｅ，ＧＢＫ等。由于存在着多种编码方式，同一个二进制数　个标准里只包含了６７６３个汉字。ＧＢＫ是我们国家制定的汉字　字在不同的编码方式下就代表着不同的字符。因此，要想显示　编码字符集，向下兼容了ＧＢ２３１２还进行了补充，容纳的汉字可　个汉字字符，不但要知道它的编码方式，还要有对应编码表，　达２２０１４个，几乎包含了全部的中文字符。ＧＢＫ编码中不论英　并在不同编码方式之间进行转换，否则就可能无法读取或读取　文还是汉字都是采用两个字节来表示，为了区分中英文将中文　一我们在显示器上看到的文字、数字、图片等信息在电脑里　收稿日期：２０１１一ｌｌ—Ｏ７　作者简介：冯灵清（１９８３一），女，山西长治人，主要研究方向：计算机原理。　

・３４・　Ｃｏｍｐｕｔｅｒ　Ｅｒａ　Ｎｏ．１　２０１２　编码的最高位置为ｌ。但是这种编码方式仅仅在中国可以通　Ｕｎｉｃｏｄｅ编码对应不同长度的ｕＴＦ一８。所以只有先确定字符　用，在国外浏览网页或是打开文本时会出现无法打开或是出现乱　Ｕｎｉｃｏｄｅ编码所在的范围，然后才能确定用ＵＴＦ－８字节流中的　码的睛况，因为在国外没有ＧＢＫ的编码表。　几个字节去编码，再将字符的编码写成二进制的形式，将每一　ＡＳＣＩＩ码不能处理大多数其他语言的字符，ＧＢＫ也只能用　位依次填充图１中的ｘ。图的ｕＴＦ一８字节流中最多含有２１个　于汉字的编码。如果有一种编码可以将世界上所有的字符都　ｘ，而Ｕｎｉｃｏｄｅ编码的最大取值为０Ｘ１０ＦＦＦＦ写成二进制形式　纳入其中，无论是英文、日文、还是中文等，大家都使用这个编　也只有２ｌ位，完全可以满足ｘ的需求。上述格式转换的流程　码表，就不会出现编码不匹配现象。每个符号对应一个惟一的　编码，乱码问题就不存在了。这就是Ｕｎｉｃｏｄｅ编码。　１．３　Ｕｎｉｃｏｄｅ码　图如图２所示。　１｛嘲ｌ幽自鹌教撼　Ｉ　Ｕｎｉｃｏｄｅ编码是目前最为流行的编码方案，它包含了世界　ＯＸＯ０一ｊ）　ｘ７Ｆ　　｝Ｉ　ｌ　ｆｉＸ，ｑ０—０Ｘ７ＦＩ　ＢＸＳＯ０　ＯＸＰＩ　Ｉ、Ｆ　ｌ　ｌ　ｚ　　ｌ　１ｉ　＇ＯＸｌ（ｔｔ　ｔ　Ｉ　Ｉ　Ｉ　ｊ　　Ｉ—　—　—　—　—　一　上所有语言的字符和符号，并为各国语言的每一个字符都规定　了惟一标识这个字符的二进制编码，也为各国之间的文本交流　提供了有利的平台。Ｕｎｉｃｏｄｅ学名是“Ｕｎｉｖｅｒｓａｌ　Ｍｕｌｔｉｐｌｅ—Ｏｃ—　ｔｅｔ　Ｃｏｄｅｄ　Ｃｈａｒａｃｔｅｒ　Ｓｅｔ”，简称为ＵＣＳ，ＵＣＳ可以看作是“Ｕｎｉ—　ｃｏｄｅ　Ｃｈａｒａｃｔｅｒ　Ｓｅｔ”的缩写。　靠≠缓媛８　ｆ｛：＞＞郇＆（ｈＩ＿　０　《：Ｏ　ｔＣ　｝拼＆０巾｛　０￣，１　０　、１８￣Ｏｘ０７　０ｘｆ　ｉ　Ｌ，　ｌ２，＆帆０Ｆ　ｆｔｘ　０　●豳　他　¨）６；＆Ｉ）ｘ　《｝　“｝　辩　ｔ刚　Ｉ蕊０ｘ０｝’Ｏ　Ｏ　ｌ话８仕　；㈣ｎ　ｔ　锨　－－，，　，　～～～～～　…“，ｊ０ｊ　０　ｊ　０ｘ“｛　篓　磐　ｉ女Ｏｘ３Ｆ（ｈｌＯ　Ｉ　Ｕｎｉｃｏｄｅ编码使用０￣０ｘｌ０ＦＦＦＦ这个范围的数字来对应每　一蜘接城埔韫　１　攒谈戚２，１辑　Ｉ　０　拼被０　｛　剐　城３２静　个字符，最多可以映射１１１４１１２个字符。目前普遍使用的是　ＵＣＳ一２。ＵＣＳ一２采用两个字节也就是ｌ６位来编码一个字符，　因此最多可以映射６５５３５个字符，虽然不常见的生僻字没有包　含进去，但在某种意思上也满足了需求。　Ｕｎｉｃｏｄｅ作为一个字符的集合，它只规定了符号的二进制　一ｆ¨　瓣秘靛搬　ｌ　ｌ　图２　Ｕｎｉｃｏｄｅ编码向ｕＴＦ一８编码方式转换　２．２　ＵＴＦ１　６　ＴＯ　Ｕｎｉｃｏｄｅ　代码，并没有规定这个二进制代码应该如何存储，在数据传输　和数据处理的情况下不适合采用，所以就需要一种编码方式，　将Ｕｎｉｃｏｄｅ的编码与程序数据联系在一起，并转化为数据。于　是根据编码基本单位的不同，产生了Ｕ，ｒＦ一８，Ｕ，Ｉ＇Ｆ—ｌ６，ｕＴＦ一３２　等编码格式。ＵＴＦ（ＵＣＳ　Ｔｒａｎｓｆｏｒｍａｔｉｏｎ　Ｆｏｒｍａｔ）是ＵＣＳ的传　输格式。　Ｕｎｉｃｏｄｅ编码与ＵＴＦ一１６方式的对应关系如图３所示。　ＵＴＦ一８是以一个字节（８位）为一个单位来编码的。对于　０ｘ００～０ｘ７Ｆ之间的字符编码与ＡＳＣＩＩ的字符编码相同，不需要　图３　Ｕｎｉｃｏｄｅ编码与ｕＴＦ—ｌ６编码方式的对应关系　可以看出ｕＴＦ一１６是以字节为单位，范围取值在０～　转换；其余的可以根据字符范围的不同进行不同长度的ｕＴＦ一８　０ｘｌ０ＦＦＦＦ之间，基本上是Ｕｎｉｃｏｄｅ编码的完整实现方式。在小　编码。ＵＴＦ－１６是以ｌ６位为单位的，基本上与ＵＣＳ一２对应。但　于０ｘｌ００００的范围内，ＵＴＦ一１６字节流就是单个ＷＯＲＤ，直接对　是ＵＴＦ一１６是变长码，取值范围是０—０ｘｌ０ＦＦＦＦ，而且ＵＴＦ－１６编　应Ｕｎｉｃｏｄｅ编码的无符号ｌ６位整数，但这里要考虑的是ＣＰＵ存　码与ＣＰＵ的存储模式有关系，分为大端存储和小端存储。　储数据的方式大端存储还是小端存储。所谓的大端存储就是　ＵＴＦ一３２则是使用四个字节３２位编码。三种编码方式之间可　数据的高位存在低位地址中，低位存在高地址中；所谓小端存　以进行转换，但是都必须经过Ｕｎｉｃｏｄｅ编码才能转换为另一种　储则是高位存在高地址中，低位存在低地址中。如果Ｕｎｉｃｏｄｅ　编码方式。　２常用编码方式之间的格式转换　２一Ｕｎｉｃｏｄｅ　ＴＯ　ＵＴＦ８　一编码的值大于等于０ｘｌ００００，先让其减去０ｘｌ００００，之后写成２０个　二进制形式，最后在前１０个二进制数前加“１１０１１０”，后ｌ０个二进　制数前加“１１０１１１”就形成了ＵＴＦ一１６编码。流程图如图４所示。　ＵＴＦ一８编码方式是以字节为单位对Ｕｎｉｃｏｄｅ进行编码的。　先来看看Ｕｎｉｃｏｄｅ编码（十六进制）与ＵＴＦ一８（二进制）方式的对　应关系，如图１所示。　图ｌ　Ｕｎｉｃｏｄｅ编码与ｕＴＦ一８方式的对应关系　可以看出ＵＴＦ一８方式是一种变长码，不同长度的字符使用　不同长度的编码。在ＯＸＯ０—０Ｘ７Ｆ之间的Ｕｎｉｃｏｄｅ编码对应　ＵＴＦ一８中的与ＡＳＣＩＩ编码相同的部分。其余不同范围的　图４　ｕＴＦ一１６编码方式向Ｕｎｉｃｏｄｅ编码转换　

计算机时代２０１２年第１期　２．３　ＵＴＦ　８　ＴＯ　ＧＢＫ　ＧＢＣｏｄｅ＝４１９１４：　・　３５　・　前面已经提及，Ｕｎｉｃｏｄｅ编码的三种编码与其他编码可以　进行转换，但是都必须经过Ｕｎｉｃｏｄｅ编码才能转换为另一种编　码。例如，以ＵＴＦ一８编码方式向ＧＢＫ编码转换为例，ｕＴＦ一８编　码方式要先转换为Ｕｎｉｃｏｄｅ编码，之后Ｕｎｉｃｏｄｅ编码再转换为　ＧＢＫ编码。转换流程图如图５所示。　）　ｅｌｓｅ　ｉｆ（ｗ＿ｕｎｉｃｏｄｅ＝＝６５３０７）　｛　ＧＢＣｏｄｅ＝４１９１５：　，，修正分号的ＧＢＫ码　）　）　ｅｌｓｅ｛　／／小于０ｘ４ｅ００　ｉｆ（ｗ＿ｕｎｉｃｏｄｅ＝＝１２２９０）（　ＧＢＣｏｄｅ＝４１３７９；　／／修正句号的ＧＢＫ码　）　｝　转换为ＧＢＫ编码后，如果是一个字节即高８位全为０，则直　接输出低８位，之后显示这个编码所对应的字符；如果是两个字　节，要先输出高８位后输出低８位，之后在显示屏上显示拼接成　的１６位ＧＢＫ编码所对应的字符。　３结束语　本文针对不同编码方式之间的转换进行了简要的叙述，并　给出了具体实现的流程图和部分代码。相反方向的转换只是　相应转换过程的逆过程，这里就不再赘述。编码方式之间的转　图５　Ｕｎｉｃｏｄｅ编码方式向ＧＢＫ编码转换　换解决了不同信息平台之间的信息传递问题，有效避免了乱码　和无法打开现象的出现，具有通用性，实用性。　这里注意：在转换为Ｕｎｉｃｏｄｅ编码后，不能全部直接显示，　参考文献：　因为Ｕｎｉｃｏｄｅ只有一部分字符（０Ｘ４Ｅ００～０Ｘ９ＦＡ５）可以直接显　【１】邱发林．Ｕｎｉｃｏｄｅ及中文到Ｕｎｉｃｏｄｅ转换【Ｊ】科技信息，２００６　３：　示并且显示时无乱码，一些大于０Ｘ４Ｅ００中的一些字符需要作　４１９１４，所以要将其对应起来。对于小于ＯＸ４Ｅ００中的所需要的　字符也进行，其修正方法一样。部分代码如下：　ｉｆ（ｗ＿ｕｎｉｃｏｄｅ＞＝０ｘ４ｅ００）｛　ｉｆ（ｗ　．ｕｎｉｃｏｄｅ　＝＝　６５３０６）｛　／／大于０ｘ４ｅ００　／／修正冒号的　　ＧＢＫ　码２０－２１　２】张晓培，李祥．从Ｕｎｉｃｏｄｅ到ＧＢＫ的内码转换【Ｊ】ｌ微计算机应用，　修正，比如：冒号“：”在Ｕｎｉｃｏｄｅ编码中是６５３０６，而在ＧＢＫ中是　【２００６．６：７５７－７５９　【３】ｈｔｔｐ：／／ｗｗｗ．５ｘｓｏｆｔ．ｃｏｍ／ｄａｔａ／２００１Ｏ９／０６Ｏ８０９４２０１．ｈｔｍ．　【４】ｈｔｔｐ：／／ｗｗｗ．ｂｊｐｒｉｎｔ．ｎｅｔ／ｂｏｏｋ／０１／ｎｍ　ｈｔｍ．　［５】ｈｔｔｐ：／／ｗｗｗ．ｃｌｙｒｉｃｓ．ｃｏｍ／ｓｔｏＲｅｃ／ｈａｎｚｉ／ｃｈｉｎｅｓｅ．ｈｔｍ・　（上接第３２页）　Ｔｈｅｎ　３结束语　本程序代码在ＶＳ．ＮＥＴ开发平台中使用ＶＢ语言编写，功　能在Ｗｉｎ　ＸＰ及ｗｉｎ　７下都运行调试成功。本程序实现了各种　Ｍｅ．Ｓｈｏｗ（）　Ｔｉｍｅｒ１．Ｓｔｏｐ（）　’代码同上，略去　Ｅｎｄ　ｌｆ　开关机动作的自动执行，提高了电脑管理的智能化水平。　参考文献：　Ｅｎｄ　Ｓｕｂ　【１】高红．基于ＶＢ．ＮＥｌ＂自动验证功能ＴｅｘｔＢｏｘ派生类控件的设计与实　现【Ｊ】＿福建电脑，２００９．１２：１２７　【２１郑军，陈晓颖．在ＶＢ．ＮＥＴ中实现ＧＩＳ调用【Ｊ】．计算机与信息技术，　２０１０　４：２０～２１　【３】张良，何也熙．Ｍａｔｌａｂ、Ａｃｃｅｓｓ和ＶＢ．ＮＥＴ混合编程方法的研究和应　用【Ｊ】．计算机工程与设计，２００９．３０（０５）：１２３２～１２３５　［４】孙利娟．编程工具ＶＢ６　０与ＶＢ．ＮＥＴ的比按研究［Ｊ】．黄河水利职业　技术学院学报，２０１０．２２（０１）：５２～５４　【５】苗哲．定时关机／重启器的设计与实现【Ｊ】．信息科学，２００９（３６）：１３６　图２功能运行界面　

本文标签：编码字符转换信息

版权声明：本文标题：常用编码方式及其格式转换内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/free/1702748312h429211.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

技术交流 – FreeNAS中文网

常用编码方式及其格式转换

更多相关文章

win7电脑内存信息的查看方法

运用 Python 爬取私募基金信息_request

命令：获取命令的系统帮助信息

电脑键盘注册表已损坏导致无法输入信息的修复方式

python爬虫小项目--抓取腾讯招聘岗位信息

多多参谋：如果拼多多48小时没有物流信息怎么办？原因是什么？

Linux操作系统的诞生与其对现代信息世界的影响

DebugView for Windows 7 不显示调试信息

华为路由器、交换机怎么配置登陆前和登陆后的标语信息

你知道吗？恢复出厂设置可能无法完全删除你的信息！

自动登录TP-LINK路由器，获取所有信息，重启等等，实用方法

信息收集全流程

C语言获取Windows系统进程信息

如何让 ChatGPT 提供信息来源和引用？数据真实吗？

Navigator：userAgent 属性获取设备浏览器信息

浏览器----搜索技巧（快速获得准确信息）

JavaScript 通过UserAgent获取用户设备信息（浏览器信息、操作系统信息）

Windows字符编码集大全

使用AndroidStudio和雷电模拟器查看安卓版项目发布之后的调试信息

Windows 7 引导信息修复方法

发表评论

推荐文章

No07.使用API获取SAP S4 HANA Cloud中的凭证行项目（二）

Windows10系统备份与还原

Windows系统（win10）用MSI方式安装MySQL数据库

分不清路由器、交换机、光猫的概念，一文带你迅速搞懂！！！

在Windows环境下安装Elasticsearch 8.8.2

热门文章

bcd 初始化库系统卷失败_电脑系统引导启动不了！

RK3568 Debian10 固态硬盘自动挂载

logback.xml if 条件判断

年度热词

基于javaEE的化妆品营销管理系统的设计与实现

https:gitcode.netshaoyuadmintest

Windows和linux谁更流畅,Linux、Windows，谁速度更快

WIN7 KB4516065 安装失败

Windows10 64位系统一键安装全攻略

Windows 7 USBDVD download tool 烧录U盘失败解决办法

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

Windows7 系统安全设置权限技巧

（Windows系统）详细介绍Windows系统 含有英文版

最新Windows 11教育版下载：专为教育设计的系统！

Win7系统下搭建NFS服务器

零基础使用UltraISO制作并安装纯净Win10系统指南

（Windows系统）详细介绍Windows系统含有英文版