python的中文处理-FreeNAS中文网

admin 管理员组

文章数量: 887032

2024年1月23日发(作者：霹雳布袋戏在线看樱花)

Python的中文处理

一、使用中文字符

在python源码中如果使用了中文字符，运行时会有错误，解决的办法是在源码的开头部分加入字符编码的声明，下面是一个例子：

#!/usr/bin/env python

# -*- coding: cp936 -*-

Python Tutorial中指出，python的源文件可以编码ASCII以外的字符集，最好的做法是在#!行后面用一个特殊的注释行来定义字符集：

# -*- coding: encoding -*-

根据这个声明，Python会尝试将文件中的字符编码转为encoding编码，并且，它尽可能的将指定地编码直接写成Unicode文本。

注意，coding:encoding只是告诉Python文件使用了encoding格式的编码，但是编辑器可能会以自己的方式存储.py文件，因此最后文件保存的时候还需要编码中选指定的ecoding才行。

二、中文字符的存储

>>> str = u"中文"

>>> str

u'xd6xd0xcexc4'

>>> str = "中文"

>>> str

'xd6xd0xcexc4'

u"中文"只是声明unicode，实际的编码并没有变。这样子就发生变化了：

>>> str = "中文"

>>> str

'xd6xd0xcexc4'

>>> str = ("gb2312")

>>> str

u'u4e2du6587'

更进一步：

>>> s = '中文'

>>> ('gb2312')

u'u4e2du6587'

>>> len(s)

>>> len(('gb2312'))

>>> s = u'中文'

>>> len(s)

>>> s = '中文test'

>>> len(s)

>>> len(('gb2312'))

>>> s = '中文test，'

>>> len(s)

>>> len(('gb2312'))

可以看出，对于实际Non-ASCII编码存储的字符串，python可以正确的识别出其中的中文字符以及中文上下文中的标点符号。

前缀“u”表示“后面这个字符串“是一个Unicode字符串”，这仅仅是一个声明，并不表示这个字符串就真的是Unicode了；就好比某正太声称自己已满18岁，但实际上他的真实年龄并不确定，现在体育界年龄造假可不稀罕幺!

那么声明成u有什么作用呢？对于Python来说，只要你声明某字符串是Unicode，它就会用Unicode的一套机制对它进行处理。比方说，做字符串操作的时候会动用到内部的Unicode处理函数，保存的时候以Unicode字符（双字节）进行保存。等等。显而易见，对于一个实际上并不是Unicode的字符串，做Unicode动作的处理，是有可能会出问题的。u前缀只适用于你的字符串常量真的是Unicode的情况。

三、中文字符的IO操作

用python处理字符串很容易，但是在处理中文的时候需要注意一些问题。比如：

a = "我们是python爱好者"

print a[0]

只能输出“我”字的前半部分，要想输出整个的“我”字还需要：

b = a[0:2]

print b

才行，很不方便，并且当一段文本中同时有中英文如何处理？最好的办法就是转换为unicode。像这样：

c = unicode(a, "gb2312")

print c[0]

这个时候c的下标对应的就是每一个字符，不再是字节，并且通过len(c)就可以获得字符数！还可以很方便的转换为其他编码，比如转换为utf-8：

d = ("utf-8")

四、和

将字符串看作是字节的序列，而则将其看作是字符的序列，单个字符可能占用多个字节；字节相对于字符，其在存储层次中更低一些。

str转换为unicode要decode，可以这样想，因为要把字节序列解释成字符序列，字节序列是底层的存放方式，解码（decode）成更高层的字符以便使用；同理，unicode转换为str要encode，就象信息编码（encode）后才存储一样：

(encoding) to

例如：

>>> s = 'str'

>>> type(s)

>>> type(())

>>> s = u'str'

>>> type(s)

>>> type(())

处理中文数据时最好采用如下方式：

1. Decode early（尽早decode, 将文件中的内容转化成unicode再进行下一步处理)

2. Unicode everywhere (程序内部处理都用unicode)

3. Encode late (最后encode回所需的encoding, 例如把最终结果写进结果文件)

下面是一个简单的演示，用re库查询一个中文字符串并打印：

>>> p = e(unicode("测试(.*)", "gb2312"))

>>> s = unicode("测试一二三", "gb2312")

>>> for i in l(s):

print ("gb2312")

一二三

五、跨平台处理技巧

如果一个project必须在两个平台上开发，程序应该使用同样的encoding，比如要求所有的文件都使用UTF-8，如果实在不能统一（一般是为了满足许多所谓专家学者莫名其妙的要求），可以退而求其次，用当前系统编码决定文件内的编码：

import locale

import string

import re

#根据当前系统的encoding构造需要的编码取值

lang = (ale(_ALL, ""))

textencoding = None

#检查编码的值是不是满足我们需要的情况

if ("UTF-8", lang) != None:

# UTF-8编码

textencoding = "utf-8"

elif (r"CHINESE|CP936", lang):

# Windows下的GB编码

textencoding = "gb18030"

elif (r"GB2312|GBK|GB18030", lang):

# Linux下的GB编码

textencoding = "gb18030"

else:

# 其他情况，抛个错误吧

raise UnicodeError

fd = file(filename, "r")

fulltextlist = nes()

# 把每一行转换成unicode

for each in len(fulltextlist):

fulltextlist[i] = unicode(each, textencoding)

()

# 如果要打印的话，可以用(encoding)来恢复成多字节编码

六、异常处理

编码encoding发生在Unicode字符串转换为字节序列时，而解码decoding发生在字节序列转换为Unicode字符串时（encoding always takes a Unicode string and returns a bytes

sequence, and decoding always takes a bytes sequence and returns a Unicode string）。

UnicodeDecodeError

UnicodeDncodeError通常发生在将str字符串解码为特定Unicode字符串时。由于不同的编码只能映射部分str字符串到对应的Unicode字符，所以遇到一些字符时解码会失败。

UnicodeEncodeError

UnicodeEncodeError通常发生在将Unicode字符串编码为特定字节序列时。由于不同的编码只能映射部分Unicode字符到对应的str字符串，所以遇到一些字符时编码会失败。

处理python编码转换时的UnicodeDecodeError异常

python提供的unicode转换不像iconv或是mbstowcs之类的方便。如果转换一段unicode("1234中文",'ascii') 到utf8，会直接出现UnicodeDecodeError的错误。如果在你能预知字串符的编码的时候，比如你用unicode('1234中文', 'gbk') 就不会出现错误；不过很多时候，会出现CJK混合的情况，如果要做到将一段CJK文件转换成unicode可能就行不通了。好在python的codecs提供了register_error这个功能：

register_error(name, error_handler)

原理很简单，不过要先看unicode是如何处理异常的。unicode这个函数是将一段string按输入的编码转换成目标的编码，如果出现了不与输入编码相符的，会出现一个 4

UnicodeDecodeError的异常，通常有三种处理方法：strict、replace、ignore；默认是 strict,就是直接raise UnicodeDecodeError。通过register_error，我们也可以有自己的处理方法，如果遇到与输入的编码不符的时候，我们就自己识别，比如GBK、BIG5、JP的字符。

def cjk_replace(exc):

if not isinstance(exc, UnicodeDecodeError):

raise TypeError("don't know how to handle %r" % exc)

if + 1 > len():

raise TypeError('unknown codec ,the object too short!')

ch1 = ord([:])

newpos = + 1

ch2 = ord([ + 1:newpos])

sk = [:newpos]

if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0x7E<=ch2<=0xFE): # GBK

return (unicode(sk,'cp936'), newpos)

if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0xA1<=ch2<=0xFE): # BIG5

return (unicode(sk,'big5'), newpos)

raise TypeError('unknown codec !')

er_error("cjk_replace", cjk_replace)

我们的cjk_replace现在只能处理GBK与BIG5的，因为我对编码也不是特别了解，只是大概知道GBK与BIG5的，不太了解JP的。在 cjk_replace这个函数里，我们对不认识的文字进行手工识别，如果认识的编码，就用正确的方法，并返回编码后的内容与新的pos，比如“1234中文”，在pos为4的时候，会调用我们的cjk_replace，我们会返回一个从gbk转换成utf8的“中”字，并返回下个正确的位置“文”的起始位置。当然了，处理“文”的时候，还会再调用一次。下面看看是如何使用的：

filedata = open('','r).read() #gbk and big5 file

data = unicode(filedata,'ascii','cjk_replace').encode('utf8')

小结

一个比较一般的Python中文处理的流程：

* 将欲处理的字符串用unicode函数以正确的编码转换为Unicode

* 在程序中统一用Unicode字符串进行操作

* 输出时，使用encode方法，将Unicode再转换为所需的编码

有几点要说明一下：

* 所谓“正确的”编码，指得是指定编码和字符串本身的编码必须一致。这个其实并不 5

那么容易判断，一般来说，我们直接输入的简体中文字符，有两种可能的编码：GB2312（GBK、GB18030）、以及UTF-8

* encode成本地编码的时候，必须要保证目标编码中存在欲转换字符的内码。encode这种操作一般是通过一个本地编码对应Unicode的编码转换表来进行的，事实上每个本地编码只能映射到Unicode的一部分。但是映射的区域是不同的，比如Big-5对应的Unicode的编码范围和 GBK对应的就不一样（实际上这两个编码有部分范围是重叠的）。所以，Unicode的一些字符（比如本身就是从GB2312转换来的那些），可以映射到 GBK，但未必可以映射到Big-5，如果你想转换到Big-5，很有可能就会出现编码找不到的异常。但UTF-8的码表范围实际上和Unicode是一样的（只是编码形式不同而已），所以，理论上来说，任何本地编码的字符，都可以被转换到UTF-8

* GB2312、GBK、GB18030本质上是同一种编码标准。只是在前者的基础上扩充了字符数量

* UTF-8和GB编码不兼容

* 出现编解码异常时可能需要自己编写编解码解析函数，这需要了解一些字符编码的知识

参考资料

1、 /2、 Python的中文处理及其它

/?p=383、 Python处理中文的时候的一些小技巧

/?p=4614、 Unicode In Python, Completely Demystified. Kumar McMillan

/talks/unicode5、 python中文处理好方法

/bbs/?tid=3116、 Python的中文处理

/mrsz/blog/item/7、 UnicodeDecodeError

/moin/UnicodeDecodeError 8、 UnicodeEncodeError

/moin/UnicodeEncodeError9、如何处理python编码转换时的UnicodeDecodeError异常

/u/8873/showart_10、codecs — Codec registry and base classes

/library/

本文标签：编码字符字符串时候转换

版权声明：本文标题：python的中文处理内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/free/1705964174h495920.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

技术交流 – FreeNAS中文网

python的中文处理

更多相关文章

表格常用的函数公式

excel 数字变文本 科学计数法

exceltext的用法

C语言游戏源代码

python的encode函数

php encode和decode的用法

hive encode函数

python编码函数

encodeforhtmlattribute介绍

php encodeuri编码

Time Machine 视频字幕编辑软件基本使用方法

OpenFOAM中原生网格生成方法与操作组件介绍

VMwareESX-ESXi 精简置备(thin)与厚置备(thick)虚拟机磁盘之间转换_百

减少ESXi中虚拟机磁盘占用空间

C_C_Fortran混合编程研究

CentOS7安装飞思网巡

rap god 歌词 翻译

windows系统中文件命名不能含有哪些字符

【ChatGPT高端玩法】ChatGPT生成Excel提取字符公式

VM虚拟机安装凝思磐石系统（字符界面）

发表评论

推荐文章

证件ocr识别sdk

windows系统电脑连不上wifi

Win11企业版下载指南：轻松获取并安装

VMware实现Windows7虚拟机、kali虚拟机和Windows10本机建立指定文件夹共享文件

Windows网页版

热门文章

升级到Windows 11的过程中可能遇到的问题以及解决方案

【爬虫】在 xpath路径中插入变量的正确姿势

深度学习模型原来这样部署的！（干货满满，收藏慢慢看）

【rsync原理和基础实验——手工同步】

白泽六足机器人Baize

受保护Hyper

windows 2008下载地址及版本介绍

VC++创建windows服务程序

Windows XP 激活之修改注册表

RamDisk 内存虚拟硬盘，Windows 2008 R2,Win7 64位系统

最新文章

Raid技术

LSI_阵列卡操作手册

破解Centos7_root用户密码

Redhat重置Root用户密码方法

远程批量修改linux服务器密码的脚本

DELL PowerEdge T110 II U盘安装系统

戴尔t310服务器装系统步骤,dell笔记本重装系统教程

惠普ENVY x360 14 2024 锐龙版笔记本重装win7系统教程

通过U盘启动盘安装Windows10操作系统步骤

Win7怎么使用PE重装系统？PE重装系统步骤图

excel 数字变文本科学计数法

rap god 歌词翻译