Python 尽可能使用Unicode|酷客网

文章目录

1 Unicode的背景知识
2 中文字符常见问题
3 示例分析

考虑兼容性，Python 尽可能使用Unicode，Python内建的字符串有两种类型：str和Unicode，它们拥有共同的祖先basestring。其中Unicode是Python2.0中引入的一种新的数据类型，所有的Unicode字符串都是Unicode类型的实例。创建一个Unicode字符相对简单。

>>> strUnicode = u"unicode字符串" #前面加u表示Unicode
>>> strUnicode
u'unicode \u5b57\u7b26\u4e32'
>>> print strUnicode
unicode字符串
>>> type(strUnicode)
<type 'unicode'>
>>> type(strUnicode).__bases__
(<type 'basestring'>,)

Unicode的背景知识

Python中为什么需要加入对Unicode的支持呢？我们先来了解一下Unicode相关的背景知识。

在Unicode之前，最早的ASCII编码用一个字节（8bit，最高位为0）只能表示128个字符，如英文大小写字符、数字以及其他符号等。但世界上显然不只有一种语言，不同种语言所包含的字符数量也不相同，对于很多语言来说128个字符数是远远不够的，即使对ASCII进行扩展，256个字符也不能满足要求。于是出现了各种不同的字符编码系统，如我国表示汉字编码的GBK。但这又引入了一个新的问题：不同编码系统之间存在冲突。在两种不同的编码系统中，相同的编码可能代表不同的意义或者不同的编码代表相同的字符，从而导致不同平台、不同语言之间的文本无法很好地进行转换。比如，“我”字在GB2312中表示为0x4650，而繁体中文Big5中的编码为0XA7DA，而0XA7DA在GB2312中却表示“牋”，乱码由此产生。要解决这个问题，必须为不同的文字分配统一编码，Unicode（Universal Multiple-Octet Coded Character Set）由此产生，它也被称作万国码，Unicode为每种语言设置了唯一的二进制编码表示方式，提供从数字代码到不同语言字符集之间的映射，从而可以满足跨平台、跨语言之间的文本处理要求。

Unicode编码系统可以分为编码方式和实现方式两个层次。在编码方式上，分为UCS-2和UCS-4两种方式，UCS-2用两个字节编码，UCS-4用4个字节编码。目前实际应用的统一码版本对应于UCS-2，使用16位的编码空间。一个字符的Unicode编码是确定的，但是在实际传输过程中，由于系统平台的不同以及出于节省空间的目的，实现方式有所差异。Unicode的实现方式称为Unicode转换格式（Unicode Transformation Format），简称为UTF，包括UTF-7、UTF-16、UTF-32，UTF-8等，其中较为常见的为UTF-8。UTF-8的特点是对不同范围的字符使用不同长度的编码，其中0x00～0x7F的字符的UTF-8编码与ASCII编码完全相同。UTF-8编码的最大长度是4个字节，从Unicode到UTF-8的编码方式如下表所示。
Python 尽可能使用Unicode

Unicode经过几十年的发展，逐渐成为业界标准，许多相关技术都提供Unicode支持，如XML、Java、LDAP、CORBA 3.0等，Python也不例外。更多Unicode的知识读者可以查看http://www.unicode.org/。

中文字符常见问题

在了解完Unicode的背景知识之后再来看看Python中处理中文字符经常会遇见的以下几个问题：

示例一读出文件的内容显示为乱码。

filehandle = open("coolcou.txt",'r')
print filehandle.read()
filehandle.close()

其中，文件coolcou.txt中的内容为“python中文测试”，文件以UTF-8的形式保存。
运行程序结果如下：

python
涓
枃娴嬭瘯

示例二当Python源文件中包含中文字符的时候抛出SyntaxError异常。
unicodetest.py文件的内容如下：

s = "python中文测试"
print s

上述程序运行时报错如下：

C:\Python27\python.exe E:/workspace/mycoolcou/coolcou.py
  File "E:/workspace/mycoolcou/coolcou.py", line 1
SyntaxError: Non-ASCII character '\xe4' in file E:/workspace/mycoolcou/coolcou.py on line 1, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details

示例三普通字符和Unicode进行字符串连接的时候抛出UnicodeDecodeError异常。

# coding=utf-8
s = "中文测试"+ u"Chinese Test"
print s

程序运行抛出异常如下：
Python 尽可能使用Unicode

示例分析

来分析上面例子产生错误的原因以及如何在不同的编码和Unicode之间进行转换。

示例一分析：读入的文件coolcou.txt用UTF-8编码形式保存，但是Windows的本地默认编码是CP936，在Windows系统中它被映射为GBK编码，所以当在控制台上直接显示UTF-8字符的时候，这两种编码并不兼容，以UTF-8形式表示的编码在GBK编码中被解释成为其他的符号，由此便产生了乱码。通过上面的背景知识了解到Unicode为不同语言设置了唯一的二进制表示形式，可以轻易地解决不同字符集之间的字符映射问题，因此要解决示例一的乱码问题可以使用Unicode作为中间介质来完成转换。首先需要对读入的字符用UTF-8进行解码，然后再用GBK进行编码。修改后的结果如下：

filehandle = open("coolcou.txt",'r')
print (filehandle.read().decode("utf-8")).encode("gbk") 
filehandle.close()

输出为：

python中文测试

上述代码分别使用了decode()和encode()方法，这两个方法的作用分别是对字符串进行解码和编码。其中decode()方法将其他编码对应的字符串解码成Unicode，而encode()方法将Unicode编码转换为另一种编码，Unicode作为转换过程中的中间编码。decode()和encode()方法的函数形式如下：

str.decode([编码参数[, 错误处理]])
str.encode([编码参数[, 错误处理]])

常见的编码参数如表所示。
Python 尽可能使用Unicode

错误处理参数有以下3种常用方式：
1）strict’：默认处理方式，编码错误抛出UnicodeError异常。
2）ignore’忽略不可转换字符。
3）replace’将不可转换字符用?代替。

对于A、B两种编码系统，两者之间的相互转换示意图如图所示。
Python 尽可能使用Unicode

标注①处filehandle.read()读出来的字符串是用UTF-8表示的，也就是A表示为UTF-8，使用decode()方法解码得到Unicode，对应上图箭头1所示过程：filehandle.read().decode("utf-8")。然后再使用encode方法将Unicode转换为为GBK的表示形式，如果unicodestr= filehandle.read().decode("utf-8")的话，则unicodestr.encode("gbk")表示箭头2所示过程。所以从A到B对应的代码为：

(filehandle.read().decode("utf-8")).encode("gbk")

提醒：上面的例子在某些有些情况下（如coolcou.txt是用Notepad软件以UTF-8编码形式保存）可能还会出现如下异常：

print (filehandle.read().decode("utf-8")).encode("gbk")
UnicodeEncodeError: 'gbk' codec can't encode character u'\ufeff' in position 0:
illegal multibyte sequence

这是因为有些软件在保存UTF-8编码的时候，会在文件最开始的地方插入不可见的字符BOM（0xEF 0xBB 0xBF，即BOM），这些不可见字符无法被正确的解析，而利用codecs模块可以方便地处理这种问题。

import codecs
content = open("coolcou.txt",'r').read()
filehandle.close()
if content[:3] == codecs.BOM_UTF8:#如果存在BOM字符则去掉
content = content[3:]
print content.decode("utf-8")

关于BOM：Unicode存储有字节序的问题，例如“汉”字的Unicode编码是0X6C49，如果将6C写在前面，则为big endian，将49写在前面则成为little endian。UTF-16以两个字节为编码单元，在字符的传送过程中，为了标明字节的顺序，Unicode规范中推荐使用BOM（Byte Order Mark）：即在 UCS编码中用一个叫做ZERO WIDTH NO-BREAK SPACE的字符，它的编码是FEFF（该编码在UCS中不存在对应的字符），UCS规范建议在传输字节流前，先传输字符ZERO WIDTH NO-BREAK SPACE。这样如果接收者收到FEFF，就表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little-Endian的。 UTF-8使用字节来编码，一般不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。字符ZERO WIDTH NO-BREAK SPACE的UTF-8编码是EF BB BF。所以如果接收者收到以EF BB BF开头的字节流，就知道这是UTF-8编码了。

示例二分析：Python中默认的编码是ASCII编码（这点可以通过sys.getdefaultencoding()来验证），所以unicodetest.py文件是以ASCII形式保存的，s是包含中文字符的普通字符串。当调用print方法输出的时候会隐式地进行从ASCII到系统默认编码（Windows上为CP936）的转换，中文字符并不是ASCII字符，而此时源文件中又未指定其他编码方式，Python解释器并不知道如何正确处理这种情况，便会抛出异常：SyntaxError: Non-ASCII character '\xd6' in file unicodetest.py on line 1。因此，要避免这种错误需要在源文件中进行编码声明，声明可用正则表达式"coding[:=]\s*([-\w.]+)"表示。一般来说进行源文件编码声明有以下3种方式：

第一种声明方式：

# coding=<encoding name>

第二种声明方式：

#!/usr/bin/python
# -*- coding: <encoding name> -*-

第三种声明方式：

#!/usr/bin/python
# vim: set fileencoding=<encoding name> :

示例二在源文件头中加入编码声明# coding=utf-8便可解决问题。

示例三分析：使用+操作符来进行字符串的连接时，+左边为中文字符串，类型为str，右边为Unicode字符串。当两种类型的字符串连接的时候，Python将左边的中文字符串转换为Unicode再与右边的Unicode字符串做连接，将str转换为Unicode时使用系统默认的ASCII编码对字符串进行解码，但由于“中文测试”的ASCII编码为\xd6\xd0\xce\xc4\xb2\xe2\xca\xd4，其中“中”字的编码\xd6对应的值为214。当编码值在0～127的时候Unicode和ASCII是兼容的，转换不会有什么问题，但当其值大于128的时候，ASCII编码便不能正确处理这种情况，因而抛出UnicodeDecodeError异常。解决上面的问题有以下两种思路：

1）指定str转为Unicode时的编码方式。

# coding=utf-8
s = "中文测试".decode('gbk') + u"Chinese Test"

2）将Unicode字符串进行UTF-8编码。

s = "中文测试"+ u"Chinese Test".encode("utf-8")

Unicode提供了不同编码系统之间字符转换的桥梁，要避免令人头疼的乱码或者避免UnicodeDecodeError以及UnicodeEncodeError等错误，需要弄清楚字符所采用的编码方式以及正确的解码方法。对于中文字符，为了做到不同系统之间的兼容，建议直接使用Unicode表示方式。Python2.6之后可以通过import unicode_literals自动将定义的普通字符识别为Unicode字符串，这样字符串的行为将和Python3中保持一致。

>>> from __future__ import unicode_literals
>>> s = "中文测试"
>>> s
u'\u4e2d\u6587\u6d4b\u8bd5'

酷客网相关文章：

Python 尽可能使用Unicode

Unicode的背景知识

中文字符常见问题

示例分析

相关推荐

评论抢沙发

评论前必须登录！

Python编写高质量代码

回顶部

Unicode的背景知识

中文字符常见问题

示例分析

相关推荐

评论 抢沙发

评论前必须登录！

Python编写高质量代码

回顶部

评论抢沙发