常用中文编码方式对比

薄洪涛6年前 (2019-06-17)Python1540

最近项目中涉及到了使用python解析文件内容的需求，文件中全都是中文，由于这一过程中碰到的乱码问题实在过多，所以特地花时间研究了一下中文编码。本文中先介绍一下ASCII，GB2312，GBK和GB18030编码。

之所以把这几个放在一起介绍，是因为他们的相关性非常强。兼容性关系是GB18030兼容GBK，GBK兼容GB2312，GB2312兼容ASCII。所谓兼容，你可以简单理解为子集、不冲突的关系。例如GB2312编码的文件中可以出现ASCII字符，GBK编码的文件中可以出现GB2312和ASCII字符，GB18030编码的文件可以出现GBK、GB2312、ASCII字符。

每种编码方式的特点：

【1】ASCII 每个字符占据1bytes，用二进制表示的话最高位必须为0（扩展的ASCII不在考虑范围内），因此ASCII只能表示128个字

【2】GB2312 最早一版的中文编码，每个字占据2bytes。由于要和ASCII兼容，那这2bytes最高位不可以为0了（否则和ASCII会有冲突）。在GB2312中收录了6763个汉字以及682个特殊符号，已经囊括了生活中最常用的所有汉字。

【3】GBK 由于GB2312只有6763个汉字，我汉语博大精深，只有6763个字怎么够？于是GBK中在保证不和GB2312、ASCII冲突（即兼容GB2312和ASCII）的前提下，也用每个字占据2bytes的方式又编码了许多汉字。经过GBK编码后，可以表示的汉字达到了20902个，另有984个汉语标点符号、部首等。值得注意的是这20902个汉字还包含了繁体字。

【4】GB18030 然而，GBK的两万多字也已经无法满足我们的需求了，还有更多可能你自己从来没见过的汉字需要编码。这时候显然只用2bytes表示一个字已经不够用了（2bytes最多只有65536种组合，然而为了和ASCII兼容，最高位不能为0就已经直接淘汰了一半的组合，只剩下3万多种组合无法满足全部汉字要求）。因此GB18030多出来的汉字使用4bytes编码。当然，为了兼容GBK，这个四字节的前两位显然不能与GBK冲突（实操中发现后两位也并没有和GBK冲突）。我国在2000年和2005年分别颁布的两次GB18030编码，其中2005年的是在2000年基础上进一步补充。至此，GB18030编码的中文文件已经有七万多个汉字了，甚至包含了少数民族文字。

比如这种代码：

csv_file = csv.reader(open(filepath,'r',encoding="gbk"))

有的时候不小心就会报错

'gbk' codec can't decode byte 0xae in position 17

这里需要特别注意，数据库，文件打开方式，文件内容，格式尽量保持一致

返回列表

上一篇：PHP调用不起来Python脚本

下一篇：nginx转换post请求为get

码农日记

常用中文编码方式对比

相关文章

Python3使用logging模块记录日志

python爬虫第一篇之环境的搭建

UTC转标准时间和时间戳

python爬虫之字体反爬及解决方案

python爬虫第二篇之安居客

UnicodeDecodeError：'utf-8'编解码器无法解码字节

发表评论

版权所有 | 转载请标明出处

Powered By Z-BlogPHP. Theme by TOYEAN.

码农日记

常用中文编码方式对比

相关文章

Python3使用logging模块记录日志

python爬虫第一篇之环境的搭建

UTC转标准时间和时间戳

python爬虫之字体反爬及解决方案

python爬虫第二篇之安居客

UnicodeDecodeError：'utf-8'编解码器无法解码字节

发表评论 取消回复

版权所有 | 转载请标明出处

Powered By Z-BlogPHP. Theme by TOYEAN.

发表评论