[info]在计算机中,经常遇到编码问题,本节主要梳理下ascii,unicode,utf8,gbk 这几种编码之间的关系。
ASCII
计算机中,所有数据都以0和1来表示。在一开始的时候,要表示的内容比较少,人们使用了ascii编码的方式来编码。
ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,(一个字节),即:2**8 -1 = 255,所以,ASCII码最多只能表示 255 个符号。
1 1 1 1 1 1 1 1 =2*0+2*1+2*2+2*3+2*4+2*5+2*6+2*7 = 2**8-1=255
Unicode,UTF-8,GBK
随着计算机的发展,显然ASCII码无法将世界上的各种文字和符号全部表示,所以,就需要新出一种可以代表所有字符和符号的编码,即:Unicode
Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。Unicode规定所有字符和符号(16位)来表示,即2**16-1=65535
UTF-8,,他不再使用最少使用2个字节,而是将所有的字符和符号进行分类:ascii码中的内容用保存、欧洲的字符用保存,东亚的字符用保存…
GBK,也是,GBK的文字编码是用双字节来表示的,即不论中、英文字符均使用来表示
python 中的编码使用规则
,
unicode 分为 utf-32(占4个字节),utf-16(占两个字节),utf-8(占1-4个字节), so utf-8就是unicode
在py3中encode,在,decode在
由上图分析可得:
GBK转UTF-8的流程
首先需要通过解码【decode】转换回Unicode编码
然后通过编码【encode】转换成UTF-8编码
UTF转GBK的流程
首先需要解码【decode】转换会Unicode编码
然后通过编码【encode】转换为GBK编码
建议
所有的地方,建议统一使用utf-8编码。包括py编译,ide的设置,文件的读写等。
[info] 本人非专业开发,正在学习的路上,参考代码只供参考,写得不好,请不要见笑,将你写的认为更好的示例留言哦,一起交流学习~
领取专属 10元无门槛券
私享最新 技术干货