Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >字符集其实很简单

字符集其实很简单

作者头像
dongfanger
发布于 2020-09-23 02:00:13
发布于 2020-09-23 02:00:13
84700
代码可运行
举报
文章被收录于专栏:dongfangerdongfanger
运行总次数:0
代码可运行

字符集其实是个很简单的东西,但很多人当时看懂了,过了就忘了。

本篇文章的目的就是,不一定要把字符集的知识讲的有多深,但是一定要在工作上够用。

并且记得足够牢足够久。

工作中遇到的“词汇”,主要是ASCII、GB2312、GBK、Unicode、UTF-8,还有URL Encode、URL Escape。

编码和解码

编码,encode。

解码,decode。

编码,编成计算机能懂的码,二进制。

解码,解成人类能读懂的码,人语言。

想让计算机懂,你得编它。

想让人类能懂,你得解释。

字符代码和字符编码

字符代码就是序号,比如65。

字符编码二进制序列,比如01000001。

由于基本相同,所以我们平时就忽略了差异。

差异体现在哪呢?UTF-8

字符集发展历史

美国,英文字母、标点符号字符、阿拉伯数字,ASCII

欧洲,加入带重音的字符、希腊字母等,Latin-1

中国!加入汉字! GB2312

加入生僻字、繁体字及日韩汉字等,GBK

各说各的,乱码

ISO国际标准化组织一统江湖,Unicode

再编码,UTF-8

因为Unicode需要遵循统一的存储,就造成了资源浪费,比如汉字和英文,占用的空间是不一样了。

为了支持这种差异,节约存储,高效传输,对Unicode进行了再编码,也就是UTF-8,也是用的最广泛的字符集之一。

URL Encode和URL Escape

Web服务器只允许URL中包含ASCII

那怎么办?只有先encode成二进制,让服务器自己decode咯。

所以URL Encode后是“百分号+2位十六进制”的形式,比如%20。

需要Encode的包括

  • 非ASCII字符
  • ASCII控制字符,因为不可打印
  • 保留字符,如&,因为URL自身是用&分隔的,参数内容包括&的话就要Encode
  • 不安全字符,如空格,可能造成歧义

Python来实际看看

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from urllib.parse import urlencode

x = urlencode({"a": 1, "b": "a", "c": "汉", "d": " ", "e": "&"})
print(x)  # a=1&b=a&c=%E6%B1%89&d=+&e=%26

URL Escape,也就是URL转义,碰到最多的就是把<>&转成&lt;&gt;&amp;

Python html.escape函数,一切尽在代码中

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def escape(s, quote=True):
    """
    Replace special characters "&", "<" and ">" to HTML-safe sequences.
    If the optional flag quote is true (the default), the quotation mark
    characters, both double quote (") and single quote (') characters are also
    translated.
    """
    s = s.replace("&", "&amp;") # Must be done first!
    s = s.replace("<", "&lt;")
    s = s.replace(">", "&gt;")
    if quote:
        s = s.replace('"', "&quot;")
        s = s.replace('\'', "&#x27;")
    return s

有时候还会碰到被转成了\u003e\u003c\u0026,这是JSON序列化搞出来的Unicode。

简要回顾

本文首先讲了怎么记忆编码和解码,然后通过字符代码和字符编码的差异,引出了如今常用的UTF-8,接着从发展历史来看,字符集是怎么发展到现在的。最后解释了Web URL中容易混淆的2个概念,URL Encode和URL Escape。

当然,如果过了不久还是忘了,那么只有把这篇文章翻出来再看一遍了(手动滑稽)。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-09-16 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
为什么不建议在MySQL中使用 utf8 ?
MySQL 字符编码集中有两套 UTF-8 编码实现:utf8 和 utf8mb4。
Guide哥
2021/10/21
1.1K0
字符,字符集,字符编码
现在Unicode已然一统天下,我想很多年轻的程序员可能都没遇到过编码问题,更不用说了解编码的发展了。前些日子在一个老网站上偶遇乱码,虽然入行时间不短,但对其究竟也是不甚了解,好奇心驱使下落入深坑。还好经过一段时间的摸爬滚打,边学边写,总算大概理清了个脉络,记录之,分享之。
_春华秋实
2019/02/22
1.6K0
字符,字符集,字符编码
字符集与字符编码总结
转载请注明出处。请前往 Tiga on Tech 查看原文以及更多有趣的技术文章。
Tiga
2020/01/23
1.2K0
字符集与字符编码总结
【YashanDB知识库】YashanDB的JDBC/OCI驱动如何设置字符编码
Oracle、Mysql数据库链接串,JDBC驱动连接串可以指定客户端的编码格式:
用户10349277
2025/02/20
610
计算机基础篇 | 一看就懂的字符集、ASCII、GBK、UTF-8、Unicode、乱码、字符编码问题
做通信的时候,或者使用IO流读写数据的时候脑袋总是晕晕乎乎的。 与计算机打交道久了,不可避免会看到“鬼画符”式的乱码,让人云里雾里的,特别烦人。
烟雨平生
2023/10/20
5.6K0
计算机基础篇 | 一看就懂的字符集、ASCII、GBK、UTF-8、Unicode、乱码、字符编码问题
代码的注释又变成“锟斤拷”了?都是字符集惹的祸!
人类世界有海量的文字,这些文字可以被刻在石头上,墙壁上,竹筒上。这一个个符号都是字符。而我们把字符组成的集合就叫做字符集。
程序员牛肉
2024/09/26
2470
代码的注释又变成“锟斤拷”了?都是字符集惹的祸!
关于字符集(彻底搞清楚一个中文占几个字节?)
冬天vs不冷
2025/01/21
2230
关于字符集(彻底搞清楚一个中文占几个字节?)
开发实践|MySQL的字符集(一)
开篇引言引自六一居士欧阳修的《卖油翁》,旨在告诉各位,简单的事情做对了,难得事情做好了,没有什么好的方法,只是让自己熟练而已。就像我们写文章,浅显的道理大家都懂,却又似懂非懂,最后造成了不懂装懂的地步,而我写文的目的也无外乎贻笑大方,给自己一个博文强记的用途。
六月暴雪飞梨花
2023/12/27
2120
开发实践|MySQL的字符集(一)
WEB:字符集、编码、乱码 —— 看这篇就够了
ASCII(美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统。它主要用于显示现代英语,是现今最通用的单字节编码系统。
WEBJ2EE
2019/07/19
4.2K0
WEB:字符集、编码、乱码 —— 看这篇就够了
Python字符编码全解析
字符编码是计算机编程中不可回避的问题,不管你用 Python2 还是 Python3,亦或是 C++, Java 等,我都觉得非常有必要厘清计算机中的字符编码概念。本文主要分以下几个部分介绍: 基本概念 常见字符编码简介 Python 的默认编码 Python2 中的字符类型 UnicodeEncodeError & UnicodeDecodeError 根源 基本概念 字符(Character) 在电脑和电信领域中,字符是一个信息单位,它是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字
小小科
2018/05/04
1.4K0
Python字符编码全解析
WEB开发中的字符集和编码
枕边书
2018/01/04
2.1K0
WEB开发中的字符集和编码
浅谈MySQL的乱码、字符集和比较规则
在文章开始前,大家可以先考虑几个问题,这样方便更快理解文章的知识点,下面的问题都会在文章中找到答案哦!
IT学习日记
2022/09/13
1.1K0
浅谈MySQL的乱码、字符集和比较规则
python与字符编码小记
用python2的小伙伴肯定会遇到字符编码的问题。下面对编码问题做个简单的总结,希望对各位有些帮助。 故事零:编码的定义 我们从“SOS“(国际通用求助信号)开始,它的摩斯密码的编码是: “…---…”,想一下为什么选用S、O、S来作为求救信号?因为它简单,容易辨别且不容易发错呀! 那么,字符编码就是: ´给定一系列字符,对每个字符赋予一个数值,用数值来代表对应的字符,这一数值就是字符的编码。例如,我们给字符’A’赋予数值0x41,则0x41就是字符’A’的编码。字符编码是字符的表现、储存方式。 字符编
腾讯移动品质中心TMQ
2019/05/23
9000
python与字符编码小记
理清字符集和字符编码关系
计算机内部由集成电路(Integrated Circuit,IC)构成,IC的所有引脚,只有直流电压0V和5V两个状态。也就是说,IC的一个引脚,只能表示两个状态。正是由于这个原因,决定了计算机的信息只能用二进制数处理。
木可大大
2018/04/10
1.7K7
理清字符集和字符编码关系
字符集详解
MySQL 字符编码集中有两套 UTF-8 编码实现:utf8 和 utf8mb4。
人不走空
2024/02/20
1580
字符编码技术专题(一):快速理解ASCII、Unicode、GBK和UTF-8
今天中午,我突然想搞清楚 Unicode 和 UTF-8 之间的关系,就开始查资料。
JackJiang
2023/09/27
2.6K0
字符编码技术专题(一):快速理解ASCII、Unicode、GBK和UTF-8
各种编码格式,你懂得!!!
GBK,ISO-8859-1,GB2312的本质区别 编码有几种 ,计算机最初是在美国等国家发明的 所以表示字符只有简单的几个字母只要对字母进行编码就好 我们标准码 iso-8859-1 这就是一个标准 但是后来计算机普及了 于是就中国要使用计算机了 但是机器不认得中文,于是就有了国际码。 gbk gb2312都是这类。两个其实一个,一个是标准(发布的代号),一个是简称。后来多了个阿拉伯语、日语、韩语......所以就出来统一编码UniCode ISO-8859-1编码是单字节编码,向下兼容ASCII,其编码范围是0x00-0xFF,0x00-0x7F之间完全和ASCII一致,0x80-0x9F之间是控制字符,0xA0-0xFF之间是文字符号。此字符集主要支持欧洲使用的语言。
李才哥
2019/07/10
11.1K0
各种编码格式,你懂得!!!
深入刨析字符乱码
一.背景 在日常Ulink活动跟进过程中,有时活动页面打开的时候会遇到乱码的情况(如下图所示),于是就想乱码到底是怎么产生的,遇到乱码的情况应该怎么去解决,带着这些问题,我去查阅了相关的资料,在这里整理成文章分享给大家,希望对大家有所帮助。 二.乱码产生的原因 我们都知道,计算机是只认识0和1的二进制数的,所以不管是字母,汉字,或者符号,都是以某种编码方式转换成二进制数据存放在计算机中,需要显示的时候,就用相同的编码方式把二进制数据解码出来就可以了。那么这就很好理解乱码的产生了,如果我们用A编码方式将
腾讯VTeam技术团队
2020/11/10
8640
字符、字符集、编码,以及它们python中会遇到的一些问题(上)
在看了很多的博客文章之后,总结整理得到了以下文章,非常感谢这些无私奉献的博主! 文章末尾有本文引用的文章的链接,如果有漏掉的文章引用,可以发邮件联系我,随后再次附上链接! 侵删!!! 这一部分是上篇,主要讲的是字符、字符集和字符编码的一些概念,以及他们在python中的一些简单的代码示例,偏向于概念。 下篇会说编码和解码部分,以及在python中会遇到的一些编码问题,偏向于实际应用一点。 这绝对是个源远流长的大坑,对于新手来说恶心致死(尤其是windows)........... 一、字符、字符
Echo_fy
2018/06/20
7070
常见字符集&乱码问题
位数:ASCII是用7位表示的,能表示128个字符;其扩展使用8位表示,表示256个字符。
全栈程序员站长
2022/09/05
6740
推荐阅读
相关推荐
为什么不建议在MySQL中使用 utf8 ?
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文