首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

utf8字符集下的比较规则

前言: 在MySQL中,比较常用的字符集是utf8和utf8mb4。...这两个字符集是类似的,utf8是utf8mb3的别名,所以之后在MySQL中提到utf8就意味着使用1~3个字节来表示一个字符,如果大家有使用4字节编码一个字符的情况,比如存储一些emoji表情啥的,需要使用...1.utf8下比较规则概览 我们先查看下utf8字符集下支持的所有比较规则: mysql> SHOW COLLATION LIKE 'utf8\_%'; +----------------------...每种字符集都有一种默认的比较规则,SHOW COLLATION的返回结果中的Default列的值为YES的就是该字符集的默认比较规则,比方说utf8字符集默认的比较规则就是utf8_general_ci...表名 MODIFY 列名 字符串类型 [CHARACTER SET 字符集名称] [COLLATE 比较规则名称]; 2.几种比较规则对比 utf8字符集下默认的比较规则是utf8_general_ci

1.3K21

MySQL字符集你还在使用错误的utf8

所有在使用“utf8”的MySQL和MariaDB用户都应该改用“utf8mb4”,永远都不要再使用“utf8”。 MySQL的“utf8”不是真正的UTF-8。...“utf8”只支持每个字符最多三个字节,而真正的UTF-8是每个字符最多四个字节。 MySQL一直没有修复这个bug,他们在2010年发布了一个叫作“utf8mb4”的字符集,绕过这个问题。 ?...同年9月,他们对MySQL源代码进行了一次调整:“UTF8现在最多只支持3个字节的序列”。 utfmb4字符集 支持BMP和补充字符。 每个多字节字符最多需要四个字节。...纯拉丁字符能表示的内容,没必要选择latin1之外编码,因为这会节省大量的存储空间 如果我们可以确定不需要存放多种语言,就没必要非得使用UTF8或者其他UNICODE字符类型,这回造成大量的存储空间浪费...这里是引用 总结 如果你在使用MySQL或MariaDB,不要再用“utf8”编码,而用“utf8mb4”。 推荐阅读 将现有数据库的字符编码从“utf8”转成“utf8mb4”。

1.2K10
您找到你想要的搜索结果了吗?
是的
没有找到

MySQL字符utf8和utf-8的关系

utf8 MySQL中实现了UTF-8编码的unicode 字符集 MySQL中utf8是utf8mb3的别名 utf8中,一个符号使用1~3个节点表示 对UTF-8支持不彻底,可采用utf8mb4字符集...utf8与utf8mb4的关系 都是实现了UTF-8编码的unicode 字符utf8仅支持基本多语言平面Basic Multilingual Plane (BMP) utf8mb4支持BMP之外的补充字符...(如emoji,emoji 是一种特殊的 Unicode 编码) utf8 一个字符最多使用3个字节存储,utf8mb4 一个字符最多使用4个字节存储 对于BMP字符utf8和utf8mb4具有相同的编码...,相同的长度 对于非BMP字符,utf8mb4使用4个字节来存储,utf8不能存储非BMP字符 innodb中默认最大可对767个字节建立索引 使用utf8 的列最多可对255个字符建立索引 使用utf8mb4...的列最多可对191个字符建立索引 超集 字符集A,B ,B支持的所有字符A都支持,A 是B超集 比如 GBK字符集是GB2312字符集的超集,它们又都是ASCII字符集的超集 utf8mb4是utf8

79210

python encoding=utf-8_python以utf8打印字符

一、字符编码问题 先介绍一下字符编码问题 1.ASCLL与GB2312 由于计算机是美国人发明的,因此,最早只有127个字符被编码到计算机里,也就是大小写英文字母、数字和一些符号,这个编码表被称为ASCII...Unicode标准也在不断发展,但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节)。...line: break else: try: # print(line) # print(line.decode('utf8...')) line.decode('utf8') #为了暴露出错误,最好此处不print except: print...然后使用line.decode(‘gbk’)解码,其中的errors参数: 修改字符集参数,一般这种情况出现得较多是在国标码(GBK)和utf8之间选择出现了问题。

76510

ASCII、 Unicode 和 UTF8

由此也可看出,当待保存文本为纯英文字母时, 采用Unicode的存储效率太低了 UTF8便是为了解决Unicode存储效率低下而产生的。具体的规则就不讲了,先来看一下UTF8能够达到的效果。...对于相同的文本:'abcd',Unicode需要12个字节,而UTF8只需要4个字节(和ASCII一样,达到最优)。 UTF8之所以可以用一个字节存储英文字母,是因此它使用了变长的编码方式。...所以UTF8对于存储英文字母的高效率来源于对之后字符保存效率的牺牲。这里的合理性在于:如果待保存的文本中字符大多数为英文字母,则存储效率能够提高,因为大多数字符都是采用一个字节保存。...总结来说, UTF8是对Unicode在存储效率上的优化 以上便是三者的关系。...Unicode存在存储效率低下的问题,UTF8是在这个方面对Unicode的优化。

1.3K20

UTF8变长编码

UTF8变长编码可以解决。有的文字是1个字节存储的,有的文字是2个字节存储的,还有3个字节存储的,还有4个字节存储的。 最后集合起来就是一共有一到四字节四种变长的编码。...把10这个比特用来连接多字节字符之间的多个字节。 还有一点要说明,就是一个UTF8格式的文件,它要表明它的身份,以让人用UTF8的读法来读它。...可能我们仔细的看一下这个文件的内容,看一下字节出现个格式,和我们上面所说的是否一样,也就知道它是不是UTF8编码了。...不过还有一种保险一点的方法,就是在文件的最开头加上三个字节的信息,这三个字节比较少见,所以一见到它们三个开头,我们就知道是UTF8格式的文件了,使用这种方式可以让我们快速判断出来文件是不是UTF8格式的...,有助于提高性能,不过这不是必须的,我们没有这三个字节也可以判断文件的格式是不是UTF8编码方式。

2.9K20

linux字符设备驱动

Linux下设备可以分为三种: 字符设备:数据的传输是以字节流的形式传输,如键盘、鼠标、触摸屏、摄像头,LCD显示屏等等。 块设备:数据是以块为单位传输的。如硬盘、U盘等存储设备。...Linux系统中,应用程序访问外设是通过文件的形式来进行的,Linux将所有的外设都看做文件,统一存放在/dev目录下。...linux如何管理文件 Linux把设备纳入文件系统的范畴来管理。 每个设备在Linux系统上看起来都像一个文件,它们存放在/dev目录中,称为"设备节点"。...Linux下设备的属性 设备的类型:字符设备、块设备、网络设备; 主设备号:标识设备对应的驱动程序。...从系统中卸载字符设备的函数:undefinedint unregister_chrdev(unsigned int major, const char *name); 驱动程序是以内核模块的形式表现的,

10.6K65

linux 字符设备驱动

Linux下设备可以分为三种: 字符设备:数据的传输是以字节流的形式传输,如键盘、鼠标、触摸屏、摄像头,LCD显示屏等等。 块设备:数据是以块为单位传输的。如硬盘、U盘等存储设备。...Linux系统中,应用程序访问外设是通过文件的形式来进行的,Linux将所有的外设都看做文件,统一存放在/dev目录下。...linux如何管理文件 Linux把设备纳入文件系统的范畴来管理。 每个设备在Linux系统上看起来都像一个文件,它们存放在/dev目录中,称为"设备节点"。...Linux下设备的属性 设备的类型:字符设备、块设备、网络设备; 主设备号:标识设备对应的驱动程序。...从系统中卸载字符设备的函数:undefinedint unregister_chrdev(unsigned int major, const char *name); 驱动程序是以内核模块的形式表现的,

9.6K45

关于 MySQL UTF8 编码下生僻字符插入失败假死问题的分析

也就是说,任何不在基本多文本平面的 Unicode字符,都无法使用 Mysql 的 utf8 字符集存储。...当使用 utf8 字符集时,需要保留的长度就是 utf8 最长字符长度乘以字符串长度,所以这里理所当然的限制了 utf8 最大长度为 3,比如 CHAR(100)  Mysql 会保留 300字节长度。...最后顺便总结下4字节utf8字符的系统支持情况: windows xp: 我所测试的xp系统都不支持4字节utf8字符, 浏览器用占位符显示 windows 7: 支持4字节utf8字符...mac os x: 支持4字节utf8字符 iPhone/iPad: 支持4字节utf8字符 许多的数据库软件或者shell终端都不支持4字节utf8字符, 比如 Navicat、SecureCRT...utf8字符的支持还是有必要的.

3.3K90

MySQL不要再用utf8

INSERT INTO user_info ( user_id, user_name, emoji ) VALUES ( 1, '蔡坨坨', '' ); 原因分析 在MySQL数据库中,utf8编码只支持每个字符最多...但是,他们并没有对新的字符集utf8mb4广而告之,可能是因为这个Bug让他们很尴尬,以至于很多人都还默认使用utf8,并且现在网络仍然建议开发者使用utf8,这些建议其实是错误的。...utf8mb4才是真正的UTF-8 没错,MySQL中的utf8mb4才是真正的UTF-8,MySQL中的utf8其实是一种专属的编码,它能编码的Unicode字符并不多。...所有还在使用utf8编码格式的MySQL和MariaDB用户都应该改成utf8mb4,且不再使用utf8,避免出现类似的问题。...不过很显然,在这个不合法的字符集发布之后,MySQL就无法修复它,因为这样需要要求所有的用户重构他们的数据库,所以MySQL中utf8还是最多支持3个字节,最终,MySQL在2010年发布了utf8mb4

2K20

utf8中文字符串的多模式匹配算法的优化

OS是tlinux2(腾讯自研的Linux发行版)。该业务目前载入11万3千条规则。..., P2, ..., Pn},输入一个utf8编码的字符串string,输出有哪些模式Px在string中出现。...而我们的业务处理的字符多是utf8编码的中文,一个中文字有3个bytes,当处理中文时,显然步长可以放心地提到3bytes。...一般地,utf8编码的首字节记载了当前“字”的长度3,这个长度即可以作为“跳字符”的步长。在中文字占绝对多数的情况下,平均步长应该非常接近3,而旧算法只有1。...扫描utf8字符串时,每次取一个Bigram,虽然跳节符跳字符步长仍然是一个utf8字符,但因为每次取出两个utf8字组成Bigram增加了上下文信息,匹配效率将大大增加,大量地减少了因为单个utf8字匹配到模式第一个

3.8K30

linux(四)之元字符

一直觉得linux是一个非常高深的东西,但是慢慢学过来其实就是一堆一堆的命令执行,让一个程序运行的结果。 只有你有毅力去学习,并且系统的去学习我相信没有什么恶意难道自己的。...接下来我们一下来感受一下linux的元字符的操作。 觉得小编不错的可以点个推荐哦 一、什么是元字符?...元字符(Meta Character)是指键盘上可输入的对于Shell来说具有其他特殊含义的字符被称为元字符,不同的Shell元字符不一定相同。...简单的讲就是元字符:一些有特殊意义的字符,可以替代其他的字符。...匹配单个字符(有且只匹配一个字符) 举例: 查询test目录第二个字符为b的文件? ls ?

1.3K70
领券