如果你需要在Linux中操作windows下的文件,那么你可能会经常遇到文件编码转换的问题。Windows中默认的文件格式是GBK(gb2312),而Linux一般都是UTF-8。下面介绍一下,在Linux中如何查看文件的编码及如何进行对文件进行编码转换。
上一篇呢,从理论上介绍了MYSQL字符集和校对规则是什么以及如何正确的使用字符集;关于第一部分的内容可参考:深入理解MySQL字符集及校对规则(一)
原文:http://demi-panda.com/2012/12/26/vim-encoding/
字符集是对特定语言中所有可读或可显示字符的称呼。例如英语、汉语、日语等都是不同的字符集。字符集决定了可以展示和表示的字符范围。在字符集中,需要使用编码字符集来实现字符的编码和转码。编码字符集使用编码值来表示字符在字库表中的位置。字库表是一个包含了所有可读或可显示字符的数据库,它决定了字符集能够展示的所有字符的范围。字符编码定义了编码字符集和实际存储数值之间的转换关系。常见的字符编码方式包括ASCII、ISO 8859-1、GB2312、GBK等。常情况下,一个字符集对应一个编码方式,比如ASCII、ISO 8859-1、GB2312、GBK等都是针对特定字符集的编码方式。
背景:目前正在进行业务重构,需要对使用MySQL的业务库表进行重新设计,在迁移时,遇到了中文字符乱码问题(源库表的默认编码是LATIN1,新库表的默认编码为UTF8),故重新学习了下MySQL编码和解码相关知识,并整理了在遭遇乱码时的一些常用技巧。(本文发布于云+社区:https://cloud.tencent.com/developer/article/1370123)
本文将详细介绍MySQL乱码的成因和具体的解决方案。在阅读本文之前,强烈建议对字符集编码概念还比较模糊的同学 阅读下博主之前对相关概念的一篇科普:十分钟搞清字符集和字符编码 MySQL出现乱码的原因
如上面代码,str\str1\str2均为字符串类型(str),给字符串操作带来较大的复杂性。
# Auther: Aaron Fan ''' ASCII:不支持中文,1个英文占1个字节 Unicode(万国码,支持所有国家的文字显示):支持中文,但是每个英文和中文都占2个字节 UTF-8(是一种针对Unicode的可变长度字符编码,又称万国码。): 英文依然按照ASCII的方式占1个字节,所有的中文字符统一是3个字节 Unicode里面支持各个国家的编码转换,比如当中国的gbk格式的软件在日本打开出现乱码的时候, 必须把gbk转成Unicode编码后才可以正常显示。 GBK:
字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。 字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。 字符编码(Character encoding)是把字符集中的某个字符编码为指定字符集中字符,以便文本在计算机中存储和通过通信网络的传递。常见的例子包括将拉丁字母表编码成ASCII,ASCII将字母、数字和其它符号编号,并用7比特的二进制来表示。 字符序(collation)是指同一个字符集内字符之间的比较规则。只有确定字符序后,才能在一个字符集上定义什么是等价的字符,以及字符之间的大小关系。一个字符可以包含多种字符序。MySQL字符序命名规则是:以字符序对应的字符集名称开头,以国家名居中(或以general居中),以ci、cs、或bin结尾。以ci结尾的字符序表示大小写不敏感,以cs结尾的字符序表示大小写敏感,以bin结尾的字符序表示按二进制编码值比较。
说到多字节字符串与宽字符串,不得不说一下多字节字符与宽字符。多字节字符实际上是由多个字节来表示一个字符,在各个国家和地区采用不同的编码方案,不同编码方案字符码值是不同的,比如常见的中国大陆的GBK和GB18030、台湾同胞的Big5h,以及国际通过的UTF8编码等。宽字符指的是由统一码联盟制定的Unicode编码方案收录的字符,使用4个字节来表示一个字符。关于字符编码可参见博文精述字符编码。
相同点:python解释器是解释执行文件内容的,因而python解释器具备读py文件的功能,这一点与文本编辑器一样
想必 iconv 这个扩展的相关函数大家多少都接触过,做为 PHP 的默认扩展它已经存在了很久,也是我们在操作字符编码时经常会使用的函数。不过除了 iconv() 这个函数外,你还知道它的其它函数吗?今天,我们就来学习一下 iconv 扩展中的各种好玩的函数。
在日常开发中PHP用的较多,很多时候有一些小的脚本要做,并不是什么大的项目,那么有一些脚手架的函数这么多年来发现常用的就那么几个,这里整理下方便共享
云端传下来的中文是Unicode编码,通过cjson把它转成了utf-8格式。这个格式在STM32上显示是乱码,需要转换成GBK才行。
编码转换 一些老的项目,文件编码用的还是gbk,很不利于扩展及维护。经常需要在程序中进行判断及转码,容易出现乱码现象。最好的方式就是将整个项目转成utf-8。那么如何批量将一个目录下的文件转编码? 思路 找出目录下的所有文件类型 遍历要转码的文件类型,如.php 利用vim的set fileencoding=utf8进行转码 具体实现 设置~/.vimrc set fileencodings=utf-8,ucs-bom,gb18030,gbk,gb2312,cp936 set termencoding=ut
比如一款游戏《大话西游》用的是gbk编码开发的。出口到欧美国家,是无法直接运行的。
我们知道,计算机是以二进制为单位的,也就是说计算机只识别0和1,也就是我们平时在电脑上看到的文字,只有先变成0和1,计算机才会识别它的意思。这种数据和二进制的转换规则就是编码。计算机的发展中,有ASCII码,GBK,Unicode,utf-8编码。我们先从编码的发展史了解一下编码的进化过程。
json.dumps(var,ensure_ascii=False)并不能解决中文乱码的问题
Windows 早期采用多字节编码,的确容易出现乱码问题。随着 Windows 全面转向 Unicode 编码,多语言的支持得到完美解决,出现中文乱码的问题就很少出现。出现乱码问题一般是 GBK 编码的文件当做 utf8 编码打开,或者 utf8编码的文件当做 GBK 编码打开。这种情况也多出现在 Linux 和 Windows 之间交换文件。
关于编码问题前面一共整理4篇博客,这是终篇。我使用MySQL时经常会遇到乱码问题,尤其是涉及到中文和emoji表情符号时,然而当我查询资料时发现大多数资料几乎雷同,寥寥几句仅贴了几个参数的定义,并没有案例来详细说明,因此我利用几个周末时间整理出这个编码系列博客,希望能对和我同样深受编码困扰的人提供些帮助,当然能力有限,里面很多观点是我根据各种资料的推测,并没有在相关文档中找到确切的描述佐证,可能有理解偏颇之处。
python编码如果把中文数据存储至sqlite数据库某一字段中,再通过查询语句取出并进行相关的字符串操作时,经常会出现错误提示,类似于UnicodeDecodeError,提示某一类型编码不能转换。
当url地址含有中文,或者参数有中文的时候,这个算是很正常了,但是把这样的url作为参数传递的时候(最常见的callback),需要把一些中文甚至'/'做一下编码转换。
在php中iconv函数库能够完成各种字符集间的转换,是php编程中不可缺少的基础函数库;但有时候iconv对于部分数据转码会无缘无故的少一些。比如在转换字符”—”到gb2312时会出错。
在使用MySQL时要注意6个需要编码的地方:系统的编码、客户端、服务端、库、表、列。字符集编码不仅影响数据存储,还影响client程序和数据库之间的交互.在mysql中输入命令show session variables like '%char%'能够看到例如以下一些字符集(下面是以win10为例,生产中多数时linux,在linux里面除了latin1之外都是utf8的字符集):
以下配置项是Linux系统的本地化(localization)设置,用于控制系统在不同方面如何呈现和处理数据。下面是每个配置项的解释:
代码编译运行环境:Windows 64bits+VS2017+Debug+Win32
为什么会报错“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”?本文就来研究一下这个问题。
视频汇总首页:http://edu.51cto.com/lecturer/index/user_id-4626073.html
编码问题,一直是使用python2时的一块心病。几乎所有的控制台输入输出、IO操作和HTTP操作都会涉及如下的编码问题:
#!/bin/bash # gb2312 转 utf8 编码 # 开发 : 小绿叶技术博客 eisc.cn # date : 2023.2.27 dir="./" ; echo "当前目录: $dir" sudo chmod 777 -R $dir/* # FileList=(`du -ah $dir | awk -F" " '{print $2}'`) # find ./ -type f | xargs dos2unix # 列出所有文件和目录 # xargs 作用是将管道前面的结果内容(
在做一个phpexcel导入csv数据时,出现诡异现象, 本地windows下调试顺畅, 无乱码, 发布到linux服务器后出现乱码了. 各种排查, 初步以为是iconv编码转换的问题, 各种编码尝试, gbk, gb2312, utf8, asii等都不行. 最后看到了其使用的 fgetcsv函数. php手册中有这么一句备注: Note: 该函数对区域设置是敏感的。比如说 LANG 设为 en_US.UTF-8 的话,单字节编码的文件就会出现读取错误。 一看服务器phpinfo的LA
以前一直使用Eclipse,现在试用IDEA,遇到一些坑,通过网上的答案基本都解决了,但有些答案不好,比如这个问题。
!!!Java要转换字符编码:就一个String.getBytes("charsetName")解决,返回的字节数组已经是新编码的了~~至于后边是new String组装还是网络发送,就再处理了。 1 try { 2 String test = "一"; 3 System.out.println(System.getProperty("file.encoding"));// java默认编码是UTF-8 4 System
以下内容转自博客:http://blog.chinaunix.net/uid-22670933-id-1771613.html。
目录 1、一个建表语句引出的问题 2、查看当前电脑使用的字符集 3、你发现这个问题了吗? 4、你不熟悉的几个命令 1)连接器connection的作用与工作流程(文字叙述) ① 连接器的作用 ② 连接器的工作流程 2)图示法讲解connection的作用与工作流程 ① 第一种方式 ② 第二种方式 5、上述两种图示法的实际操作演示 1)先了解如下几个代码 2)代码演示过程如下 6、产生乱码的两个原因 1)编码和解码不一致导致的乱码 2)传输过程中,丢失字节导致的乱码 7、对实际情况的分析(什么都不设置,系统默认是如何呢?) 1)MySQL系统参数如下 2)set names gbk的含义
参考链接: Python-Json 2 : 使用json.load/loads读取JSON文件/字符串
最近给甲方爸爸做渗透测试时发现了一个诡异的SQL注入,之所以说诡异,是因为该系统数据库连接编码与实际的数据库编码不一致,并且数据库表字段名使用了中文的字段名,导致通过正常手段无法获取到数据库数据。
JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。
在Python2.X及Python3有时经常碰到各种中文乱码的情况,这里整理了相关各种情况汇总。
近期在项目中,要对1张100多万条记录的表进行查询,然后进行一些数据的统计,但是在这个过程中,发现只查询出来几条数据就出现了UnicodeDecodeError了。 在这里,我们使用sqlalchemy库进行查询,其内部还是Cx_Oracle来进行对应的操作,使用的Python版本为3.5.0,宿主系统为Windows 2008 Server,然后进行类似如下的操作: from sqlalchemy import create_engine engine = create_engine('oracl
版权声明:本文为博主原创文章,欢迎扩散,扩散请务必注明出处。 https://blog.csdn.net/robinson_0612/article/details/91175314
character-set-server/default-character-set:服务器字符集,默认情况下所采用的。 character-set-database:数据库字符集。 character-set-table:数据库表字符集。 优先级依次增加。所以一般情况下只需要设置character-set-server,而在创建数据库和表时不特别指定字符集,这样统一采用character-set-server字符集。 character-set-client:客户端的字符集。客户端默认字符集。当客户端向服务器发送请求时,请求以该字符集进行编码。 character-set-results:结果字符集。服务器向客户端返回结果或者信息时,结果以该字符集进行编码。 在客户端,如果没有定义character-set-results,则采用character-set-client字符集作为默认的字符集。所以只需要设置character-set-client字符集。
今天在修改论文在线的时候,遇到了iconv这个函数。学习一下 header('Content-Type: application/vnd.ms-excel;charset=UTF-8"'); $name=iconv('utf-8', 'gb2312', $data['year'].'年,第'.$data['period'].'期通信录'); header('Content-Disposition: attachment;filename="' . $name . '.xls"'); header('Cach
字符串在Python2.7内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码成unicode,再从unicode编码成另一种编码。
字符集是英文,汉字或者其他语言字符的集合, 字符集种类有很多, 每个字符集包含的字符个数也不相同. 字符编码方式是用一个或多个字节表示字符集中的一个字符; 每种字符集都有自己编码方式, 因此同一个字符, 在不同字符集的编码方式下, 会产生不同的二进制值;
Header('content-Type:application/vnd.ms-excel;charset=utf-8');
领取专属 10元无门槛券
手把手带您无忧上云