# 加载汉字笔画对照文件,参考同一目录下的 chinese_unicode_table.txt 文件格式 chinese_char_map = {} with open('....char: 单个汉字字符串 :return: 汉字的笔画数 """ if 0x4E00 <= ord(char) <= 0x9FA5: # 检查是否汉字范围内...return int(chinese_char_map.get(char, '汉字不存在')) else: return '非汉字字符' # 用户输入汉字,获取笔画数 if _...get_strokes(char) stroke_cell.value = strokes else: stroke_cell.value = '输入错误' # 保存修改后的Excel...有17页,可以打印出来了 95%,1610 99%,2847 10、看了一下姓名汉字在使用频率排序,复杂的汉字并不陌生。
因此,在1个7比特的字符编码空间,图形字符总计为94个(由于空格符占用了0x20码位、Del符占用了0x7F码位)。 对于双字节的7比特编码空间,图形字符可以有94x94即8836个。...例如笔画检字,艸部之“艹头”,中国、日本算作三画,而传统中文为四画,留有“艸”形者则为六画。Unicode同一字码,源于字形不同,就有几种笔画,检索混乱。即使检出字,笔画与显示出来的字形也不相符。...在 ISO/IEC JTC 1/SC 2 WG2申明中规定UCS-4将来所有的字符分配将被限制在Unicode范围内,所以UTF-32和UCS4能表示的字符是相同的。...(二)UTF-16 把Unicode字符集的抽象码位映射为16位长的整数(即码元)的序列,用于数据存储或传递。Unicode字符的码位,需要1个或者2个16位长的码元来表示,因此这是一个变长表示。...UTF-8就是为了解决向后兼容ASCII码而设计,Unicode中前128个字符,使用与ASCII码相同的二进制值的单个字节进行编码,而且字面与ASCII码的字面一一对应,这使得原来处理ASCII字符的软件无须或只须做少部分修改
它通过 Unicode 码点来表示,如同字母 'e',但是 Unicode 规定: 当显示码点时,应显示 emoji 图片而非字母 'e'。...通常您可能认为字体内容就是字母 'e' 的笔画定义,但实际上字体的功能非常强大,可以包含 bitmap、png、svg,甚至完整的程序——有人在字体中实现了一个 游戏 。...当以 Unicode 添加新的 emoji 时,新的 emoji 需要将新的 字形 或者可打印字符添加到 emoji 字体中——然后更新相应的表,字体就知道通过哪个码点来显示这个字形。...EmojiCompat.process 使用字典树来查找所有的子字符串来匹配一个已知的 emoji。 字典树是一种非常有趣的数据结构,它非常适合在字典中高效地查找单词 (或者 emoji)。...您可以理解为 EmojiCompat 就是使用字典在字符串中寻找 emoji,而对应字典内容的定义就是如何使用 EmojiSpan 来显示所需的 emoji。
但缺点是不灵活,每个字符码编码出的结果是固定的,如果存在这样一个场景:unicode四个字节中,英文字母只占很少的一部分,如果客户只使用英文,unicode中永远只有1个字节的数据是有意义的,剩下三个字节都没用到...unicode将字符码与编码解耦 在unicode中,每一个字符保证有唯一字符码,将 字符码到存储二进制之间的“字符编码”过程独立出来,提供了三种编码方法: UTF-8:使用1或2或3或4个字节。...比如当我们提到“数据库使用的是unicode字符集”,这样的说法是错误的,数据库中的数据一定要具体到某一种字符编码,只提到字符集是没有意义的,例如数据库使用UFT-8编码。...字符集:字符和字符码的映射关系,例如在ASCII中a的字符码就是97,表示在字符集的97号位置上是字符’a’。...字符编码:字符与字节流的映射关系,例如在ASCII中’a’的字节流就是01100001,在UTF中根据编码方式的不同,可能是01100001或0000000001100001。
本篇的两个小功能,处理下一般数据采集获取到的非理想文本数据:带unicode字符串的文本和带html特殊符号的文本。这些功能也是从实际需求中来。为了让数据处理更加得心应手,功能仍然不断新增。...最终我们还原后,应该得到下面的文本才是想要的。 ? 二、Unicode格式文本 我们采集到的数据中,可能会是以下展示的样式,非英文、数字的比如中文,用了Unicode字符表示(\u开头的)。 ?...在Excel催化剂里,必然是批量性操作最佳使用场合。...同样地,Unicode字符串还原为原字符,也有自定义函数。 ? 除此以外,还有大量的转换Utf8、从json提取、从xml提取指定元素、Url转码和还原等一大堆自定义函数。...上述自定义函数使用场景,数据源在Excel单元格或提取结果存储在Excel单元格,另如果是对整个文件的转换,就是本篇开发的两个小功能。 ?
然而,最近Unicode(统一码、万国码、单一码)宣布要发布13.0版本,划重点: 将把biáng包括在内的4939个生僻字收录到CJK 统一表意汉字 的扩展G区中。 ?...可以愉快的打出biáng字了? 答案是:别着急! 虽然Unicode收录了biáng,也做了版本更新,但是文字编码系统是内嵌在操作系统中的。 也就是说,还得等各个操作系统更新才有可能使用。...作为在全国都有影响力的“biang”字,很有必要将其收入字典、词典等工具书当中,让更多人了解陕西文化,了解汉字这一中华优秀传统文化。 所以,等这些条件都满足后,或许我们就可以打出biáng字了。...这位朋友,biáng字56笔画,你孩子考试写名字要112笔画起步…….确定吗? 关于Unicode Unicode从1990年开始研发,1994年正式公布。...Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了。 它解决传统的字符编码方案的局限,为每种语言中的每个字符设定了统一并且唯一的二进制编码。
(本来每一个字体都有贴示意图的,无奈博客园摆出来太影响美观,可以移步我的Github阅读) serif -- 衬线字体 serif,意为有衬线的字体,衬线的意思是在字符笔画末端有叫做衬线的小细节的额外装饰...,而且笔画的粗细会有所不同,这些细节在大写字母中特别明显。...笔画有粗细变化,是一种衬线字体,宋体在小字号下的显示效果还可以接受,但是字号一大体验就很差了,所以使用的时候要注意,不建议做标题字体使用。...fantasy 、cuisive fantasy和 cuisive 字体在浏览器中不常用,在各个浏览器中有明显的差异。...编码: 人们希望在一套系统里面能够容纳所有字符,Unicode 编码解决传统的字符编码方案的局限性,每个字符占用 2 字节。
原因跟数据库的Locale Support相关,数据库Locale的设置会影响排序的方式,比如说locale设置成zh_CN,中文字符就会按照拼音排序;如果设置成zh_TW,中文字符就会按照笔画排序(其他字符则按照...unicode的顺序)。...在这种collation方式下,排序方式是:忽略打头的特殊字符,比如“~”,“!”,“ ”,拉丁字母按ASCII码顺序排序,其他字符按unicode顺序排序。如下: ?...当然,在平台setup的时候,不可能覆盖所有国家。...从上面的排序结果可以看到,Java和Javascript排序的结果有点不一样,Java排序结果英文字符在中文字符前面,而Javascript排序结果英文字符在中文字符后面,这应该跟相应Library的实现有关
因为ISO-8859-1编码范围使用了单字节内的所有空间,在支持ISO-8859-1的系统中传输和存储其他任何编码的字节流都不会被抛弃。...即使字符"€"在latin1中的编码是0x80,但在Unicode(以及UTF-8)中,它的编码是U+20AC,对应的UTF-8编码的16进制表示是E282AC。...* BIG5中的全部汉字。* 与ISO 10646相应的国家标准GB13000中的其它CJK汉字,以上合计20902个汉字。* 其它汉字、部首、符号,共计984个。...四字节部分覆盖了从 0×0080 开始, 除去二字节部分已经覆盖的所有 Unicode 3.1 码位。...也就是说, GB18030 编码在码位空间上做到了与 Unicode 标准一一对应,这一点与 UTF-8 编码类似。4.
的文本导入向导一样,read_csv 可以采用多个参数来指定应如何解析数据。...查找字符串长度 在电子表格中,可以使用 LEN 函数找到文本中的字符数。这可以与 TRIM 函数一起使用以删除额外的空格。...=LEN(TRIM(A2)) 您可以使用 Series.str.len() 找到字符串的长度。在 Python 3 中,所有字符串都是 Unicode 字符串。len 包括尾随空格。...查找子串的位置 FIND电子表格函数返回子字符串的位置,第一个字符为 1。 您可以使用 Series.str.find() 方法查找字符串列中字符的位置。find 搜索子字符串的第一个位置。...查找和替换 Excel 查找对话框将您带到匹配的单元格。在 Pandas 中,这个操作一般是通过条件表达式一次对整个列或 DataFrame 完成。
偶然在微信读书上被推送了《秘本诸葛神数》,大致阅读了一下,发现步骤挺简单的,就简单写了个脚本模拟了一下。0x00 算法步骤原文凡占卦者。必先报字。报字不拘何字。必先以三字为度。不可报四字。...: 拿到所报的字后,将第一个字来算百位数字,第二个字来算十位数,第三个字来算个位数。原文凡字笔画。在九笔以内者照算。在十笔以外者。减十笔算。(二十笔同)若恰在十笔或二十笔。俱照零笔计算。...: 用对应字的笔画数模10,即除以10取余原文此书照大易三百八十四爻。作为三百八十四签。所报之字笔画以三百八十四为度。: 一共384条签文,组成的3位数字模384,将其对应到每一条签文中。...,通过得到的数字,在签文中找到对应签文查询签文0x01 爬取签文由于微信读书上的签文不全,检索之后在这里找到了完整的签文,写一个脚本将其爬取下来保存Auspicious文件夹中以待读取.import requestsimport...unihan数据库中下载下来包含汉字笔画信息的数据文件,Unihan下载地址, 编写脚本读取出每个汉字的笔画信息以json格式保存下来file = Path("Stroke/Unihan_IRGSources.txt
这对于英语来说是够用了,但是对于其他语言,这个7-bit就不能满足条件了,因为字符远远超过了7-bit所能表示的最大个数。...这里就不再对Unicode做过多的介绍,值得注意的是,在iOS开发中,常使用的的NSString是基于Unicode-16来开发的,这是因为当时开发这个的时候Unicode标准还是以16bit固定长度来编码...[5cfaotcrpz.png] 首先按照pinyin声调的先后顺序进行排序,即zh.xml底下列出的先后顺序进行排序。 如果是在同一行的汉字,则按照笔画由少到多的顺序进行排序。...可以在NSString.swift 中查看具体的实现。...当然,这里取出的数字可能超出了uint64_t表示的最大值,但是这种概率很低,在我们的名称排序中,很难遇到这么长的数字进行比较的。明白这个规则后,大家对字符串中出现的数字在进行排序时应该比较理解了。
GB2312 的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆 99.75% 的使用频率。...对于人名、古汉语等方面出现的罕用字,GB2312 不能处理,这导致了后来 GBK 及 GB18030 汉字字符集的出现。 GB2312 中对所收汉字进行了“分区”处理,每区含有 94 个汉字/符号。...“高位字节”使用了 0xA1 - 0xF7(把 01 - 87 区的区号加上 0xA0),“低位字节”使用了 0xA1 - 0xFE(把 01 - 94 位的位号加上 0xA0)。...例如“啊”字在大多数程序中,会以两个字节,0xB0(第一个字节)0xA1(第二个字节)储存。(与区位码对比:0xB0 = 0xA0 + 16, 0xA1 = 0xA0 + 1)。...国家标准 GB 18030-2005《信息技术 中文编码字符集》,是中华人民共和国现时最新的内码字集,与 GB 2312-1980 完全兼容,与 GBK 基本兼容,支持 GB 13000 及 Unicode
除了这些之外,Unicode 中还有一些特殊字符的,利用这些字符,我们还可以玩出很多有趣的骚操作。...在 HTML 中 Unicode 可以使用 N;(十进制,N 代表码值)表示 在 JS 中 Unicode 中需要使用] \uN(16 进制N 代表码值)表示 只要我们在普通字符多复制几个这类附加字符...零宽字符 Unicode 中还有一类格式字符,不可见,不可打印,主要作用于调整字符的显示格式,所以我们将其称为零宽字符。...短网址 我们常用的短网址,域名后面会跟上一串随机串,从而实现短网址到长网址的映射。...后台程序从 Excel 读取文本内容,然后程序中判断是读取的文本内容是否与指定的字符串相等。 然后当我们读取一份 Excel 内容后,返现这段比较逻辑怎么也通过不了。
Excel 插入选项卡下,有一个符号库,可以用来装饰报表。Power BI没有类似的库。以下介绍三个第三方整理的符号资源,可以在Power BI或Excel使用。...符号有两种在Power BI/Excel使用方式,一种是直接鼠标右键复制该符号,放到度量值、列、或者表格中: 第二种是,把下方的code用UNICHAR函数包裹起来进行显示: 知识星球提供了PBI...版本星友可以参考:https://t.zsxq.com/07EAEe6aA UNICODE字符百科 ---- 访问网址:https://unicode-table.com/cn/ 该网站的分类方式更便于查找...,鼠标悬停可获得该符号的HTML代码,该代码放入UNICHAR函数可以在Power BI/Excel正常显示。...也可以单击任意符号,获得该符号的HTML实体,使用UNICHAR函数在Power BI/Excel显示: 符号在Power BI的应用场景非常多,比如周边装饰、标题装饰、文本描述指标状况、表格矩阵条件格式
要想对Unicode字符进行大小不敏感的匹配,只要将UNICODE_CASE与这个标志(?i)合起来就行了。...Capture Group 0表示正则表达式匹配的全部,通常不使用,可能有相当长的长度。...true false 当且仅当两个字符的"正规分解(canonical decomposition)"都完全相同的情况下,才认定匹配。比如用了这个标志之后,表达式"a/u030A"会匹配"?"。...Capture Group 0表示正则表达式匹配的全部,通常不使用,可能有相当长的长度。...动态属性: 该处理器允许用户指定属性的名称和值。 属性名称 属性值 描述 用户自由定义的属性名称 具有一个或多个捕获组的正则表达式 在该处理器生成的文件流上添加用户自定义的属性。
有时候,我们希望找到要放入Excel工作表中的字符,但是不确定在哪里查找以及如何找到它们。UNICHAR函数允许我们输入一个数字,它会显示字符。...在网上,有许多Excel爱好者做出了一些表格,列出了Unicode符号,让你可以直观地进行选用。...其中有一个网站在对大多数可用字符进行分类方面做得非常出色,可对其稍作修改以在Excel中使用,从而专门用于Excel,不显示在HTML页面可以显示的所有字符。...图2 如果我们要在Excel中显示如下图3所示的星星,在先找到它后,看右下角的代码为“10024”。...图3 那么,我们在Excel中输入: =UNICHAR(10024) 即可显示星星符号了,如下图4所示。 图4 对于想要在Excel工作表中插入特殊符号的朋友来说,这里不失为一个查询的好地方!
左边是jupyter notebook中dataframe的样子,如果对应到excel中,他就是右边表格的样子,通过改变columns,index和values的值来控制数据。... 字符串类型是最常用的格式之一了,Pandas中字符串的操作和原生字符串操作几乎一毛一样,唯一不同的是需要在操作前加上".str"。...格式,int64对应的就是int格式,float64对应的就是float格式即可。...以案例数据为例,我们这些渠道数据,是在2019年8月2日提取的,后面可能涉及到其他日期的渠道数据,所以需要加一列时间予以区分,在EXCEL中常用的时间格式是'2019-8-3'或者'2019/8/3',...每一步都是本着小而美(毕竟臭美也算美)和轻量的初心,和大家一起重新认识回顾这些模块,然后在接下来的案例实践中检验、巩固、沉淀这些操作与分析思路。
50个实用技巧 ▽附动态说明图▽ 1、自动筛选 2、在Excel中字符替换 3、在Excel中冻结行列标题 4、在Excel中为导入外部数据 5、在Excel中行列快速转换 6、共享Excel工作簿 7...Excel中录制“宏” 14、在Excel中建立图表 15、在Excel中获取网络数据 16、用好Excel的“搜索函数” 17、在Excel中插入超级链接 18、在Excel中打印指定页面 19、在Excel...中直接编辑“宏” 20、用窗体调用“宏” 21、在Excel中运行“宏” 22、设置Excel标签颜色 23、防止Excel数据重复输入 24、给Excel中的数据添加单位 25、更改Excel缺省文件保存位置...26、保护Excel 工作簿 27、按钮调用“宏” 28、Excel自定义自动填充序列 29、Excel中设置数据对齐方式 30、Excel字符格式设置 31、Excel自定输入数据下拉列表 32、Excel...正确输入身份证号码 33、Excel数据排序操作 34、Excel数据表格中如何将姓名信息按笔画排列 35、Excel数据格式设置 36:Excel自定输入数据下拉列表 37、Excel内置序列批量填充