搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

[开发技巧] 如何获取汉字笔画数？
数据库unihan数据库是一个由Unicode联盟维护的汉字数据库，看起来很靠谱，还提供了在线的工具。在其在线查询工具Unihan Database Lookup中进行检索，发现查询结果中存在kTotalStrokes字段，即为所需的笔画数数据。从Unihan数据库中获取笔画信息最开始打算直接通过lookup发送查询请求，hmmm，太慢了，地址在国外。发现数据库文件本身也不大，就直接下载下来了。 Unihan下载地址打开压缩包，有文件若干.通过lookup检索得到的结果，我们要的kTotalStrokes字段在IRG Source中,取出该文件。在regex101中测试正则，取出要的unicode部分和笔画数部分，单独存成文件, 以供查询.编码提取笔画信息file = Path("Stroke/Unihan_IRGSources.txt")output
55700编辑于 2024-12-22
用python实现诸葛神数
", mode="w") as f: print(f"第{number}卦:\t{auspicious}") f.write(auspicious)0x02 获取汉字笔画在unihan 数据库中下载下来包含汉字笔画信息的数据文件,Unihan下载地址, 编写脚本读取出每个汉字的笔画信息以json格式保存下来file = Path("Stroke/Unihan_IRGSources.txt
18200编辑于 2024-12-24
来自专栏bit哲学院
[383]python unicodedata用法
UCD中最庞大的文件无疑就是描述汉字属性的文件Unihan.txt。在UCD 5.0,0中，Unihan.txt文件大小有28,221K字节。 Unihan.txt中包含了很多有参考价值的索引，例如汉字部首、笔划、拼音、使用频度、四角号码排序等。这些索引都是基于一些比较权威的辞典，但大多数索引只能检索部分汉字。
82940发布于 2020-12-24
来自专栏GopherCoder
『Go 语言学习专栏』-- 第十三期
顺藤摸瓜，作者已经告诉你了：pinyin 数据 Unihan Database 数据版本： Date: 2017-05-14 07:01:48 GMT [JHJ] Unicode version: 10.0.0 kHanyuPinyin.txt: Unihan Database 中 kHanyuPinyin 部分的拼音数据（来源于《漢語大字典》的拼音数据） kXHC1983.txt: Unihan Database 中 kXHC1983 部分的拼音数据（来源于《现代汉语词典》的拼音数据） kHanyuPinlu.txt: Unihan Database 中 kHanyuPinlu 部分的拼音数据（来源于《現代漢語頻率詞典》的拼音数据） kMandarin.txt: Unihan Database 中 kMandarin 部分的拼音数据（普通话中最常用的一个读音。
1.2K20发布于 2018-06-04
来自专栏python前行者
python unicodedata用法
UCD中最庞大的文件无疑就是描述汉字属性的文件Unihan.txt。在UCD 5.0,0中，Unihan.txt文件大小有28,221K字节。 Unihan.txt中包含了很多有参考价值的索引，例如汉字部首、笔划、拼音、使用频度、四角号码排序等。这些索引都是基于一些比较权威的辞典，但大多数索引只能检索部分汉字。
3.1K31发布于 2019-03-25
来自专栏火丁笔记
Unicode and UTF-8
shell> php -r 'echo dechex(19968);' 4e00 shell> php -r 'echo dechex(40908);' 9fcc 在 Unicode 官方网站，我们能查到 Unihan
1.1K30编辑于 2021-12-14
来自专栏AustinDatabases
Mongodb 也有collation 与如何使用
撰写的方式为 { "locale" : "zh@collation=unihan" } 2 strength 这个参数是整体mongodb collation不可缺失的部分，其中分为5个部分，一般我们至少选择
77530编辑于 2023-02-28
来自专栏黑泽君的专栏
这些网站，99%人用过都说是神器，还不收藏！
---------------------------------------------------------------------- 名章篆刻 - 书同文汉字网： https://hanzi.unihan.com.cn
1.6K30发布于 2018-10-12
来自专栏刨根究底学编程
刨根究底字符编码之五——简体汉字编码方案(GB2312、GBK、GB18030、GB13000)以及全角、半角、CJK
CJK指的是中日韩统一表意文字(CJK Unified Ideographs)，也称统一汉字(Unihan)，目的是要把分别来自中文(包含壮文)、日文、韩文、越文中，起源相同、本义相同、形状一样或稍异的表意文字在
5.2K10编辑于 2022-05-09
来自专栏智能文本处理
文字语义纠错技术探索与实践
其中构建语音嵌入时，使用Unihan数据库得到字符-拼音的映射表(不考虑音调)，然后将每一个字的多个拼音字母序列输入到GRU网络中，得到该字的拼音嵌入向量。
1.7K21编辑于 2022-12-21
来自专栏【腾讯云开发者】
从JavaScript看字符编码的前世今生！
（三）中日韩统一表意文字-汉字的纠结中日韩统一表意文字（英语：CJK Unified Ideographs），也称统一汉字、统汉码（英语：Unihan），目的是要把分别来自中文、日文、韩文、越南文、壮文
98210编辑于 2022-05-18

[开发技巧] 如何获取汉字笔画数？

用python实现诸葛神数

[383]python unicodedata用法

『Go 语言学习专栏』-- 第十三期

python unicodedata用法

Unicode and UTF-8

Mongodb 也有collation 与如何使用

这些网站，99%人用过都说是神器，还不收藏！

刨根究底字符编码之五——简体汉字编码方案(GB2312、GBK、GB18030、GB13000)以及全角、半角、CJK

文字语义纠错技术探索与实践

从JavaScript看字符编码的前世今生！

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

[开发技巧] 如何获取汉字笔画数？

用python实现诸葛神数

[383]python unicodedata用法

『Go 语言学习专栏』-- 第十三期

python unicodedata用法

Unicode and UTF-8

Mongodb 也有collation 与 如何使用

这些网站，99%人用过都说是神器，还不收藏！

刨根究底字符编码之五——简体汉字编码方案(GB2312、GBK、GB18030、GB13000)以及全角、半角、CJK

文字语义纠错技术探索与实践

从JavaScript看字符编码的前世今生！

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Mongodb 也有collation 与如何使用