虽然标准的泰文里,“帽子”和“鞋子”的数量是有限制的,但由于国际码的迷之设计(先卖个关子),在计算机里显示的泰文字符,却可以拥有无数的帽子和鞋子。也就是说,它变成了一款可以在Y轴无限拓展的文字!...简单的说,泰文的每个基本字符对应一个编码,用户在输入法里依次输入多个基本字符进行拼合,最后敲一个特殊的“结束字符”;这时前面输入的基本字符,就拼合成了一个单独的泰文字符,在屏幕中显示。...人可以轻松地识别一个泰文合字是否拼写正确、有意义;但机器在显示时却很难进行判断,即使可以也会带来相应的性能问题。 如何解决呢?如今会在输入法上做一些文章,比如打一个声调符号后就不能再输入了。...其次,在比较新版本的Webkit里,在显示上会阻止这种往上下冒的字符,这样至少不影响排版。...除此之外—— ▷ˋε´◁ 中 ε 是希腊字母 ʕ-'ᴥ’-ʔ 中 ʕᴥʔ 是国际音标 (·ཀ·」∠) 中 ཀ 是藏文 (ง •̀_•́ )ง 中 ง 是泰文 罒 д 罒 中 罒 是中文(同网),д 是俄语西里尔字母
这将帮助我们为应用选择正确的选项,以确保我们以经济高效的方式获得最佳性能。 在本章中,我们将深入探讨可用于在 Google Cloud Platform(GCP)上构建和运行 AI 应用的选项。...在 Dataproc 集群下,Google 实际上运行计算实例。 用户可以从广泛的计算机配置中进行选择来构建集群,或者如果现有计算机配置不能满足需求,则用户也可以使用自定义计算机配置来构建集群。...请在使用 Spark 的 Dataproc 集群上尝试相同的示例。 总结 在本章中,我们学习了在 GCP 上构建 AI 应用时对我们有帮助的所有组件。...这个页面上的代码表示如何在 Python 中完成梯度提升。 此代码用于在 Python 中实现梯度提升。 但目的还在于显示如何在多次迭代后减少误差。...displayName:此字段是 GCP Web 界面中显示的模型的名称。 名称可以由用户选择。 管理此字段名称的规则如下: 长度最多为 32 个字符。
在Windows平台下,进入DOS窗口,输入:chcp ,可以得到操作系统的代码页信息,你可以从控制面板的语言选项中查看代码页对应的详细的字符集信息。...当时通用的操作系统都是命令行界面系统,这些操作系统直接使用BIOS供应的VGA功能来显示字符,操作系统的编码支持也就依靠BIOS的编码。现在这BIOS代码页被称为OEM代码页。...阿拉伯文(DOS) 850 多语言(拉丁文 I) 852 中欧(DOS) - 斯拉夫语(拉丁文 II) 855 西里尔文(俄语) 857...GB2312)现在是GBK了,GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准。...西里尔文(KOI8-R) 21866 西里尔文(KOI8-U) 28592 中欧(ISO) 28593 拉丁文 3 (ISO) 28594 波罗的海文
我甚至在考试后在给后团队的Slack笔记中推选它为首选课程。...(例如cos(X) 或 X²+Y²) • 必须了解Dataflow、Dataproc、Datastore、Bigtable、BigQuery、Pub/Sub之间的区别,以及如何使用它们 • 考试中的两个案例研究与实践中的案例完全相同...,但我在考试期间根本没有阅读这些研究(这些问题可见一斑) • 了解一些基本的SQL查询语法非常有用,特别是对于BigQuery问题而言 • Linux Academy和GCP提供的练习考试与考试的真题非常相似...,我会做大量模拟练习,找到自己的短板 • 帮助记忆Dataproc的打油诗:「Dataproc the croc and Hadoop the elephant plan to Spark a fire...MongoDB,Cassandra)的曾用名 • 每个服务的IAM功能略有不同,但了解如何将用户从可以看见数据与可以设计工作流分离开来是有益处的(例如,Dataflow Worker可以设计工作流,但不能查看数据
虽然标准的泰文里,“帽子”和“鞋子”的数量是有限制的,但由于国际码的迷之设计(先卖个关子),在计算机里显示的泰文字符,却可以拥有无数的帽子和鞋子。也就是说,它变成了一款可以在Y轴无限拓展的文字!...简单的说,泰文的每个基本字符对应一个编码,用户在输入法里依次输入多个基本字符进行拼合,最后敲一个特殊的“结束字符”;这时前面输入的基本字符,就拼合成了一个单独的泰文字符,在屏幕中显示。...脑洞大开的艺术家们,又会想到另外一个好玩的事情:我能不能拿老挝文的“帽子”,组合“藏文”的鞋子,合成一个独立的字符呢? 他们赢了。不久,颜文字开始流行。...[图片] 四、字体的错位 前面我们一直在谈字符的本质,但字符在屏幕中的展示,还有一个关键的因素:字体。 相同的字符,使用了不同的字体,它们的显示也会有差别。...我们查看西里尔文计数法的wiki,可以看到它只有配合西里尔数字时,才能展示正常: 至于你把它跟其他语言组合在一起时,我们要么看到错位,要么看到分离的展示。而且国际上并没有一个组织,去规定要怎么展示。
表示不显示@后面的命令,在入侵过程中(例如使用批处理来格式化敌人的硬盘)自然不 能让对方看到你使用的命令啦。...850 多语言(拉丁文 I) 852 中欧(DOS) - 斯拉夫语(拉丁文 II) 855 西里尔文(俄语) 857 土耳其语 860 葡萄牙语 861 冰岛语 862 希伯来文(DOS) 863 加拿大...(Windows) 1258 越南文(Windows) 20866 西里尔文(KOI8-R) 21866 西里尔文(KOI8-U) 28592 中欧(ISO) 28593 拉丁文 3 (ISO) 28594...波罗的海文(ISO) 28595 西里尔文(ISO) 28596 阿拉伯文(ISO) 28597 希腊文(ISO) 28598 希伯来文(ISO-Visual) 38598 希伯来文(ISO-Logical...字符必须在用 /C 选项指定的一组选择中; 同时,必须用 /T 指定 nnnn /M text 指定提示之前要显示的消息。
它基于Bitstream Vera和DejaVu项目,扩展了字符集支持,包括ASCII、Latin-1、Latin Extended A、希腊文和西里尔文,并默认支持Powerline符号。...b.功能特性字符集支持:支持ASCII、Latin-1、Latin Extended A、希腊文、西里尔文等,满足多语言编程需求。...e.潜在新需求(1)需求1:用户希望增加中文等非拉丁字符集支持,以改善中英文混排时的显示效果。(2)需求2:用户希望提供更简单的自定义构建选项,如通过配置文件选择替代字形样式,避免手动编译。...(3)需求3:用户希望优化符号字符(如箭头、数学运算符)的显示大小和位置,确保在高分辨率环境下清晰可辨。...(4)需求4:用户希望增强字体在特定IDE(如VS Code、IntelliJ)中的集成支持,提供一键配置指南。(5)需求5:用户希望增加连字(ligatures)支持,以提升代码的可读性和美观性。
IDN同形攻击:用西里尔字母冒充拉丁字母国际化域名(Internationalized Domain Names, IDN)允许使用非ASCII字符(如中文、阿拉伯文、西里尔字母)注册域名。...问题在于,某些Unicode字符在视觉上与拉丁字母极其相似。...这些字符在屏幕上完全不可见,却能改变字符串的实际内容。...由于浏览器地址栏不显示这些字符,用户毫无察觉。此类技巧甚至可绕过部分基于字符串匹配的URL过滤规则。...距离 + 字形特征)示例Python代码检测零宽字符:import unicodedatadef contains_zero_width(text):zero_width_chars = {'\u200B
然而,现代浏览器为了提升用户体验,会在地址栏中将Punycode解码回原始的非ASCII字符显示。如果攻击者精心挑选与目标域名字符形状极度相似的Unicode字符,就能实现完美的视觉欺骗。...) vs 西里尔字母 у (U+0443)除了单字符替换,攻击者还可能利用零宽字符(Zero-Width Characters,如U+200B Zero Width Space)插入到域名中。...虽然大多数浏览器会隐藏这些字符,但在某些特定的渲染环境或旧版系统中,它们可能导致域名显示错位或被安全工具忽略,从而绕过基于字符串匹配的检测规则。...零宽字符干扰:在域名中插入不可见的零宽字符,干扰基于正则表达式的检测工具,而人类视觉不受影响。...会话重用验证:利用Python的requests库,我们将窃取的Cookie注入到新的HTTP请求中,尝试访问https://graph.microsoft.com/v1.0/me接口。
unicode 回忆上次内容 中国的简体和繁体汉字 字符数量都超级大彼此还认对方为乱码如果有一种编码所有的字符都能编进去就好了 中日韩(CJK)欧洲拼音梵文阿拉伯文卢恩字符等等等都包括进去添加图片注释...回顾历史 计算机中只有 0 和 1 并且是存储在字节里的原来只能表示和处理数字字符无法处理后来某些二进制数固定下来代表某个字符 形成了字符集从博多码(5bits)到 BCDIC(6bits)再到 EBCDIC...法语字符和西里尔字符 是不可能的同样字节状态 在不同编码格式里 代表不同的字符 都认为对方是乱码彼此不兼容编码方式有上百种之多 互为乱码分久必合 无法解决的问题背后 可能是机会1980 年代 Xerox...(施乐公司) 在 开始尝试一种编码 能融合多语言Xerox 字符集包括 拉丁阿拉伯希伯来希腊西里尔中日韩字符添加图片注释,不超过 140 字(可选)这个字符集 1988 年进化为 unicode...从遵守现有的规则开始unicode时代 新编码unicode的时代来了 他会把一切字符吸收进去添加图片注释,不超过 140 字(可选)同一个文档 可以既有中文又有日文还有韩文一切字符都能正常显示阴阳太极
当时,在我们自己的硬件上运营数据中心是一个正确的决定,基础设施即服务(IaaS)和平台即服务(PaaS)在这些年里已经发生了戏剧性的变化。是时候重新评估我们的决定了。...由于这需要高级工程师贡献大量的时间,因此准备工作不能掉以轻心。组织之间的专家合作下,不同的观点在架构审核中通常会产生30多页内容。...我们定义了一些关键指标用于选择在云环境中创建基础设施的工具,包括:高灵活性、可靠性、安全性和集中访问控制。我们的预备团队借助这些指标评估了几个工具,在架构审查中讨论并提出了新的流程。...然而,在这次实验中,我们没有使用GCP,因此没有对云服务商最终选择上得出一致的理解。 因此,我们做了一项实验,基于 GCP 利用 Dataproc 和 Dataflow 运行批量任务。...我们期待迁移到 GCP 后带来的机遇,尤其兴奋的是,在转型过程中允许我们更多地关注核心,通过和一流的服务提供商在 Etsy 市场上的战略服务。
各种字符集之间的关系 ISO8859-1 -西欧字符集 BIG5 -中国台湾的大五码,表示繁体汉字 GB2312 -大陆使用最早,最广的简体中文字符集 GBK -GB2312...的扩展,可以表示繁体中文 GB18030 -最新GBK的扩展,可以表示汉字、维吾汉文、藏文等中华名族字符 Unicode -国际通用字符集 Unicode 正确理解 概要 占用 2 个字节...Unicode 给所有的字符指定了一个数字用来表示该字符。...Unicode 仅仅只是一个字符集,规定了符合对应的二进制代码,至于这个二进制代码如何存储则没有任何规定。它的想法很简单,就是为每个字符规定一个用来表示该字符的数字,仅此而已。...在向磁盘和网络上传送的时候以 UTF-8 编码 占1个字节的:一个utf8数字、一个utf8英文字母 占2个字节的:带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要二个字节编码
事实上,这个“α”很可能是希腊字母或日文片假名中的某个字符,它们在屏幕上显示时与拉丁字母几乎无法区分。...为了让全球用户能用母语(如中文、阿拉伯文、日文)注册和访问网站,互联网引入了IDN标准。但计算机网络底层仍依赖ASCII字符,因此IDN域名在传输时会被转换为一种名为“Punycode”的编码格式。...例如,一个包含日文字符的域名“例え.com”会被转换为“xn--r8jz45g.com”。浏览器在显示时,会自动将Punycode还原为可读的原字符。攻击者正是利用了这一机制。...他们注册包含易混淆字符的IDN域名,浏览器正常显示为“faсebook.com”(第三个“c”是西里尔字母),而安全系统若仅检查原始拼写或黑名单,很可能漏判。...部署前端字符检测脚本企业可在内部系统前端加入检测逻辑,自动比对URL中字符的真实Unicode编码与预期值。若发现混用多种文字脚本(如拉丁+日文+西里尔),立即弹出警告。4.
python开发小技巧 今天在工作中写了一个python脚本从数据库中导数据,其中用到了一些技巧,在这里记录一下。...判断字符串仅包含英文 直接通过字符的ord来判断 defis_pure_english(check_str): return all(ord(c) < 128for c in check_str) 判断字符串中包含某些语言的字符...判断包含任何阿拉伯文、朝鲜文、日文平假名、日文片假名、日文片假名语音扩展、朝鲜文音节、俄文(西里尔字母、西里尔字母补充) return any((u'\u0600' <= c <= u'\u06FF'...Greek and Coptic 1024 1279 400 04FF 256 西里尔字母 Cyrillic 1280 1327 500 052F 48 西里尔字母补充 Cyrillic Supplement.../site-packages/* libs/ 最后修改脚本,在脚本开始执行前修改python的库路径: import sys import os sys.path.append(os.path.join
字符显示器 回忆上次内容 简体和繁体的汉字 字符数量都超级大 感谢王选和陈堃銶等前辈发明了激光照排技术 中文排版从此使用上了gb2312编码 纸张之外 显示器是更先进的输出设备 计算机是如何在显示器上显示的呢...Adapter 可以输出到屏幕 也可以输出到打印机 字型 仔细看 右侧都会空两列 这些字形存储在ROM中 显示适配器 ROM 被放置在显卡上 一般运行在文字模式 按照字符进行渲染...键盘输入指令 走遍地图 各种字符 各种字符都试图在5*7的点阵范围 内显示字体 字体风格为 西里尔字符和日本假名 如何拥有字型呢?...显示字体 拉丁、西里尔甚至日文片假名都实现了这一目标 但是中文不可能 因为字型实在太复杂 只能勉强实现日、白、田等简单文字 也可以有文字游戏 这颜色 是支持VT-100控制序列了吗?...蓝桥->https://www.lanqiao.cn/courses/3584 github->https://github.com/overmind1980/oeasy-python-tutorial
这种攻击产生的原因是国际化域名IDNs(Internationalized Domain Names)支持多语种域名,而其中一些非拉丁字符语种的字母与拉丁字符非常相似,字面看很难区分。...上图是西里尔字母表,我们可以发现有不少字母与拉丁字母相识,这就是为什么用西里尔字母来进行混淆的原因 浏览器会通过Punycode来编码非拉丁字符的域名,编码后就可以避免产生混淆,但发现如果域名的一个字段里所有字符都是同一种语言...在国内不允许注册Punycode转码后的域名 ? 在国外的域名网站就可以正常查询了,这里显示的not available是指已经被注册了,而不是说Punycode转码域名不能注册。...我们还可以再做个实验: xiami.com虾米是阿里旗下的音乐网站, 我们查询西里尔字母的хіамі.com,这个域名就没有被注册,显示的available хіамі.com 转码后 xn--...在微信里,这样的域名无论是否加http前缀都不会自动识别为url,所以也无法点击。(像上面baidu.com识别为url的会显示为蓝色,就可以直接点击打开) 然后再在钉钉里进行相同的尝试 ? ?
Google BigQuery 是 Google Cloud Platform (GCP) 提供的一种高度可扩展的数据仓库服务,旨在处理大规模的数据分析任务。...高性能查询 BigQuery 能够在几秒到几分钟内返回结果,具体取决于数据量和复杂性。...集成与兼容性 可以与 Google Cloud 其他服务无缝集成,如 Dataflow、Dataproc、Data Studio 和 Looker 等。...机器学习 可以直接在 BigQuery 中构建和部署机器学习模型,无需将数据移动到其他平台。...模式(Schema) 每张表都有一个模式,定义了表中的列及其数据类型。 快速入门 准备工作 1.