首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

自然语言处理指南(第1部分)

自然语言处理(NLP)包含一系列技术,用以实现诸多不同目标。下表列出了解决某些特定问题对应技术。...在词干提取,两种类型语言往往会遇到许多问题。第一种是黏着。我们不谈其语言学意义,其问题就在于黏着词根堆满了前缀和后缀。...特别地,如土耳其就很容易引起问题,因为它既是一种黏着,也是一种拼接,这意味着土耳其一个词基本上可以代表整个英语句子。...这使得设计一个土耳其语词干提取算法十分困难,就算能开发出来也未必有用——因为如果你提取土耳其单词,那么每个句子最后只会有一个词干,丢失了很多信息。 第二类问题源于那些词汇没有明确定义语言。...中文是没有字母语言典型,它只有表示概念符号。所以,词干提取对中国人来说没有意义,就连确定概念明确界限也很困难。划分文本间词汇组成问题被称为分词。

1.6K80

语音转文字

挪威、波斯、波兰、葡萄牙、罗马尼亚、俄语、塞尔维亚、斯洛伐克、斯洛文尼亚、西班牙、斯瓦希里、瑞典、他加禄、泰米尔、泰语、土耳其、乌克兰、乌尔都、越南和威尔士。...提示您可以使用提示来提高 Whisper API 生成转录质量。模型将尝试匹配提示风格,因此如果提示中使用了大写字母和标点符号,它更有可能也会使用。...然而,当前提示系统比我们其他语言模型要受限得多,并且只提供有限控制生成音频。以下是提示在不同情况下如何帮助一些示例:提示对于纠正模型可能在音频错误识别的特定单词或首字母缩写词非常有帮助。...类似于我们之前使用提示参数所做,我们可以定义我们公司和产品名称。pythonsystem_prompt = "您是 ZyntriQix 公司一名有益助手。您任务是纠正转录文本任何拼写错误。...、Q.U.A.R.T.Z.、F.L.I.N.T. 仅添加必要标点符号,如句号、逗号和大写字母,并且仅使用提供上下文。"

20310
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    “男医生,女护士?”消除 AI 性别偏见,Google有大招

    另外,当把短语和句子从土耳其翻译成英语时,你也会得到这两类翻译,比如你用土耳其输入“o bir doktor”,就会得到“she is a doctor”和“he is a doctor”这两种按性别翻译结果...总体而言,他们制订了三步法来解决土耳其中性别中立查询问题,即同时提供英文男性化和女性化翻译结果。 ? 检测性别中立查询 许多土耳其中提到人句子都是性别中立,但并不是全部都这样。...检测哪些查询符合特定性别的翻译是一个难题,由于土耳其在形态学上很复杂,这意味着指代一个人可以是明确性别中立代词(例如 O,Ona)或隐式编码。例如,“Biliyor mu?”...没有明确性别中立代名词,可以翻译为“她知道吗?”或“他知道吗?”这种复杂性导致我们不能使用简单性别中性代词列表来检测性别中立土耳其查询,另外我们还需要一个机器学习系统。...为了检测这些查询,他们使用了最先进文本分类算法(与他们云自然语言 API 中使用算法相同)来构建一个系统,该系统能够检测给定土耳其查询何时是性别中立

    69130

    “男医生,女护士?”消除偏见,Google有大招

    另外,当把短语和句子从土耳其翻译成英语时,你也会得到这两类翻译,比如你用土耳其输入“o bir doktor”,就会得到“she is a doctor”和“he is a doctor”这两种按性别翻译结果...总体而言,他们制订了三步法来解决土耳其中性别中立查询问题,即同时提供英文男性化和女性化翻译结果。 检测性别中立查询 许多土耳其中提到人句子都是性别中立,但并不是全部都这样。...检测哪些查询符合特定性别的翻译是一个难题,由于土耳其在形态学上很复杂,这意味着指代一个人可以是明确性别中立代词(例如 O,Ona)或隐式编码。例如,“Biliyor mu?”...没有明确性别中立代名词,可以翻译为“她知道吗?”或“他知道吗?”这种复杂性导致我们不能使用简单性别中性代词列表来检测性别中立土耳其查询,另外我们还需要一个机器学习系统。...为了检测这些查询,他们使用了最先进文本分类算法(与他们云自然语言 API 中使用算法相同)来构建一个系统,该系统能够检测给定土耳其查询何时是性别中立

    60220

    微软官方发布C#开源、免费、实用Windows工具箱

    项目介绍 Microsoft PowerToys 是使用 C++ 和 C# 编程语言开发。...、匈牙利、意大利、日语、韩语、波兰、葡萄牙、葡萄牙(巴西)、俄语、西班牙土耳其。...主要功能 窗口置顶、阻止睡眠、取色器、窗口镜像、环境变量、窗口布局、文件师傅、预览增强、域名表编辑、 图像裁剪器、键盘修改器、鼠标工具箱、无界鼠标、 纯文本粘贴、快速查看、批量重命名、快捷启动器、字母助手...、注册表预览、屏幕标尺、快捷键指南、文本提取、直播工具。...工具安装 Microsoft Store应用商店下载安装(推荐) 网络不好小伙伴推荐使用这种方式安装,打开Windows自带 Microsoft Store 应用商店,直接搜索 PowerToys

    27710

    Bat脚本常用命令说明

    [TOC] chcp 命令 描述:显示活动控制台代码页数量,或更改该控制台活动控制台代码页。如果在没有参数情况下使用,则 chcp 显示活动控制台代码页数量。...(DOS) 850 多语言(拉丁文 I) 852 中欧(DOS) - 斯拉夫(拉丁文 II) 855 西里尔文(俄语) 857 土耳其 860 葡萄牙 861 冰岛 862 希伯来文(DOS)...863 加拿大 - 法语 865 日耳曼 866 俄语 - 西里尔文(DOS) 869 现代希腊 874 泰文(Windows) 932 日文(Shift-JIS) 936 中国 - 简体中文(GB2312...1201 Unicode (Big-Endian) 1250 中欧(Windows) 1251 西里尔文(Windows) 1252 西欧(Windows) 1253 希腊文(Windows) 1254 土耳其文...-R) 21866 西里尔文(KOI8-U) 28592 中欧(ISO) 28593 拉丁文 3 (ISO) 28594 波罗海文(ISO) 28595 西里尔文(ISO) 28596 阿拉伯文(ISO

    48810

    了不起Unicode

    在任何其他字体,它将呈现为缺失字符 ,但在与 macOS 一起提供字体,我们将看到苹果图标。 。 ❝私人使用区主要用于「图标字体」: ❞ 上面的图标都是文本格式 U+1F4A9 是什么意思?...如果将这些内容与 Unicode 表结合起来,我们将看到 英语使用 1 个字节进行编码, 西里尔字母、拉丁欧洲语言、希伯来和阿拉伯需要 2 个字节, 中文、日语、韩语、其他亚洲语言和表情符号需要 3...比如在保加利亚文本使用俄罗斯名字,反之亦然。 没有地方可以指定区域设置。即使制作上面的两个屏幕截图也不容易,因为在大多数软件,没有下拉菜单或文本输入来更改区域设置。 9....处理特殊语言 另一个不幸例子是土耳其无点 i Unicode 处理。 与英语不同,土耳其有两种 I 变体:有点和无点。...如果我们项目中涉及到土耳其字符转换,在 JS toLowerCase是达不到上面的要求

    40030

    Bat脚本常用命令说明

    [TOC] chcp 命令 描述:显示活动控制台代码页数量,或更改该控制台活动控制台代码页。如果在没有参数情况下使用,则 chcp 显示活动控制台代码页数量。...(DOS) 850 多语言(拉丁文 I) 852 中欧(DOS) - 斯拉夫(拉丁文 II) 855 西里尔文(俄语) 857 土耳其 860 葡萄牙 861 冰岛 862 希伯来文(DOS)...863 加拿大 - 法语 865 日耳曼 866 俄语 - 西里尔文(DOS) 869 现代希腊 874 泰文(Windows) 932 日文(Shift-JIS) 936 中国 - 简体中文(GB2312...1201 Unicode (Big-Endian) 1250 中欧(Windows) 1251 西里尔文(Windows) 1252 西欧(Windows) 1253 希腊文(Windows) 1254 土耳其文...-R) 21866 西里尔文(KOI8-U) 28592 中欧(ISO) 28593 拉丁文 3 (ISO) 28594 波罗海文(ISO) 28595 西里尔文(ISO) 28596 阿拉伯文(ISO

    58331

    一次搞定多种语言:Facebook展示全新多语言嵌入系统

    我们使用另一种方法是收集大量英语数据来训练英语分类器,然后如果需要分类另一种语言文本(如土耳其),则将土耳其文本翻译成英语,然后将译文发送给英语分类器。 但是,该方法也有一些缺陷。...我们想要更通用解决方案,可以对我们支持所有语言输出一致、准确结果。 使用多语言词嵌入执行文本分类 目前文本分类模型使用词嵌入或将词表征为多维向量,将其作为理解语言基本表征。...例如,土耳其「futbol」和英语「scoccer」在嵌入空间中距离非常近,因为它们在不同语言中代表着相同意思。...为了实现跨语言文本分类任务,我们可以使用这些多语言词嵌入作为文本分类模型基本表征。由于新语言中单词在嵌入空间中与已训练语言单词相近,所以分类器也能在新语言上执行良好。...对于一些分类问题,用多语言词嵌入训练模型展现跨语言性能非常接近于特定语言分类器性能。我们观察到,当用在训练未见过语言进行测试时,准确率达到了 95%,和用特定语言数据集训练分类器性能相当。

    70070

    一次搞定多种语言:Facebook展示全新多语言嵌入系统

    我们使用另一种方法是收集大量英语数据来训练英语分类器,然后如果需要分类另一种语言文本(如土耳其),则将土耳其文本翻译成英语,然后将译文发送给英语分类器。 ? 但是,该方法也有一些缺陷。...我们想要更通用解决方案,可以对我们支持所有语言输出一致、准确结果。 使用多语言词嵌入执行文本分类 目前文本分类模型使用词嵌入或将词表征为多维向量,将其作为理解语言基本表征。...例如,土耳其「futbol」和英语「scoccer」在嵌入空间中距离非常近,因为它们在不同语言中代表着相同意思。 ?...为了实现跨语言文本分类任务,我们可以使用这些多语言词嵌入作为文本分类模型基本表征。由于新语言中单词在嵌入空间中与已训练语言单词相近,所以分类器也能在新语言上执行良好。...对于一些分类问题,用多语言词嵌入训练模型展现跨语言性能非常接近于特定语言分类器性能。我们观察到,当用在训练未见过语言进行测试时,准确率达到了 95%,和用特定语言数据集训练分类器性能相当。

    1.1K80

    前端切图仔,常用21个字符串方法(下)

    ) 用本地特定顺序来比较两个字符串 match() 找到一个或多个正则表达式匹配 replace() 替换与正则表达式匹配子串 search() 检索与正则表达式相匹配值 slice() 提取字符串片断...toLocaleLowerCase() 根据主机语言环境把字符串转换为小写,只有几种语言(如土耳其)具有地方特有的大小写映射 toLocaleUpperCase() 根据主机语言环境把字符串转换为大写...,只有几种语言(如土耳其)具有地方特有的大小写映射 toLowerCase() 把字符串转换为小写 toString() 返回字符串对象值 toUpperCase() 把字符串转换为大写 trim()...H,o,w, ,a,r,e, ,y,o,u, ,d,o,i,n,g, ,t,o,d,a,y,?...separator: var words = sentence.split(/\s+/) 例子 4 如果您希望把单词分割为字母,或者把字符串分割为字符,可使用下面的代码: "hello".split(

    52910

    40种语言、9项推理任务,谷歌发布新NLP基准测试Xtreme

    但幸运是,许多语言共享大量基础结构。比如在词汇层面上,语言通常具有源自同一来源单词,例如,英语“desk”和德语“Tisch”都来自拉丁“disus”。...同样,许多语言也以相似的方式标记语义角色,例如使用后置位置标记中文和土耳其时空关系。...其中包括一些未被充分研究语言,例如在印度南部、斯里兰卡和新加坡使用达罗毗荼语系语言泰米尔,主要在印度南部使用泰卢固和马拉雅拉姆,以及在非洲使用尼日尔-刚果语系斯瓦希里和约鲁巴。...GoogleXtreme基准支持任务 模型要先在跨语言学习文本上进行预训练后,才能在Xtreme上进行测试。然后,考虑到英语是最有可能具有标记数据语言,他们必须针对特定任务英语数据进行微调。...在Xtreme初步实验,谷歌一个研究团队发现,即使是最先进多语言模型,如BERT、XLM、XLM-r和M4,也都没有达到预期水平。

    68720

    谷歌翻译区分性别,进一步减少AI偏见

    谷歌正在努力减少翻译性别偏见,从本周开始,用户获得翻译将女性和男性区分开来,例如,土耳其“o bir doktor”翻译成英语,会分为“她是医生”和“他是医生”。...目前,这一区分支持从英语到法语,意大利土耳其,葡萄牙或西班牙翻译。 谷歌翻译产品经理James Kuczmarski表示,团队已经开始解决非二元性别翻译问题。...他指出,“谷歌一直在努力促进公平,减少机器学习偏见,将来,我们计划将性别特定翻译扩展到更多语言,在我们iOS和Android应用程序等其他翻译界面上发布,并解决查询自动完成等功能性别偏见。”...在此之前,社交媒体上发布了一些据称显示自动翻译应用程序存在性别偏见帖子。用户注意到某些外语“工程师”和“强者”等词语更可能与英语相应男性词汇相关联。...Kuczmarski解释说,这是AI训练问题。词嵌入不可避免地拾取并放大源文本和对话隐含偏差。一个2016年研究发现,在谷歌新闻文章字嵌入物往往表现出男性和女性性别定势观念。

    79220

    Faker 都能造哪些数据

    我们在测试过程,会使用一些测试数据,测试数据有时候来自数据库里脱敏数据,有时候需要自己造。自己造一些简单文本还好,一些复杂,比如身份证号,信用卡号,街道地址可就麻烦了。...土耳其 - 土耳其 uk_UA - Ukrainian 乌克兰 - 乌克兰 zh_CN - Chinese (China) (简体中文) zh_TW - Chinese (Taiwan)...():随机user_agent信息 4、数字、文本、加密相关 numerify():三位随机数字 random_digit():0~9随机数 random_digit_not_null():1~9随机数...():随机Decimal数字(参考pyfloat参数) pystr():随机字符串 random_element():随机字母 random_letter():随机字母 paragraph():随机生成一个段落...;digits:是否包含数字;upper_case:是否包含大写字母;lower_case:是否包含小写字母 sha1():随机SHA1 sha256():随机SHA256 uuid4():随机UUID

    68520

    刨根究底字符编码之七——ANSI编码与代码页(Code Page)

    可在系统区域设置系统Locale更改。 (笨笨阿林原创文章,转载请注明出处) 二、代码页(Code Page) 1. 代码页也称为“内码表”,是与特定语言字符集相对应一张表。...操作系统不同语言和区域设置可能使用不同代码页。...-1字符集不同之处),用于英语和大多数欧洲语言(西班牙和各种日耳曼/斯堪的纳维亚),而IBM所用OEM代码页932(CP932)对应于Shift JIS字符集(但CP932对Shift JIS有扩展...代码页指定在Windows是系统默认设置(即默认系统区域设置),也可在(Windows7)“控制面板-区域和语言-管理-非Unicode程序语言-更改系统区域设置”中选择列表语言进行更改。...系统Locale对应代码页被作为Windows默认代码页。在没有明确指定某个文本编码信息时,Windows将按照指定默认代码页编码方案来解释该文本数据。

    1.5K10

    WordPress优化SEO插件,YOAST SEO

    使用YOAST SEO编写杀手级内容‎ ‎我们知道内容是王道,这就是为什么Yoast SEO以其最先进‎‎内容和SEO分析‎‎而闻名原因。...完整语言支持‎‎:英语,德语,法语,荷兰,西班牙,意大利,俄语,印度尼西亚,波兰,葡萄牙,阿拉伯,瑞典,希伯来,匈牙利土耳其,捷克,挪威,斯洛伐克和希腊。‎ ‎...另外:社交外观模板,以确保外观一致性。‎ ‎[高级]‎‎“成效分析”工具,用于显示文本所关注内容。通过这种方式,您可以使文章与关键字保持一致。‎ ‎...尽可能将您内容转换为‎‎结构化数据‎‎,以帮助搜索引擎了解您网站。‎ ‎帮助您管理团队:通过我们‎‎SEO角色‎‎,您可以让同事访问Yoast SEO插件特定部分。‎ ‎...[高级版]‎‎ 在 URL 更改或删除页面时自动创建重定向,并提供用于管理或创建重定向工具。‎ ‎

    1.2K20

    思维导图软件 MyDraw 5.0.2 绿色版

    我们使用了从MS Office套件识别出功能区UI,并尽可能简化。...—图形和符号 MyDraw是一个易于使用图表工具,附带一大组预定义形状,您可以直接拖放到您图形。基于使用目的,形状被分成不同库。...自定义图形开发 - 如果您需要特定形状,您可以联系MyDraw开发团队并要求报价。...借助MyDraw高级文本格式功能,您将能够使您图表成为出色。您可以控制文本字体,文本样式,段落对齐,项目符号和编号等。...重新设计库浏览器。 300多个新库。 数以千计新形状。 形状超链接。 MyDraw启动速度提高了20%。 AutoCAD导入和导出改进。 Visio导入和导出改进。 UI土耳其翻译。

    2K40

    干货 | 揭开多语言词嵌入模型神秘面纱

    可以采取另一种方法是收集大量英语数据来训练一个英语分类器,然后如果有需要对其他语言进行分类,如土耳其文本,则将土耳其文本翻译成英语,再用英语分类器进行分类。 但是,这个方法有一些缺点。...使用多语言词嵌入模型文本分类 文本分类模型使用词嵌入(word embedding),或以多维向量表示单词,作为理解语言基本表示。...例如,土耳其 futbol 和英语 soccer 在向量空间中靠很近,因为他们在不同语言里有相同意思。...以通过特定语言数据集训练分类器为参照,Facebook 多语言词嵌入模型在分类训练没有出现过新语言时,能够达到 95% 性能。之前翻译再分类方法只能达到特定语言训练分类器 82%。...通过这项技术,希望与训练特定语言模型相比,能够得到更高性能,并提高特定文化或语言背景下和措辞准确性。 FAIR 也在探索不使用双语词典多语言词嵌入方法。

    66940

    Python Faker使用,你了解多少呢?

    在软件需求、开发、测试过程,有时候需要使用一些测试数据,对这种情况,我们一般要么使用已有的系统数据,要么需要手动制造一些数据。 由于现在业务系统数据多种多样,千变万化。...瑞典 - 瑞典 tr_TR - Turkish 土耳其 - 土耳其 uk_UA - Ukrainian 乌克兰 - 乌克兰 zh_CN - Chinese (...带有随机字母事件。 使用遇到问题 元旦前发布这篇文章,由于工作需要,元旦期间创建伪数据过程,发现一个很有意思问题。不同文化类之间,方法是偶然有区别的。...比如,在中文(zh_CN)方法,district()#获取区 province()#获取省方法,在有些包里是没有的,这需要根据所使用文化类国家特制来。...所以,日文包(ja_JP),就没有相应province(),district(),取而代之是prefecture(),town();在美国,一级行政单位又是洲,所以,在美国英语包(en_US)

    57430

    关于跨语种语言模型讨论

    2016):法语、西班牙、俄语、阿拉伯和汉语 印度理工学院孟买语料库(Anoop等人,2018):印地 OPUS (Tiedemann, 2012):德语、希腊、保加利亚土耳其、越南、泰语...、乌尔都、斯瓦希里和斯瓦希里 wada和iwata对除芬兰所有语言都使用News抓取2012年单语料库,而对芬兰使用News抓取2014年。...不同语言使用不同子单词集,而是共享相同字母表、数字、特殊标记和专有名词,以改进跨语言嵌入空间对齐。...除了子单词,XLM还将位置嵌入(表示句子位置)和语言嵌入(表示不同语言)输入到不同语言模型(LM),以学习文本表示。...BERT使用片段嵌入在一个输入序列中表示不同句子,而用语言嵌入替换它来表示不同语言。 在这两种语言数据,子单词都是随机抽取。这两种语言子词都可以用来预测任何掩码词。 ?

    1.2K20
    领券