首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >如何在Spacy中使用连字符标记单词

如何在Spacy中使用连字符标记单词
EN

Stack Overflow用户
提问于 2020-06-21 15:52:34
回答 1查看 150关注 0票数 1

我想使用spacy将bs-it标记为"bs"," it“,就像我在rasa中使用它一样。我得到的输出是"bs-it“。有人能帮我一下吗?

EN

回答 1

Stack Overflow用户

发布于 2020-06-24 19:29:25

您可以向spaCy的标记器添加自定义规则。spaCy的标记器将连字符连接的单词视为单个token。为了改变这一点,您可以添加自定义令牌化规则。在你的例子中,你想标记化一个infix,即两个单词之间出现的东西,它们通常是连字符或下划线。

代码语言:javascript
运行
AI代码解释
复制
import re
import spacy
from spacy.tokenizer import Tokenizer

infix_re = re.compile(r'[-]')

def custom_tokenizer(nlp):
    return Tokenizer(nlp.vocab,infix_finditer=infix_re.finditer)

nlp = spacy.load("en_core_web_sm")
nlp.tokenizer = custom_tokenizer(nlp)
doc = nlp("bs-it")
print([t.text for t in doc])

输出

代码语言:javascript
运行
AI代码解释
复制
['bs', '-', 'it']
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62500973

复制
相关文章
Python中的NLP
自然语言处理(NLP)是数据科学中最有趣的子领域之一,数据科学家越来越期望能够制定涉及利用非结构化文本数据的解决方案。尽管如此,许多应用数据科学家(来自STEM和社会科学背景)都缺乏NLP经验。
February
2018/11/30
4K1
教你用Python进行自然语言处理(附代码)
自然语言处理是数据科学中的一大难题。在这篇文章中,我们会介绍一个工业级的python库。 自然语言处理(NLP)是数据科学中最有趣的子领域之一,越来越多的数据科学家希望能够开发出涉及非结构化文本数据的解决方案。尽管如此,许多应用数据科学家(均具有STEM和社会科学背景)依然缺乏NLP(自然语言处理)经验。 在这篇文章中,我将探讨一些基本的NLP概念,并展示如何使用日益流行的Python spaCy包来实现这些概念。这篇文章适合NLP初学者阅读,但前提是假设读者具备Python的知识。 你是在说spaCy
数据派THU
2018/06/12
2.4K0
反转字符串中的单词
单词 是由非空格字符组成的字符串。s 中使用至少一个空格将字符串中的 单词 分隔开。
狼啸风云
2023/10/07
3830
颠倒字符串中的单词
单词 是由非空格字符组成的字符串。s 中使用至少一个空格将字符串中的 单词 分隔开。
PHP开发工程师
2022/04/28
1.6K0
颠倒字符串中的单词
使用 JavaScript 统计段落,单词,字符:Countable
Countable 是一个 JavaScript 函数,可以用来统计某个 HTML 元素中包含文本的段落数、单词数和字符数。不依赖于其他库,体积非常小。
Denis
2023/04/14
9340
使用 JavaScript 统计段落,单词,字符:Countable
671. 循环单词重复加标记
The words are same rotate words if rotate the word to the right by loop, and get another. Count how many different rotate word sets in dictionary.
和蔼的zhxing
2018/09/04
5710
如何遍历字符串中的单词
一个字符串由很多单词组成,单词间以空格隔开,现在我想遍历这些单词,有什么好办法可以实现它么?
ClearSeve
2022/02/10
3.3K0
LeetCode - 反转字符串中的单词③
LeetCode第557题,难度是简单,一个月三周以前刷的题目。突然意识到,我真的已经又是一个月没有写过LeetCode了,又变懒了,勤奋果然大都是暂时的。
晓痴
2019/07/24
1.6K0
LeetCode - 反转字符串中的单词③
关于NLP你还不会却必须要学会的事儿—NLP实践教程指南第一编
作者 | Dipanjan (DJ) Sarkar 编译 | 姗姗 出品 | 人工智能头条(公众号ID:AI_Thinker) 【人工智能头条导读】在研究和处理自然语言处理的很多问题时,除了关注各种各样基础的数据,高级的深度学习模型、算法外,其实中间还涉及了很多处理技术,比如:词干提取、词形还原、句法分析、语义分析等,虽然不同的语言特征不同,但是这其中大部分步骤都是存在于大多数NLP领域任务中的。今天特别为大家准备了一篇包含NLP重要技术概念学习和实践的文章,希望无论是基础数据、技术理论还是代码实践大家都可
用户1737318
2018/07/20
1.9K0
一点点spaCy思想食物:易于使用的NLP框架
在下面的文章中,将了解如何以快速简便的方式开始使用spaCy。它对NLP领域的初学者爱好者特别有用,并提供逐步说明和明亮的例子。
代码医生工作室
2019/06/22
1.2K0
leetcode:557 反转字符串中的单词|||
题目就不用我讲解了把,垃圾题目。 思路:字符串先分割为什么分割? 因为后面要使用的函数都是数组的函数所以要。。。。。, 为什么使用的都是数组的函数? 因为字符串中没有办法可以反转的哈。 经过split过程了后的就是字符串的数组了(注意全部才是字符串数组,单独一个元素还是字符串哈),以空格为分割线,每一个都是字符串。 然后是map,为什么使用map? 兄弟们,这是用es6写的,当然用map了呀。 也可以使用foreach遍历哦. 然后是使用split函数为什么? 因为这是字符串啊,数组才有方法反转的。 然后是反转,然后是转换成字符串,为什么一定要转换成字符串? 因为s本来就是字符串的呀,难道要给数组给他吗?是吧,兄弟们。 注意一下这里:为什么不直接在map里面直接最后join(" ");呢? 因为里面反转的都是一个一个单词,不是直接反转整个字符串数组啊啊A1
贵哥的编程之路
2020/10/28
1.4K0
434. 字符串中的单词数
统计字符串中的单词个数,这里的单词指的是连续的不是空格的字符。 请注意,你可以假定字符串里不包括任何不可打印的字符。 示例: 输入: "Hello, my name is John" 输出: 5 解释: 这里的单词是指连续的不是空格的字符,所以 "Hello," 算作 1 个单词。 class Solution { public int countSegments(String s) { //注意这里只要不是空格 而且连续 就算一个单词 s=s.t
编程张无忌
2021/06/01
1.2K0
统计字符串中的单词数目
//统计字符串中的单词数目——统计字符串中单词的数目,更复杂的话从一个文本中读出字符串并生成单词数目统计结果。 /* Test my2test,12test...?tesst hehe,dsf..e3
_gongluck
2018/03/08
1.7K0
老司机都开火箭了!Cython 助力 Python NLP 实现百倍加速
在去年我们发布了用 Python 实现的基于神经网络的相互引用解析包(Neural coreference resolution package)之后,在社区中获得了惊人数量的反馈,许多人开始将该解析包用到各种各样的应用中,有一些应用场景甚至已经超出了我们原本设计的对话框用例(Dialog use-case)。
AI研习社
2018/07/26
1.5K0
老司机都开火箭了!Cython 助力 Python NLP 实现百倍加速
反转字符串中的单词 III -python
给定一个字符串,你需要反转字符串中每个单词的字符顺序,同时仍保留空格和单词的初始顺序。
SingYi
2022/07/14
1.7K0
反转字符串中的单词 III -python
教程 | 比Python快100倍,利用spaCy和Cython实现高速NLP项目
相关 Jupyter Notebook 地址:https://github.com/huggingface/100-times-faster-nlp
机器之心
2018/07/26
2.1K0
教程 | 比Python快100倍,利用spaCy和Cython实现高速NLP项目
教程 | 比Python快100倍,利用spaCy和Cython实现高速NLP项目
相关 Jupyter Notebook 地址:https://github.com/huggingface/100-times-faster-nlp
小小科
2018/07/31
1.6K0
教程 | 比Python快100倍,利用spaCy和Cython实现高速NLP项目
利用spaCy和Cython实现高速NLP项目
相关 Jupyter Notebook 地址:https://github.com/huggingface/100-times-faster-nlp
马哥linux运维
2019/06/19
1.7K0
利用spaCy和Cython实现高速NLP项目
使用Python中的NLTK和spaCy删除停用词与文本标准化
【磐创AI 导读】:本文介绍了如何使用Python中的NLTK和spaCy删除停用词与文本标准化,欢迎大家转发、留言。想要更多电子杂志的机器学习,深度学习资源,大家欢迎点击上方蓝字关注我们的公众号:磐创AI。
磐创AI
2019/09/09
4.3K0
使用Python中的NLTK和spaCy删除停用词与文本标准化
计算机如何理解我们的语言?NLP is fun!
【导读】我们从日常每天都会用到的推荐系统到现在研究火热的开放性聊天、对话机器人,越来越多的产品与应用的背后都需要自然语言处理(NLP)和知识图谱的技术。也有越来越多的学者与工作人员投身于 NLP 领域的研究。为什么要研究NLP呢?如果计算机想要更好的理解人类的语言,拥有更好的人机交互体验,都离不开 NLP。那么,计算机到底是如何理解人类语言的?接下来让我们跟着作者 Adam Geitgey ,和他一起体会自然语言处理技术里那些有意思的事情。
AI科技大本营
2018/08/17
1.6K0
计算机如何理解我们的语言?NLP is fun!

相似问题

spaCy -连字符单词的标记化

23

如何在特殊字符(如连字符(-) )后断开单词

1079

如何让Spacy停止将连字符数字和单词拆分为单独的标记?

125

POS标记spaCy中的单个单词

218

使用Infix regex只包含连字符作为标记的Spacy自定义标记程序。

11
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档