spaCyEx是spaCy的功能扩展工具,旨在通过类正则表达式语法简化复杂文本模式的创建过程。它在spaCy原生Matcher组件的基础上,提供了更直观的模式定义语法,特别适用于需要精细提取文本语言特征的场景。
通过pip安装:
pip install spacyex采用括号包裹的键值对语法,多个属性间用竖线分隔:
(pos=NOUN)(pos=NOUN|lemma=run)(lemma=in[run,walk])(ent_type=person|op={2,3})import spacyex as se
import spacy
nlp = spacy.load("en_core_web_sm")
text = "某用户快速奔跑,另一用户缓步行走"
pattern = "(ent_type=person|op={2}) (lemma=in[run,walk]) (pos=ADV)"
results = se.search(pattern, text, nlp)
for match in results:
print("匹配文本:", match[0].text, "起始位置:", match[1], "结束位置:", match[2])原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。