从事翻译行业第一个要解决的问题是“翻什么”,给你一个文本,名词是其中最重要的内容,客观地选择其中的名词短语进行翻译是应该做的事情。如何提取文中的名词短语呢?这就应该选择计算机工具进行提取,以避免人工选择的主观性。
目前进行文本名词短语提取的工具一般选用python工具包TextBlob,这是是一个用Python编写的开源的文本处理库。具体流程如下:
1. 安装python3.9,
2. 安装pycharm2018,
3. 安装TextBlob
需要注意的是,使用TextBlob的前提是你的电脑要安装NLTK工具包,可用pip install nltk命令下载。提取名词短语的代码如下:
from textblob import TextBlob
text = 'I love natural language processing! i do not like you'
blob = TextBlob(text)
print('词性标注')
print(blob.tags)
np = blob.noun_phrases
print('短语抽取')
for w in np:
print(w)
运行结果:
[('I', 'PRP'), ('love', 'VBP'), ('natural', 'JJ'), ('language', 'NN'), ('processing', 'NN'), ('i', 'NNS'), ('do', 'VBP'), ('not', 'RB'), ('like', 'IN'), ('you', 'PRP')]
领取专属 10元无门槛券
私享最新 技术干货