我第一次使用Stanford标签(这是第一次),虽然它正确地标记了英语,但即使在更改模型参数时,它似乎也不识别(简体)中文。我忽略了什么吗?
我已经从这里下载并解压了最新的完整版本:http://nlp.stanford.edu/software/tagger.shtml
然后,我将示例文本输入到“sam-input.txt”中。
这是一个测试的句子。这是另一个句子。
然后我就跑
/斯坦福-postagger.sh模型/中文-dissim.tagger样本-input.txt
预期的输出是将每个单词标记为词性的一部分,但它将整个文本字符串识别为一个单词:
从标签模型/中文-dissim.tagger加载默认属性 从模型/中文阅读POS标签模型.完成3.5秒。 這是一個測試的句子。這是另一個句子。#NR 标记1字,每秒30.30字。
我很感谢你的帮助。
发布于 2013-04-18 13:14:31
我终于意识到这个pos标签中没有包含标记化/分段。在将这些单词输入标签之前,似乎必须对其进行空格分隔。对于那些对中文最大熵分词感兴趣的人,这里有一个单独的软件包:
http://nlp.stanford.edu/software/segmenter.shtml
谢谢大家。
https://stackoverflow.com/questions/16074238
复制相似问题