上周就关于《结构化感知机标注框架的内容》已经分享了一篇《分词工具Hanlp基于感知机的中文分词框架》,本篇接上一篇内容,继续分享词性标注与命名实体识别框架的内容。...:
[ns, n, nr, p, ns, n, v]
关于如何组合分词器和词性标注器,使其同时进行分词与词性标注,请参考接下来的章节。...命名实体识别
目前本系统默认支持人名(nr),地名(ns),机构名(nt)三种命名实体的识别,用户可以重载NERTrainer的createTagSet来支持任意NER类型。...训练
命名实体识别是词性标注的后续任务,训练语料依然同上,接口如下:
命令行
java -cp hanlp.jar com.hankcs.hanlp.model.perceptron.Main -task...split(" "), "ns n n nr p ns n".split(" "))));
}
正常情况下输出:
[B-nt, M-nt, E-nt, S, O, S, O]
7个标签代表上述7个词语所属的命名实体成分