我正在为医学文本开发一个半自动的注释工具,我完全迷失在寻找RDF三元组来进行注释的过程中。
我目前正在尝试使用一种基于NLP的方法。我已经研究了斯坦福NER和OpenNLP,它们都没有提取疾病名称的模型。
我的问题是:*我如何创建一个新的NER模型来提取疾病名称?我能从OpenNLP或Standford那里得到任何帮助吗?*除了NLP之外,还有其他方法可以从文本中提取RDF三元组吗?
任何帮助都将不胜感激!谢谢。
发布于 2012-04-29 22:53:06
我已经用OpenNLP和LingPipe做了一些你需要做的事情。我发现准确的基于字典的LingPipe分块对于我的用例足够好了,并使用了它。此处提供的文档:http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html
你可以在这里找到一个小的演示:
如果地名词典/字典方法对你来说不够好,你可以尝试创建你自己的模型,OpenNLP也有用于训练模型的应用程序接口。文档在这里:http://opennlp.apache.org/documentation/1.5.2-incubating/manual/opennlp.html#tools.namefind.training
从自然语言中提取RDF三元组与识别命名实体是不同的问题。NER是一个相关的步骤,也许是必要的,但还不够。要从自然语言中提取RDF语句,不仅需要识别语句的主体和宾语等实体。但是您还需要识别这些实体的谓词和/或关系,还需要将它们映射到URI。
https://stackoverflow.com/questions/10367815
复制相似问题