我正在从文档(Pdfs)中进行命名实体提取。每个pdf包含一组实体(近16个不同类型的实体)
下面是构建NLP和ML模型的步骤:
Step 1
:解析文档。收到了近200万张代金币(单词)。利用这些词和CBOW方法建立word2vec模型。Step 2
:通过使用word2vec模型,生成双关词的向量。Step 3
:根据领域,我给单词(向量)贴上了用于培训、验证和测试的标签。Step 4
:利用标注的数据,训练神经网络模型。Step 5
:一旦建立了模型,就给出模型的测试数据(单词)。准确率达85%。直到现在一切都很顺利。但问题在于下一步。:(
Step 6
:现在我想从训练过的模型中分类的单词中获得信心分数的实体。神经网络模型采用SOFTMAX
对输入进行分类。从这个模型中得到每个单词的分数。
但我的问题是,我的实体至少包含3个单词。如何计算生成实体的置信度得分。
现在,如果实体有三个单词,我将使用P(entity) = P(w1)*P(w2)*(w3)
。
请帮帮我。这种方法总是没有意义的。
假设,如果模型只预测实体中的两个词,那么实体信心将是P(entity) = P(w1)*P(w2)
。
如果模型只预测一个实体中的一个单词,那么P(entity) = P(w1)
。:(
发布于 2017-10-25 09:12:11
为什么P(实体)= P(w1)+P(w2)+P(w3)?如果需要一个归一化数( 0-1 ),并且假设P(w)有0-1范围,则使其:P(实体)= (P(w1)+P(w2)+P(w3)) /3
为了得到更好的分数,你应该计算每个单词的信息内容。一个常见的词应该贡献更少:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-6-S1-S21
发布于 2019-08-13 18:44:44
Stanford工具包使用min(Pi)作为P(实体)。在我看来,从数学的角度看,两者都不是声音。
https://stackoverflow.com/questions/46744058
复制