我正在看报纸
单词和短语的分布式表示及其组合性。
这非常有趣,但我真的很好奇参数‘负’和最终性能之间的关系。我个人认为,随着负值的增加,最终的表现可能会变得更好。因为我们用来进行比较的负样本越多,我们在理论上应该会得到更好的结果。当然,在某些点之前,性能不会变得更好。我说的对吗?
发布于 2017-12-13 19:09:09
更多的负面例子意味着更多的模型调整正在发生,每个“目标”单词都在训练-示例。因此,随着更多的工作完成,该模型可能会出于某些目的而有所改进。
但是这些额外的计算需要更多的训练时间-因此增加该参数的价值可以与其他选择进行权衡,这也可能提供以训练时间为代价的改进。例如,增加window
或语料库上的训练迭代次数也可以以时间为代价来改进模型。
有趣的是,更多的负面例子倾向于偏向大多数单词的坐标位置,这意味着向量的“云”不以原点为中心。而且,最近至少有一篇论文提出了消除这种偏见的最后一步-变换最终坐标以恢复原点的全局平均值-可以提高单词向量在某些任务中的效用。
此外,最初的Word2Vec论文指出,对于大型语料库,较少的负面例子可能就足够或最优了。'Distributed Representations of Words and Phrases and their Compositionality'的第2.2节指出,“我们的实验表明,5-20范围内的k值对于小的训练数据集是有用的,而对于大型数据集,k可以小到2-5。”(我甚至在一个大型语料库中看到了可以接受的结果,只有一个负面的例子。)
因此,值得尝试不同的negative
值,并且有一些理由相信更多的例子可以有所帮助,但这并不一定是“越多越好”的情况,特别是在语料库更大的情况下,更少的负面例子可能就足够了,甚至是最优的。
https://stackoverflow.com/questions/47785599
复制相似问题