问负面因素如何影响gensim中的模型性能？
EN

Stack Overflow用户

提问于 2017-12-13 04:41:03

回答 1查看 230关注 0票数 1

我正在看报纸

单词和短语的分布式表示及其组合性。

这非常有趣，但我真的很好奇参数‘负’和最终性能之间的关系。我个人认为，随着负值的增加，最终的表现可能会变得更好。因为我们用来进行比较的负样本越多，我们在理论上应该会得到更好的结果。当然，在某些点之前，性能不会变得更好。我说的对吗？

nlp

word2vec

回答 1

Stack Overflow用户

发布于 2017-12-13 19:09:09

更多的负面例子意味着更多的模型调整正在发生，每个“目标”单词都在训练-示例。因此，随着更多的工作完成，该模型可能会出于某些目的而有所改进。

但是这些额外的计算需要更多的训练时间-因此增加该参数的价值可以与其他选择进行权衡，这也可能提供以训练时间为代价的改进。例如，增加window或语料库上的训练迭代次数也可以以时间为代价来改进模型。

有趣的是，更多的负面例子倾向于偏向大多数单词的坐标位置，这意味着向量的“云”不以原点为中心。而且，最近至少有一篇论文提出了消除这种偏见的最后一步-变换最终坐标以恢复原点的全局平均值-可以提高单词向量在某些任务中的效用。

此外，最初的Word2Vec论文指出，对于大型语料库，较少的负面例子可能就足够或最优了。'Distributed Representations of Words and Phrases and their Compositionality'的第2.2节指出，“我们的实验表明，5-20范围内的k值对于小的训练数据集是有用的，而对于大型数据集，k可以小到2-5。”(我甚至在一个大型语料库中看到了可以接受的结果，只有一个负面的例子。)

因此，值得尝试不同的negative值，并且有一些理由相信更多的例子可以有所帮助，但这并不一定是“越多越好”的情况，特别是在语料库更大的情况下，更少的负面例子可能就足够了，甚至是最优的。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47785599

复制

影响云计算性能因素剖析

云计算

如今出现了很多基于云计算技术的各种云服务，可是如何去衡量一个云服务的好与差，并没有很清晰的标准。其实，对于云服务，一定程度上是由云计算技术的性能所决定的。说到性能，尤其是云计算的性能，受影响的因素很多。需要对整个系统进行研究，这包括了所有的硬件组件和整个软件堆栈，所有数据路径上和软硬件上所发生的事情都包括在内，因为这些都有可能影响性能，这使得性能评估变得异常复杂。当云计算性能出现问题时，也很难找到问题的症结。性能瓶颈往往是复杂的，还会以意想不到的方式互相联系，修复了一个问题可能只是把瓶颈推向了系统里的其它地

静一

2018/03/27

1.3K0