文章/答案/技术大牛

发布

社区首页 >问答首页 >如何优化大型数据集的情感分析算法？

问如何优化大型数据集的情感分析算法？
EN

Software Engineering用户

提问于 2012-05-25 03:34:18

回答 2查看 1K关注 0票数 8

我是情感分析的新手，为贝叶斯意见挖掘找到了一个很好的资源，也找到了一种使它自我改进的方法。不过，我想知道，如果最优分析依赖于所提供的数据集，并且由于自我改进意味着向数据集中添加已知的模式(我的理解)，那么应用程序是否会在适当的时间内过度加载大量的数据集，每天都会有越来越多的模式被添加到数据集中？使应用程序具有可伸缩性的适当方法应该是什么(如果我在正确的地方使用正确的术语)？

architecture

programming-practices

回答 2

Software Engineering用户

发布于 2013-04-14 15:50:47

在我看来，在开始的时候，你正在构建一个有监督的训练阶段的文本分类器，在那里你手动分配标签。您的模型运行良好(高精度和召回率)，因此您希望通过对新输入字符串的无监督培训过程来补充初始培训模型。

这些新输入将有一些已知的信号(您以前见过的单词)，因此您的模型可以很好地完成它的工作，但它们也会有未知的信号(您以前没有见过的单词)。你希望你的无人监督的训练过程把这些新词和已知的单词联系起来，去“学习”。这样，你就会相信新词和已知词之间的联系是正确的。由于语言处理非常困难，您可能会自动生成假阳性关联，这些关联将在受监督的环境中被排除/纠正。因此，通过做无监督的学习，你有可能降低你的精确性。

你的问题是关于大量数据“超载”的问题。这是一个公平的问题，并且在很大程度上取决于您的数据大小、实现选择和系统行为期望。虽然响应性和处理大量数据的可处理性是一回事，但我认为，精确和回忆您的情感标记算法可能是最重要的。

在你联系的文章中，作者有一个信心评分，只有在有“高度自信”的情况下，才会考虑没有监督的协会。这是很好的，但随着时间的推移，你的整体精度仍有下降的风险。您的系统必须定期评估精确度和召回，并重新培训。评论中的“坏圣诞老人”就是一个很好的例子。我建议你阅读半监督培训，并在小数据集上得到这个标签，然后再相信它在大得多的数据集上能很好地工作。语言处理很难！

票数 1

Software Engineering用户

发布于 2013-04-16 23:04:54

对于其他任务，例如词性标记的一部分，凝结后的自我训练使模型更小和更好！如果您发现了可伸缩性问题，请在尝试优化代码之前先这样做。

这个想法是，在自我训练之后，你迭代地创建一个最初是空的模型。然后，只有当数据点没有正确分类时，才会将数据点添加到新模型中。这避免了过度拟合，并保持您的模型尽可能小。

票数 0

页面原文内容由Software Engineering提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://softwareengineering.stackexchange.com/questions/150190

复制

相似问题

问如何优化大型数据集的情感分析算法？
EN

回答 2

Software Engineering用户

Software Engineering用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何优化大型数据集的情感分析算法？EN

回答 2

Software Engineering用户

Software Engineering用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何优化大型数据集的情感分析算法？
EN