发布于 2013-04-14 15:50:47
在我看来,在开始的时候,你正在构建一个有监督的训练阶段的文本分类器,在那里你手动分配标签。您的模型运行良好(高精度和召回率),因此您希望通过对新输入字符串的无监督培训过程来补充初始培训模型。
这些新输入将有一些已知的信号(您以前见过的单词),因此您的模型可以很好地完成它的工作,但它们也会有未知的信号(您以前没有见过的单词)。你希望你的无人监督的训练过程把这些新词和已知的单词联系起来,去“学习”。这样,你就会相信新词和已知词之间的联系是正确的。由于语言处理非常困难,您可能会自动生成假阳性关联,这些关联将在受监督的环境中被排除/纠正。因此,通过做无监督的学习,你有可能降低你的精确性。
你的问题是关于大量数据“超载”的问题。这是一个公平的问题,并且在很大程度上取决于您的数据大小、实现选择和系统行为期望。虽然响应性和处理大量数据的可处理性是一回事,但我认为,精确和回忆您的情感标记算法可能是最重要的。
在你联系的文章中,作者有一个信心评分,只有在有“高度自信”的情况下,才会考虑没有监督的协会。这是很好的,但随着时间的推移,你的整体精度仍有下降的风险。您的系统必须定期评估精确度和召回,并重新培训。评论中的“坏圣诞老人”就是一个很好的例子。我建议你阅读半监督培训,并在小数据集上得到这个标签,然后再相信它在大得多的数据集上能很好地工作。语言处理很难!
发布于 2013-04-16 23:04:54
对于其他任务,例如词性标记的一部分,凝结后的自我训练使模型更小和更好!如果您发现了可伸缩性问题,请在尝试优化代码之前先这样做。
这个想法是,在自我训练之后,你迭代地创建一个最初是空的模型。然后,只有当数据点没有正确分类时,才会将数据点添加到新模型中。这避免了过度拟合,并保持您的模型尽可能小。
https://softwareengineering.stackexchange.com/questions/150190
复制相似问题