我正在寻找关于如何找到所有与单个概念相关的术语簇的建议。
其目标是改进对描述概念、流程或情况的图像的标签或关键字搜索。图像可以描述头脑风暴会议,或者特定的主题。这些用于PowerPoint或其他演示材料中的图像具有用户贡献的标签。
问题是我们基于标签的搜索可能会返回完全不相关的图像。我们的目标是找到标签中的簇,以便提炼与中心概念相关的标签,并删除与簇无关的异常值。
例如,如果你有一个,你有会议,计划,头脑风暴和圆桌会议标签。理想情况下,我们希望从集群中删除圆桌,因为它不适合主题。
我使用过WordNet相似度,但结果相当奇怪。我想知道在python的NLTK中是否有其他工具可以帮助我解决这个问题。
谢谢!
发布于 2015-12-28 10:40:47
您的问题基于称为“主题建模”的领域,您可以使用: gensim https://radimrehurek.com/gensim/或lda https://pypi.python.org/pypi/lda
https://stackoverflow.com/questions/34491819
复制相似问题