给出一个包含大量数据的数据库表,删除噪声文本的最佳做法是什么,如:
该噪音存储在“名称”字段中。
我正在使用Java标准结构处理数据。
发布于 2010-05-13 05:29:02
嗯,你可以用NLP方法构建一个分类器,然后用噪声和无噪声的例子来训练它。您可以接受的一个例子是Apache的语言检测器。如果语言检测器说“打败我”,那可能就足够好了。
发布于 2010-05-13 05:33:25
移除这样的东西并不像看上去那么容易。
对我们人类来说,很容易看出"djkhfkjh“没有任何意义。但是,计算机如何检测到这种噪音呢?它怎么知道“Eyjafjallaj kull”仅仅是有人砸了他的键盘,或者是过去几年里最喧闹的山?
如果没有很多假阳性,你就无法可靠地做到这一点,所以,它毕竟是在手动过滤假阳性和真阳性。
发布于 2010-05-13 05:28:15
获取一个具有尽可能多的名称的字典,并过滤数据以显示字典中没有的名称。然后,您必须逐个删除它们,以确保不删除有效数据。按名称对列表进行排序可以帮助您一次删除更多行。
https://stackoverflow.com/questions/2827080
复制相似问题