首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >检测和删除噪声文本

检测和删除噪声文本
EN

Stack Overflow用户
提问于 2010-05-13 13:22:40
回答 9查看 2.7K关注 0票数 5

给出一个包含大量数据的数据库表,删除噪声文本的最佳做法是什么,如:

  • fghfghfghfg
  • qsdqsdqsd
  • rtyrtyrty

该噪音存储在“名称”字段中。

我正在使用Java标准结构处理数据。

EN

回答 9

Stack Overflow用户

回答已采纳

发布于 2010-05-13 13:29:02

嗯,你可以用NLP方法构建一个分类器,然后用噪声和无噪声的例子来训练它。您可以接受的一个例子是Apache的语言检测器。如果语言检测器说“打败我”,那可能就足够好了。

票数 7
EN

Stack Overflow用户

发布于 2010-05-13 13:33:25

移除这样的东西并不像看上去那么容易。

对我们人类来说,很容易看出"djkhfkjh“没有任何意义。但是,计算机如何检测到这种噪音呢?它怎么知道“Eyjafjallaj kull”仅仅是有人砸了他的键盘,或者是过去几年里最喧闹的山?

如果没有很多假阳性,你就无法可靠地做到这一点,所以,它毕竟是在手动过滤假阳性和真阳性。

票数 8
EN

Stack Overflow用户

发布于 2010-05-13 13:28:15

获取一个具有尽可能多的名称的字典,并过滤数据以显示字典中没有的名称。然后,您必须逐个删除它们,以确保不删除有效数据。按名称对列表进行排序可以帮助您一次删除更多行。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2827080

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档