首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >千万级敏感词过滤设计

千万级敏感词过滤设计

作者头像
全栈程序员站长
发布2022-09-02 11:25:10
发布2022-09-02 11:25:10
1.4K0
举报

大家好,又见面了,我是你们的朋友全栈君。

需求分析

代码语言:javascript
复制
系统有千万级的禁词需要去过滤
当中包含人名 特殊符号组成的语句 网址 单字组合成的敏感词 等等

初步设计

代码语言:javascript
复制
	1.解决千万级禁词存储及查找问题
	2.解决被过滤文本内容过多问题

详细设计

代码语言:javascript
复制
	1.采用ES作为禁词库 千万级数据检索时间在毫秒级满足需求
	2.不适用分词器需要完整匹配 分词后很多词都是合法的 组合之后才是敏感词
	3.被过滤文本内容分词不完整 利用IK分词器分词结果不适合现在的业务场景
		只能采用字符串分割的方式来匹配ES库
		带来的问题就是效率低下同步多线程下千字也需要将近4秒
		考虑采用异步模式来解决大数据量需要审核状态

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/138801.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年5月3,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 需求分析
  • 初步设计
  • 详细设计
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档