BOT 爬虫防护

最近更新时间:2023-11-03 11:32:13

我的收藏
您可以在域名管理页面,对域名的防护策略进行修改。

应用场景

融合腾讯云 Web 防火墙 AI+规则的 Bot 爬虫防护功能,面向全量加速请求进行行为分析,对友好及恶意的 Bot 爬虫进行甄别,支持自定义策略管理。

防护配置

购买 BOT 防护功能的用户,可登录 SCDN 控制台,进入 BOT 防护管理防护配置页面,开启/关闭 BOT 防护。



公开类型策略配置

SCDN ⽬前提供12个已知公开的 BOT ⼤类,超过1000+的 BOT ⼦类,包括搜索引擎、测速⼯具、内容聚合、扫描和⽹⻚爬⾍等类别。⽤户可以根据⾃身需求对公开 BOT 类别设置防护动作(放⾏、监控、拦截),防护引擎将对命中公开类型的 BOT 请求进⾏相应处理。进入 BOT 爬虫防护 > 公开类型页面,默认展示 BOT 公开类型列表,页面操作说明如下:
单击设为监控:若访问域名出现该 BOT 行为将触发 BOT 监控。
单击设为拦截:若访问域名出现该 BOT 行为将触发 BOT 拦截。


单击复制:可以将当前域名的公开类型 BOT 设置信息复制到其他开启了 BOT 防护的域名,最多可选20个域名。



协议特征策略配置

安全加速支持17种协议特征 BOT 防护规则配置。

策略分类:分为 User-Agent 类别、HTTP 头部、HTTP 协议特征。 执行动作:协议特征策略开启时默认动作为“放行”,可通过右侧操作栏进行设置为“拦截”或者“监控”。 策略开关:默认为关闭。您可根据业务需求开启单项协议特征策略。

自定义会话规则配置

安全加速支持用户可自定义配置BOT会话特征规则,进入自定义会话规则页面。

策略名称:策略名称和描述信息。 匹配条件:策略匹配条件内容,1条策略最多可以添加10个匹配条件,匹配条件之间是“与”的关系。 执行动作:策略动作信息,展示添加策略时设置的动作信息,可通过右侧操作栏进行修改。 操作:对策略进行编辑或删除操作。单击编辑可进行规则内容修改。 策略开关:展示添加策略时设置的开关状态信息。 批量操作:支持批量编辑自定义会话特征(如,统一修改执行动作、复制到其他已开启 BOT 防护的域名等)。


单击新增配置:添加自定义会话特征。


⾃定义会话特征匹配条件说明如下:
分类
过滤条件
条件说明
会话特征
会话平均速度
为会话请求总次数 / 会话持续时间,单位为:次/分钟。
会话窗口速度
每2分钟(窗口)内的会话访问速度,单位为:次/分钟。
会话总次数
一个 BOT 会话发生的总访问次数。
会话持续时间
BOT 会话的持续时间。
会话存在 Robots.txt
会话请求中访问 Robots.txt 文件。
会话发生在凌晨
会话请求发生在凌晨2:00 - 5:00之间。
请求特征
请求最多的 URL
会话请求中,请求最多的 URL。
URL 重复比
会话请求中 URL 重复比例,取值范围0 - 1,根据实际业务情况,进行参数配置,过高或过低为疑似异常(根据实际情况进行判断)。
URL 种类
会话请求中 URL 去重后条目数。
请求最多的参数
会话请求出现最多的参数,包括 GET 请求参数(Query 内容)或 POST 请求参数(Body 内容)。
参数重复比
会话请求中 GET 请求参数(Query 内容)或 POST 请求参数(Body 内容)重复比例,取值范围0 - 1,根据实际业务情况,进行参数配置,过高或过低疑似异常(根据实际情况进行判断)。
COOKIE
COOKIE 存在性
会话请求中,判断 HTTP 头部字段是否存在 COOKIE。
请求最多的 COOKIE
会话请求中, 出现最多的 COOKIE。
COOKIE 重复比
会话请求中 COOKIE 的重复比例,取值范围0 - 1。
COOKIE 存在比
会话请求中 COOKIE 存在比例,取值范围0 - 1。
COOKIE 滥用
多种不同的 UA 使用相同的 COOKIE。
COOKIE 种类
会话请求中 COOKIE 去重后的数目。
Referer
Referer 存在性
会话请求中,判断 HTTP 头部字段是否存在 Referer。
请求最多的 Referer
会话请求中,HTTP Referer 字段出现最多的值。
Referer 重复比
会话请求中 Referer 的重复比例,取值范围0 - 1,对浏览器访问有效,过高疑似异常(根据实际情况进行判断)。
Referer 存在比
会话请求中 Referer 存在比例,取值范围0 - 1,对浏览器访问有效,过低疑似异常(根据实际情况进行判断)。
Referer 滥用
多种不同的 UA 使用相同的 Referer。
Referer 种类
会话请求中 Referer 去重后的数目。
UA
UA存在性
会话请求中,判断 HTTP 头部字段是否存在 User-Agent。
请求最多的 UA
会话请求中,HTTP User-Agent 字段出现最多的值。
UA 存在比
会话请求中 UA 的存在比例,取值范围0 - 1,过低疑似异常(根据实际情况进行判断)。
UA 种类
会话请求中 UA 去重后的数目,过多疑似异常(根据实际情况进行判断),对非代理 IP 有效。
UA 类型
UA 类型为浏览器。UA 类型为移动端。UA 类型游戏终端或电视终端。UA 类别为公开 BOT 类型。UA 类别为未公开 BOT 类型。UA 类别为自动化工具。UA 类别为未知类型。UA 类别为公开扫描器。UA 类别为开发框架。UA 类别为语言 HTTP 库。
UA 随机性指数
会话请求中 UA 的随机分布情况,取值范围0 -1,指数越高越异常。 参考值阈值:超过0.6疑似异常,指数超过0.92基本确定为异常。
其他 HTTP 头部
Accept 存在性
会话请求中判断 HTTP 头部字段是否存在 Accept 字段。
Accept-Language 存在性
会话请求中判断 HTTP 头部字段是否存在 Accept-Language 字段。
Accept-Encoding 存在性
会话请求中判断 HTTP 头部字段是否存在 Accept-Encoding 字段。
Connectiton 存在性
会话请求中判断 HTTP 头部字段是否存在 Connectiton 字段。
请求方法占比
会话请求中判断请求使用方法。
返回状态码比例
会话请中 WAF 返回给客户状态码比例。