Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >广告流量反作弊风控中的模型应用

广告流量反作弊风控中的模型应用

原创
作者头像
2020labs小助手
发布于 2023-02-21 01:19:36
发布于 2023-02-21 01:19:36
2.4K0
举报
文章被收录于专栏:vivo互联网技术vivo互联网技术

商业化广告流量变现,媒体侧和广告主侧的作弊现象严重,损害各方的利益,基于策略和算法模型的业务风控,有效保证各方的利益;算法模型可有效识别策略无法实现的复杂作弊模型,本文首先对广告反作弊进行简介,其次介绍风控系统中常用算法模型,以及实战过程中具体风控算法模型的应用案例。

一、广告反作弊简介

1.1 广告流量反作弊定义

广告流量作弊,即媒体通过多种作弊手段,获取广告主的利益。

作弊流量主要来自于:

  • 模拟器或者被篡改了设备的广告流量;
  • 真设备,但通过群控控制的流量;
  • 真人真机,但诱导产生无效流量等。

1.2 常见的作弊行为

  • 机器行为: IP重复刷量、换不同IP重复刷量,流量劫持,换不同imei重复刷量等。
  • 人工行为:素材交互要素诱导点击,媒体渲染文案诱导点击,突然弹出误触点击等。

1.3 常见作弊类型

按照广告投放流程顺序

  • 展示作弊:媒体将多个展示广告同时曝光于同一个广告位,向广告主收取多个广告的展示费用。
  • 点击作弊:通过脚本或计算机程序模拟真人用户,又或者雇佣和激励诱导用户进行点击,生成大量无用广告点击,获取广告主的CPC广告预算。
  • 安装作弊:通过测试机或模拟器模拟下载,以及通过移动人工或者技术手段修改设备信息、SDK方式发送虚拟信息、模拟下载等等。

二、广告流量反作弊算法体系

2.1 算法模型在业务风控中应用背景

智能风控,运用大量行为数据构建模型,对风险进行识别和感知监控,相比规则策略,显著提升识别的准确性和覆盖率以及稳定性。

常见的无监督算法:

  • 密度聚类(DBSCAN)
  • 孤立森林(Isolation Forest)
  • K均值算法

常见有监督算法:

  • 逻辑回归(logistic)
  • 随机森林 (random forest)

2.2 广告流量模型算法体系

体系分四层:

  • 平台层:主要是依托spark-ml/tensorflow/torch算法框架基础上,引用开源以及自定义开发的算法应用于业务风控建模中。
  • 数据层:搭建vaid/ip/媒体/广告位等多粒度下,请求、曝光、点击、下载、激活等多转化流程的画像和特征体系,服务于算法建模。
  • 业务模型层:基于行为数据特征和画像数据,搭建点击反作弊审计模型、请求点击风险预估模型、媒体行为相似团伙模型以及媒体粒度异常感知等模型。
  • 接入层:模型数据的应用,离线点击反作弊模型审计结果与策略识别审计结果汇总,同步业务下游处罚;媒体异常感知模型主要作为候选名单同步点检平台和自动化巡检进行。

三、算法模型应用案例

3.1 素材交互诱导感知

背景:广告素材中添加虚拟的X关闭按钮,导致用户关闭广告时点击的虚假的X按钮,导致无效的点击流量,同时影响用户体验;左图是投放的原始素材,右侧是用户点击的坐标绘制热力图,虚拟X导致用户关闭广告时产生无效的点击流量。

模型识别感知:

1、密度聚类(DBSCAN):

先定义几个概念

  • 邻域:对于任意给定样本x和距离ε,x的ε邻域是指到x距离不超过ε的样本的集合;
  • 核心对象:若样本x的ε邻域内至少包含minPts个样本,则x是一个核心对象;
  • 密度直达:若样本b在a的ε邻域内,且a是核心对象,则称样本b由样本x密度直达;
  • 密度可达:对于样本a,b,如果存在样例p1,p2,...,pn,其中,p1=a,pn=b,且序列中每一个样本都与它的前一个样本密度直达,则称样本a与b密度可达;
  • 密度相连:对于样本a和b,若存在样本k使得a与k密度可达,且k与b密度可达,则a与b密度相连;
  • 所定义的簇概念为:由密度可达关系导出的最大密度相连的样本集合,即为最终聚类的一个簇。

2、应用算法对诱导误触广告感知:

① 首先按照分辨率和广告位,对点击数据进行分组,筛选过滤掉量级较小的群组;

② 对每个群组,使用密度聚类算法进行聚类,设置邻域密度阈值为10,半径ε=5,进行聚类训练;

③ 对每个群组,密度聚类后,过滤掉簇面积较小的簇,具体训练代码如下:

④ 效果监控和打击,针对挖掘的簇,关联点击后向指标,针对异常转化指标广告位,进行复检,并对复检有问题广告位进行处置。

3.2 点击反作弊模型

3.2.1 背景

针对广告的点击环节建立作弊点击识别模型,提升反作弊审计覆盖能力,发现高纬度隐藏的作弊行为、有效补充点击场景的策略反作弊审计。

3.2.2 建设流程

(1)特征建设

基于token粒度,计算事件发生前,设备、ip、媒体、广告位的等粒度特征。

频率特征:在过去1分钟,5分钟,30分钟、1小时、1天,7天等时间窗口的曝光,点击、安装行为特征、即对应的均值、方差、离散度等特征;

基本属性特征:媒体类型,广告类型,设备合法性、ip类型,网络类型,设备价值等级等。

2、模型训练和效果

① 样本选择:

  • 样本均衡处理:线上作弊样本和非作弊样本非均衡,采用对非作弊样本下采样方式,使得作弊和非作弊样本量达到均衡(1:1)
  • 鲁棒性样本选取:线上非作弊样本量级大,且群体行为多样性且分布不均等,为了小样本训练上线后覆盖所有行为模式,
  • 使用K-means算法:针对线上非作弊样本进行分群,然后对每个群体按照占比再下采样,获得训练的非作弊样本。

② 特征预处理:

  • 统计每个特征缺失率,去掉缺失率大于50%的特征;
  • 特征贡献度筛选,计算每个特征对预测标签Y的区分度,过滤掉贡献度低于0.001的特征;
  • 特征稳定性筛选,在模型上线前,选取最大和最小时间段的样本,计算两个时间段每个特征的PSI值,过滤掉PSI值(Population Stability Index)大于0.2的特征,保留稳定性较好的特征。

③ 模型训练:

采用随机森林算法,对点击广告作弊行为进行分类,随机森林有较多优势,比如:

(1)能处理很高维度的数据并且不用做特征选择;

(2)对泛化误差(Generalization Error)使用的是无偏估计,模型泛化能力强;

(3)训练速度快,容易做成并行化方法(训练时树与树之间是相互独立的);

(4)抗过拟合能力比较强;

超参数搜索优化,使用ParamGridBuilder,配置max_depth(树最大深度),numTrees(树的个数)等超参数的进行搜索优化最优超参数。

④ 模型稳定性监控:

模型上线后,如果特征随着时间迁移,推理时间的特征与训练时间的特征分布存在变动差异,需要对模型稳定性监控并迭代更新;

首先对当前版本训练样本进行存档,计算推理时间的数据和训练时间数据的对应每个特征的PSI值,计算的PSI值(Population Stability Index)每天可视化监控告警。

⑤ 模型可解释性监控:

模型上线后,为了更直观的定位命中模型风险的原因,对推理数据进行可解释性监控;即对每条数据,计算其对预测标签的影响程度;

采用Shapley值(Shapley Additive explanation)解释特征如何影响模型的输出,计算shap值输出到可视化平台,日常运营分析使用。

3.3 点击序列异常检测

3.3.1 背景

通过用户小时点击量序列,挖掘恶意行为对应的设备,挖掘检测远离占绝大多数正常行为外的异常模式用户群体、比如只有凌晨0~6点有低频的其他时间没点击行为的异常群体、或者每小时均衡点击的行为等异常模式用户等。

3.3.2 建设流程

(1)特征建设

以设备作为用户,统计过去1/7/30天,每小时的点击量,形成1*24小时、7*24小时、30*24小时点击量序列,构建的特征具备时间尺度上特征完备性和每个特征数据连续条件,适用于异常检测算法。

(2)模型选择

孤立森林离群点检测算法,算法基于两个理论假设,即异常数据占总样本量的比例很小,异常点的特征值与正常点的差异很大。

检测分布稀疏且离密度高的群体较远的点,比如下图可以直观的看到,相对更异常Xo的只需要4次切割就从整体中被分离出来,即被‘孤立’了,而更加正常的Xi点经过了11次分割才从整体中分离出来。

(3)模型训练

使用IsolationForest算法,为了更好覆盖,针对多种粒度流量进行异常检测训练。

①全平台流量,训练异常感知模型,设置异常样本比例contamination=0.05;

②每类媒体类型的流量,训练异常感知模型,设置异常样本比例contamination=0.1;

③每种广告位类型流量,训练异常感知模型,设置异常样本比例contamination=0.1。

(4)感知监控

  • 异常得分定义:如果异常得分接近 1,那么一定是异常点,如果异常得分远小于 0.5,一定不是异常点;
  • 异常筛选:筛选异常得分大于0.7的用户作为高风险人群,介于0.5~0.7的人群作为中风险人群,对高中风险人群,同步审计平台人工二次审计;
  • 案例分析:

案例①

2022年XX月XX号, 7*24小时点击量异常检测, 可疑恶意用户A ,过去7天大部分时间,每小时均衡产生较多点击记录远超正常用户。

(备注:features中每个点代表用户一个小时的点击量)

案例②

2022年XX月XX号,1*24小时点击量序列异常检测,可疑恶意用户B, 基本只在凌晨产生点击,其他白天基本无点击行为。

四、总结

在流量反作弊领域,随着对抗手段的升级,算法模型能更好发现和挖掘黑产的隐藏的作弊模式;在广告流量反作弊领域,我们使用有监督和无监督等算法模型,从作弊流量识别,异常流量感知方面做了探索挖掘应用,有效提升识别能力,挖掘发现较复杂的异常行为模式。未来算法模型在机器流量识别上更多探索实践应用。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
赠书丨京东图计算团队:基于京东Galileo 图深度学习平台,电商广告作弊与反作弊
图神经网络是人工智能的一个热点方向,从图的视角解读大数据,可以灵活建模复杂的信息交互关系,吸引大量学者的关注并在多个工业领域得到广泛应用。 《图深度学习从理论到实践》由浅入深,全面介绍图神经网络的基础知识、典型模型方法和应用实践。《图深度学习从理论到实践》不仅包括一般的深度学习基础和图基础知识,还涵盖了图表示学习、图卷积、图注意力、图序列等典型图网络模型,以京东自研的Galileo平台为代表的图学习框架,以及图神经网络在电商推荐和流量风控方面的两个典型工业应用。 《图深度学习从理论到实践》既适合对数据挖掘、
AI科技评论
2022/06/13
8470
赠书丨京东图计算团队:基于京东Galileo 图深度学习平台,电商广告作弊与反作弊
Arch Summit全球架构师峰会在深举办 腾讯安全披露广告黑灰产对抗思路
“我知道在广告上的投资有一半是无用的,但问题是我不知道是哪一半。” 这句20年前的“名言”至今仍然是数字广告业的核心挑战。但一个差别是,20年前广告主担心广告投放是否辐射到了目标用户,20年后广告主的担心变成了看广告的是不是真正的“用户”。 7月12日,聚焦业界领先技术成果的Arch Summit 全球架构师峰会开幕,腾讯安全天御高级研究员邝展豪受邀演讲,揭开了制造虚假流量的广告业黑灰产“面纱”,并就如何构建基于对抗性训练的广告流量反作弊系统,分享了腾讯安全的实践经验。 (腾讯安全天御高级研究员邝展豪
腾讯云安全
2019/07/15
6760
Arch Summit全球架构师峰会在深举办 腾讯安全披露广告黑灰产对抗思路
人工智能时代,如何做好内容审核和流量反作弊?
人工智能时代,如何做好内容审核和流量反作弊?
数据猿
2018/05/31
3.1K0
京东图计算团队:图深度学习从理论到实践
图神经网络是人工智能的一个热点方向,从图的视角解读大数据,可以灵活建模复杂的信息交互关系,吸引大量学者的关注并在多个工业领域得到广泛应用。
NewBeeNLP
2022/11/11
1.2K0
京东图计算团队:图深度学习从理论到实践
风控ML[14] | 风控中的异常检测原理与应用
今天来介绍一下风控中的异常检测,从最基础的概念开始讲起,因为本人对这块的内容平时工作也做得不多,更多滴偏向于“纸上谈兵”,有什么说得不对的地方,也欢迎各位朋友指正~谢谢。
Sam Gor
2022/04/12
3.1K0
风控ML[14] | 风控中的异常检测原理与应用
苹果修改IDFA协定 史塔克军团称凛冬将至 (下)
“凛冬将至”,这是目前广告反欺诈行业的现状,也是史塔克家族的族语。苹果修改IDFA协定,对一些中小公司而言无异于雪上加霜,因为广告流量作弊更加难以识别,导致中小公司需要投入更大的成本购买流量,加之疫情期间收入减少,生存更加举步维艰。腾讯防水墙多年来致力于对抗黑产,打击广告欺诈行为,以技术为瓦雷利亚钢剑,守护互联网世界安全,保护中小企业健康发展,助力疫情期间经济复苏。在漫漫长夜里战胜夜王,于史塔克军团而言是使命,更是担当。 我们在上一篇写到,苹果公司修改IDFA协定,为安全工程师对抗黑色产业链、进行广告
腾讯防水墙
2021/04/29
7760
基于GPT分析面试要求
这份实习要求主要考察通用型的业务问题、过往的项目经历、价值观和软性技能。对于这个职位,以下是可能需要具备的能力和特点:
用户3578099
2023/10/31
3880
基于GPT分析面试要求
专访2016CCF大数据与计算智能大赛冠军:针对广告位的作弊检测算法
大数据文摘记者 | 魏子敏 Facebook近日称,2016年第一季度,其DSP平台Atlas半年的流量质量测试结果显示,由机器人模拟和黑IP等手段导致的非人恶意流量高达75%。一石激起千层浪,这一报道在国内数字营销领域内引发热议同时,“广告反欺诈(Anti-Fraud)”的问题再次被推到舆论的风口浪尖,而如何更好的监测作弊流量也收获了广泛关注。 12月25日,为期两个月的2016CCF大数据与计算智能大赛在青岛落下帷幕。其中,荣获CCF最佳算法能力奖的北京大学“fgo非洲人”团队的参赛作品“Human
大数据文摘
2018/05/22
1.1K0
【机器学习】机器学习重要方法——无监督学习:理论、算法与实践
无监督学习(Unsupervised Learning)是一类重要的机器学习方法,通过对未标注数据的分析和建模,揭示数据的内在结构和模式。无监督学习广泛应用于聚类、降维、异常检测和关联规则挖掘等领域,具有很高的研究价值和实际应用前景。本文将详细探讨无监督学习的基本原理、核心算法及其在实际中的应用,并提供代码示例和图表以帮助读者更好地理解和掌握这一技术。
E绵绵
2024/06/23
1.2K0
直播、游戏等全场景联防联控,B站精准流量感知风控实践
导读:随着互联网时代的到来,互联网行业内业务模式在不断创新的同时也遭遇到了前所未有的挑战。互联网世界的信息实时传递,用户可以随时随地访问各种业务系统,给人们的日常生活带来极大便利的同时,也带来了一系列如虚拟机、虚拟手机号、信息泄露等防不胜防的风险和安全隐患。基于这种情况,如何实现更加精准高效的风控将成为互联网行业内亟待解决的重要问题。今天的分享将以B站为主要案例,具体讲述互联网行业内全场景联防联控的相关措施。
从大数据到人工智能
2022/08/30
1.1K0
直播、游戏等全场景联防联控,B站精准流量感知风控实践
魔高一丈?程序化广告流量如何作弊
专栏作家Ratko Vidakovic将为大家阐述关于广告流量作弊的各种方式,希望您在营销过程中能够一眼识破这些诡计! 程序化广告领域的流量作弊关系到今天每位营销者。开放的程序化生态允许任何规模的广告
iCDO互联网数据官
2018/03/02
1.4K0
魔高一丈?程序化广告流量如何作弊
大规模图搜索和实时计算在阿里反作弊系统中的应用
针对电商平台上的作弊行为,阿里巴巴一直秉承着零容忍的态度,在虚假交易的识别防控以及处罚力度上没有最强只有更强。经过多年在全球最大的电商平台大数据上的沉淀和积累,阿里电商反作弊形成了一套监控预警、识别分析和处罚管控的多维度监管机制,特别是对虚假交易的数据监控和算法识别上应用了覆盖全链路大数据的实时分析处理能力以及大规模图搜索技术来鉴别作弊行为。
fishexpert
2018/11/20
2.4K0
一文读懂!异常检测全攻略!从统计方法到机器学习 ⛵
异常值是偏离数据集中大多数样本点的数据点。出现异常值的原因有很多,例如自然偏差、欺诈活动、人为或系统错误。不过,在我们进行任何统计分析或训练机器学习模型之前,对数据检测和识别异常值都是必不可少的,这个预处理的过程会影响最后的效果。
ShowMeAI
2022/11/29
3.9K0
一文读懂!异常检测全攻略!从统计方法到机器学习 ⛵
如何用数据驱动的广告效果
来源:Coggle数据科学 本文梳理了现有的互联网广告效果监测指标体系和监测工具,结合互联网时代的广告模式构建出一个数据驱动的广告效果监测体系。文章为《数据驱动的互联网广告效果监测研究》论文的阅读笔记。 广告检测指标 从广告曝光到用户行为再到后期转化,广告效果的评估已经有了大量的评估指标。根据用户的行为,可将这些指标分为三类:流量指标、互动指标和转化指标。 流量指标 流量指标是描述广告展现情况和到达情况的一类指标。根据这些指标,广告主可以判断前端广告导流的流量价值。目前来看,流量指标仍然是一些品牌类广告主常
张俊红
2022/06/16
6390
如何用数据驱动的广告效果
计算广告笔记-计算广告技术概览
计算广告是根据个体用户信息投送个性化内容的典型系统之一。在介绍计算广告系统的架构之前,先看看一般的个性化系统是如何构成的。
公众号-不为谁写的歌
2020/07/23
2.9K0
计算广告笔记-计算广告技术概览
「经验」数据分析这7个场景下,可以利用算法解决问题
阅读建议:本文站在数分同学的角度,分享工作中需要用到算法的地方,聚焦实际应用场景,算法不会展开(网络上有很多资料),内容相对轻松。
小火龙说数据
2022/06/30
4410
收藏!14 种异常检测方法总结
来源:宅码本文约7800字,建议阅读10分钟本文收集整理了公开网络上一些常见的异常检测方法(附资料来源和代码)。 本文收集整理了公开网络上一些常见的异常检测方法(附资料来源和代码)。不足之处,还望批评指正。 一、基于分布的方法 1. 3sigma 基于正态分布,3sigma准则认为超过3sigma的数据为异常点。 图1: 3sigma def three_sigma(s):     mu, std = np.mean(s), np.std(s)     lower, upper = mu-3*std
数据派THU
2022/06/29
1.2K0
收藏!14 种异常检测方法总结
14种数据异常值检验的方法!
来源:宅码 作者:AI 本文收集整理了公开网络上一些常见的异常检测方法(附资料来源和代码)。不足之处,还望批评指正。 一、基于分布的方法 1. 3sigma 基于正态分布,3sigma准则认为超过3sigma的数据为异常点。 图1: 3sigma def three_sigma(s):    mu, std = np.mean(s), np.std(s)    lower, upper = mu-3*std, mu+3*std    return lower, upper 2. Z-score
张俊红
2022/05/30
1.7K0
14种数据异常值检验的方法!
什么是机器学习?有哪些算法和分类?又有哪些应用?看完你就懂了
导读:本文从大数据的概念讲起,主要介绍机器学习的基础概念,以及机器学习的发展过程,用一个形象的例子讲解大数据生态中的机器学习,并按照传统机器学习(包括分类、聚类、回归、关联规则、协同过滤、数据降维等)、深度学习,以及其他机器学习(迁移学习、主动学习、演化学习)进行算法讲解。
IT阅读排行榜
2019/04/24
13.9K0
什么是机器学习?有哪些算法和分类?又有哪些应用?看完你就懂了
理论结合实践,一文搞定异常检测技术
数据集汇总的异常数据通常被认为是异常点、离群点或孤立点,特点是这些数据的特征与大多数数据不一致,呈现出"异常"的特点,检测这些数据的方法称为异常检测。
数据STUDIO
2021/07/21
1.4K0
推荐阅读
相关推荐
赠书丨京东图计算团队:基于京东Galileo 图深度学习平台,电商广告作弊与反作弊
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档