本文转载自公众号:阿里技术, 微信号:ali_tech。原作者:搜索事业部
针对电商平台上的作弊行为,阿里巴巴一直秉承着零容忍的态度,在虚假交易的识别防控以及处罚力度上没有最强只有更强。经过多年在全球最大的电商平台大数据上的沉淀和积累,阿里电商反作弊形成了一套监控预警、识别分析和处罚管控的多维度监管机制,特别是对虚假交易的数据监控和算法识别上应用了覆盖全链路大数据的实时分析处理能力以及大规模图搜索技术来鉴别作弊行为。
一、淘宝反作弊体系结构
淘宝反作弊体系结构可以从数据、算法、和系统三个维度来解释
此外,淘宝反作弊系统还引入了评估体系,是评价淘宝反作弊的效果和价值的一套完整方法,主要包括人工和算法结合的评测,召回率和准确率用来评估算法模型本身的覆盖面和精准度,落地率、纯净率和反弹率来评估业务效果和价值。
二、淘宝反作弊算法
淘宝反作弊算法体系是伴随着淘宝平台而不断优化和完善的,早期作弊的形式非常简单,比如频繁修改商品上下架时间来获取有利的商品排名,这种作弊手段往往经过简单的分析处理就可以制定相关的规则来处理,随着平台业务场景的多元化,作弊手段也随着变化多样,但大部分集中在商品基础信息层面上的作弊,比如类目错放、标题词滥用、夸大宣传、低价炒信、广告商品、重复铺货、刷流量和查询词等等,或者机器刷单模式。
道高一尺魔高一丈,无论刷单手法多么诡计多端,淘宝反作弊算法体系都能快速响应。其中最重要的就是实现了一套覆盖全链路(售前、售中、售后)大数据(账号网、交易网、资金网、物流网)的实时分析处理能力,因此任何一条隐蔽性强的“精刷”作弊路径都可以被海量大数据从多个点来进行算法建模和交叉分析,从而能快速地识别并控制住风险。淘宝反作弊算法框架大致见下图1。
图1、淘宝反作弊算法框架
首先整个反作弊算法框架融合了“账号网、交易网、资金网、物流网”四网大数据,并覆盖了电商“购物前-购物中-购物后”多个业务环节,算法模型是一种流式计算框架,数据日志经过实时和离线两大计算模块后会加工成一些交易属性特征作为识别算法的基础,其中实时计算主要是对一些异常的在线数据(比如商品销量异常或者卖家信誉增长异常)进行快速分析并转化为相应的特征,而离线计算是对全链路数据的特征加工和处理,结合在线和离线的计算可以将行为变化的长期和短期因素的影响在模型计算中综合考虑,从而进一步提高识别的时效性和精度。
淘宝反作弊算法框架主要覆盖了阿里电商两大场景:日常反作弊和大促反作弊。算法主要是以大规模图挖掘(Graph Mining)和在线学习(online learning)为核心,在线学习可以对一些规则性的算法做到实时更新模型用来防范“试探性”地作弊手段,主要是基于规则的的模型(决策树和LR逻辑回归模型),根据一些交易特征建立强规则来进行识别计算,对那种明显的商品作弊模式的识别非常高效。
而大规模图挖掘则是通过跳出行为“局部性”的方法考虑行为的“全局性”来深挖“精刷”类型的作弊手段。比如概率图模型对用户行为路径进行时间序列建模(假设正常用户的行为轨迹的时间序列是服从某种概率分布,异常的行为轨迹在某些点上服从其他概率分布),对那种机器刷单或者固定模式刷单能非常有效地识别;图标签传播模型可以来做团伙刷单的识别,对炒信平台隐蔽性高组织性强的“精刷”模式的识别非常高效准确。为了进一步验证算法模型的精准性,反作弊体系也增加了实时干预模块来做交叉验证和分析,主要包括专家知识、人工举报、异常监控和人工评测,这些外部数据源加工处理后可以作为验证数据动态帮助模型进一步优化。
大规模图搜索技术在反作弊中的应用主要体现在下面四类核心算法:
三、大数据全链路反作弊示例
淘宝反作弊最核心的部分就是搭建了一个将“账号网、交易网、资金网、物流网”四网合一的全链路大数据的天罗地网,做到全方位无死角的监控和识别任一种作弊行为
图2、大数据全链路反作弊识别-账号网
图3、大数据全链路反作弊识别-交易网
图4、大数据全链路反作弊识别-资金网
图5、大数据全链路反作弊识别-物流网
四、总结
淘宝反作弊体系已经建立并完善了一套完整的包括“账号网”、“交易网”、“资金网”、“物流网”的大数据分析体系,和覆盖“售前”、“售中”和“售后”的电商全链路的在线学习(Online Learning)和大规模图挖掘(Graph Mining)算法识别系统。同时还建立了完整的“平台化”风险管控系统-“虫洞”,通过系统监控预警以及在线分析的方式将模型算法和人工运营有效结合起来,不仅能高效识别作弊行为并进行了有效地干预,同时还可以有效控制各种风险。经过日常和大促的洗礼,淘宝反作弊算法体系无论在准确率、覆盖率、反弹率上都能经受任何形式的考验。