Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >干货 | 携程基于大数据分析的实时风控体系

干货 | 携程基于大数据分析的实时风控体系

作者头像
携程技术
发布于 2018-07-05 08:13:02
发布于 2018-07-05 08:13:02
2.9K0
举报
文章被收录于专栏:携程技术携程技术

作者简介

刘江,携程金融管理部风险管理总监,负责携程集团的全面风险管理工作。拥有近15年风险管理经验,先后在广发银行、OperaSolutions、阿里巴巴和腾讯等公司任重要管理岗位,一直从事风控政策、风控模型、大数据征信等相关工作。

携程反欺诈体系经过超过10年的发展和积累,在大数据实时并行计算和实时多维关联分析方面已经非常成熟,是整个体系稳定高效运行的基础。

近两年来,我们在大数据和人工智能方向投入研发资源,产出了设备指纹、CDNA、实时复杂变量计算引擎等一系列创新项目,取得到很好的应用效果。2017年整体卡BP降低50%以上,远低于同行平均水平,为携程业务的发展以及全球化化进程提供了有利条件。

性能和复杂度可以兼得

携程的风控系统,和大部分第三方支付平台一样,也是以实时风控系统为主:

  1. 支付环节一般留给风控校验的时间不会超过1s,业务风控点上更是希望风控能在100ms内就能通过;对性能的追求,也是对极致用户体验的追求。
  2. 携程近两年每年的订单增幅在50%以上,营销活动、恶意占资源等业务风控的干预量更是每年10x以上的幅度增长。
  3. 规则数量两年翻了五倍,同时规则使用更多的数据不再仅限于产品信息、支付信息、账号信息,行为数据等弱关联数据开始大量的应用于规则分析。
  4. 在实时风控场景里大量部署复杂模型,使模型也能和规则一样能直接拒绝交易;平均来看、执行一个模型以及相关的变量计算所需的资源可能与200条普通规则相当,对系统的架构和性能都是很高的挑战。
  5. 欺诈份子的技术也在不断进步,更隐蔽,我们需要更多的数据来识别,比如对模拟器的识别、对代理服务器的识别,都投入了不小的研发资源。

给大家看一些数据:

一笔支付请求背后,携程风控的规则计算复杂度:

期间计算生成的变量个数接近2000个,90%以上的变量是Velocity和Ratio类型的变量,甚至较大一部分是精确到当笔交易的;执行完整个规则校验,风控返回给支付系统通过或拒绝的指令,平均耗时不到150ms,99.9%线也只有500ms左右。

携程风控架构变迁简史

携程自建风控系统开始于2011年左右,直到2015年正好赶上公司技术栈从.Net往Java平台转变,风控系统也迎来了一次完全的重写。

新系统的架构、设计复杂度、预计的处理能力也充分考虑了公司的业务发展预期,第一次让技术走在了业务到来之前。经过每年一个大版本的迭代,到目前为止,携程风控的技术水平已经处于行业第一梯队。

架构概述及核心服务

下面我们看看携程风控的架构实现:

上图可能有点抽象,我们看一个具体的例子:

概念:登录/注册、下单、支付、支付结果通知、出票等等这些我们称之为风控接入点。

有些接入点是做实时校验用的、有些是收集数据用的,在携程整个大系统内一共有超过400个风控接入点,审核或监控携程交易的每一个环节,保障着每一笔交易的安全和用户的利益。

每天风控收集上来的数据超过50亿条,其中超过1亿左右的请求需要风控实时校验风险并返回给业务系统当前操作是否可以继续。

用户从登录开始风控就已经开始在介入,在用户浏览、下单的过程中,对这个用户的风险评估和计算一直在持续,等到用户发起支付请求时,风控的热数据里已经有了完整的关于这个用户画像数据,风控引擎可以在这些数据的基础上实时计算和衍生出规则和模型需要的变量。

支撑风控系统的高可用、高性能,离不开强大的基础设施,下面我向大家展示一下携程风控的几个核心服务和组件:

风控引擎

我们给他起了一个名字叫 Matrix,意思是像魔方一样灵活多变。 数以千计的规则是分布式并行执行的、以保证规则数量和执行耗时没有明显的正相关性;并且风控引擎可以按业务动态分组,既保证了业务之间良好计算资源的隔离性、也提供了足够的灵活性。

规则引擎

初始版本基于drools实现,不过经过两个版本的迭代优化后,已经完全替换成自主研发的引擎,新引擎兼容drools的脚本,迁移到新引擎几乎零成本。迁移后规则执行性能提升一个数量级以上且具有更好的稳定性。

模型执行引擎

风控引擎支持把SAS或SPARK等工具训练出来的模型直接在风控系统中部署,支持DOT和PMML等多种格式。

我们自主实现了DOT模型文件的解释器,执行效率相对于Python执行提升20倍以上。

实时流量服务

内部称为Counter Server,负责衍生计算所有Velocity变量和Ratio变量,重要性不言而喻,Counter的性能直接影响到整笔交易的耗时和准确性。

我们基于Redis集群构建了一个Slide window,实现上其实很轻量,但确是很好用,把时间窗口的刻度映射到了redis的key上,目前支持秒、分钟、小时、日、月等的精度。可以根据变量的要求灵活、动态的配置各类实时统计项。目前集群容量在2-5TB之间。

Counter服务每天支撑了超过100亿次查询,单次流量查询的平均耗时仅1ms左右,保证了变量衍生的可靠性。

设备指纹

传统上都用IP来标识一个设备,但是随着移动网络的普及,IP基本已经失去这个功能了,你取到的很多都是基站IP、出口IP,封掉一个IP可能会误杀一片。

在APP里可以使用IMEI或IDFA硬件ID来识别设备,但在PC和H5需要一个比IP更准确的设备识别标识。已经有一些公司走在了前面,比如业内知名的ThreatMetrix、国内也有几家专业做设备指纹的服务商。

设备指纹是风控识别欺诈交易的关键技术,此类核心技术要掌握在自己手里,携程风控研发的设备指纹服务,已经在携程全站部署以及携程集团旗下的多个站点部署,应用后规则抓取准确性提升非常明显。

设备指纹的架构及关键指标:

CDNA

我们需要完整且深入的了解对于同一个人或同一类欺诈团伙在携程“一生”的行为以及“足迹”。

基于此目标,研发了CDNA服务,通过对所有流经风控的数据进行多维度的无限极收敛关联,把同一个人的数据聚合在了一起;CDNA服务每天处理超过100TB的数据。

通过CDNA对于发现新的欺诈特征很有帮助,让规则抓取更准确。

代理和模拟器识别

欺诈分子的技术也在不断的演进,作案的隐匿性更强,代理服务器和模拟器是非常好的隐匿手段,在交易刷单、信用卡欺诈等很多场景都会见到。

我们研究了TCP Signature、Time Gap、用户行为、针对各类模拟器的实验数据等,有了一套自己的方法论和识别方案。

人工规则vs模型

模型对于规则的补充意义是非常显著的,可以弥补人工规则的盲区,模型可以很好的覆盖历史欺诈特征、可以大大减少规则数量。

不管是规则还是模型,都需要建立在对业务上下文充分理解的基础之上。脱离业务上下文、仅针对数据本身的分析而提取出的特征往往是有偏颇的、不全面的,实际上线效果必然也不会很理想

简单介绍我们的特征变量提取方法:

变量衍生方法

结束语

“Make the Travel More Freely and Securely”,是携程风控的内部文化和使命。随着携程全球化步伐的不断推进,交易量日益增长的情况下,国内外的黑产技术也日趋成熟,欺诈形势越来越严峻。

携程是OTA行业的领导者,携程反欺诈技术团队也将引领反欺诈领域的技术进步,提前研究并掌握大数据和人工智能等先进工具的应用,以应对未来更大的挑战,给用户提供更好的服务。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-05-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 携程技术中心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
微分享回放 | 携程是如何把大数据用于实时风控的
作者简介 郁伟,携程技术中心风险控制部高级开发经理。2010加入携程,参与了携程结算平台、风控系统的开发,对系统架构、流式数据处理等有比较深入的研究。 *视频时长约1小时19分钟,请在WiFi环境下观看* 携程作为国内OTA领头羊,每天都遭受着严酷的欺诈风险,个人银行卡被盗刷、账号被盗用、营销活动被恶意刷单、恶意抢占资源等。 目前携程利用自主研发的风控系统有效识别、防范这些风险。携程风控系统从零起步,经过五年的不断探索与创新,已经可以有效覆盖事前、事中、事后各个环节。也从原来基于“简单规则+DB”,发展到
携程技术
2018/03/16
1.2K0
微分享回放 | 携程是如何把大数据用于实时风控的
专注B2B跨境支付的背后,XTransfer的风控基础设施是如何炼成的?
作者 | 罗燕珊 据统计,我国从事进出口业务的企业数量达数百万之多。中小微企业占出口贸易 60% 以上,且逐年递增。同时,因为这些年疫情的缘故,进一步加速了 B2B 外贸业务由线下向线上转移。 相比 B2C,B2B 跨境支付由于涉及多方机构、多个环节,支付手续更加复杂繁琐。因此,中国外贸企业对于更高效的 B2B 跨境支付系统、资金管理系统有着更大的需求。 其中,中小微外贸企业亟需更高效的跨境支付平台。在跨境支付及金融服务方面,对 B2B 中小微外贸企业来说,首先,开通传统银行账户门槛高,资质要求严格,成本
深度学习与Python
2023/03/29
7430
专注B2B跨境支付的背后,XTransfer的风控基础设施是如何炼成的?
支付风控模型
支付风控涉及到多方面的内容,包括反洗钱、反欺诈、客户风险等级分类管理等。 其中最核心的功能在于对实时交易进行风险评估,或者说是欺诈检测。如果这个交易的风险太高,则会执行拦截。由于反欺诈检测是在交易时实时进行的,在要求不能误拦截的同时,还有用户体验上的要求,即不能占用太多时间,一般要求风控操作必须控制在100ms以内,对于交易量大的业务,10ms甚至更低的性能要求都是必须的。 这就需要对风控模型进行合理的设计。一般来说,要提升风控的拦截效率,就需要考虑更多的维度,但这也会带来计算性能的下降。在效率和性能之间需要进行平衡。
全栈程序员站长
2022/08/11
2.3K0
支付风控模型
实时业务风控系统
代码已开源, https://github.com/sunpeak/riskcontrol
BUG弄潮儿
2022/06/30
2.4K0
基于 Apache Flink 和规则引擎的实时风控解决方案 ​
对一个互联网产品来说,典型的风控场景包括:注册风控、登陆风控、交易风控、活动风控等,而风控的最佳效果是防患于未然,所以事前事中和事后三种实现方案中,又以事前预警和事中控制最好。
Spark学习技巧
2019/10/21
6.1K0
基于 Apache Flink 和规则引擎的实时风控解决方案 ​
《风控要略:互联网业务反欺诈之路》一万字读后详细总结
本书的内容正如书名所述,是为要略而非攻略,即作者站在一个更为宏观的角度,以自身的从业经验对当今风控领域做了一番较为全貌的总结概述。书中的章节内容有精有简,既为要略,那么就无法苛求其内容都足够全面与详细。它更像是一部风控领域的科普类简述作品,在广度上能较好地让读者了解到风控各方面的现状及走向,但若要谈及深度,则多少有种“师父领进门,修行在个人”的感觉。这本书其实有挺多人推荐,一方面是书籍出版时间距离现在很近,一方面则是填补风控业务领域入门书籍的空白,只是通篇读完,好的地方是有,值得吐槽的地方也不少。总而言之,对于像我这样风控小白而言,还是值得翻阅一番。
朱季谦
2021/03/02
1.7K0
《风控要略:互联网业务反欺诈之路》一万字读后详细总结
干货 | 携程新风控数据平台建设
作者简介 刘丹青,携程信息安全部高级开发工程师。2014年加入携程,主要负责验证码、风控数据平台的开发设计工作,提供性能测试与性能优化的相关支持。 前言 近几年,随着电商和互联网金融的发展,各大互联网企业也在逐步加强风控体系的建设,为公司的运营保驾护航。在携程,各BU经常受到恶意注册、登录、恶意刷单、扫号等行为,所以建设了一套数据平台,希望能够从数据中挖掘出有用的信息,不仅可以为风控系统提供数据支持,还可以为其他服务提供支撑。 本文主要从架构和业务的角度介绍下携程信息安全团队的数据平台建设之路,以及如何为
携程技术
2018/03/16
1.2K0
干货 | 携程新风控数据平台建设
金融科技&大数据产品推荐: 数美金融风控—构建立体的全业务流程风控体系
金融科技&大数据产品推荐: 数美金融风控—构建立体的全业务流程风控体系
数据猿
2018/04/24
2.7K0
金融科技&大数据产品推荐: 数美金融风控—构建立体的全业务流程风控体系
顶象为中国移动打造高效风控系统
每天,有无数网友跟小刘一样,登录i商城“打卡“。领积分、领流量、领优惠券、兑换礼品,参与益智小游戏。除此外,还可以进行充值、缴费、买手机、修手机、买手机、买流量、买数码产品、买小家电,甚至买母婴日化用品。
顶象技术
2022/12/21
2.3K0
顶象为中国移动打造高效风控系统
金融科技&大数据产品推荐:易鑫大数据风控平台
金融科技&大数据产品推荐:易鑫大数据风控平台
数据猿
2018/04/25
2.9K0
金融科技&大数据产品推荐:易鑫大数据风控平台
干货 | 百亿节点,毫秒级延迟,携程金融基于nebula的大规模图应用实践
作者简介 霖雾,携程数据开发工程师,关注图数据库等领域。 背景 2017年9月携程金融成立,在金融和风控业务中,有多种场景需要对图关系网络进行分析和实时查询,传统关系型数据库难以保证此类场景下的关联性能,且实现复杂性高,离线关联耗时过长,因此对图数据库的需求日益增加。携程金融从2020年开始引入大规模图存储和图计算技术,基于nebula构建了千亿级节点的图存储和分析平台,并取得了一些实际应用成果。本文主要分享nebula在携程金融的实践,希望能带给大家一些实践启发。 本文主要从以下几个部分进行分析: 图
携程技术
2022/06/27
1.1K0
干货 | 百亿节点,毫秒级延迟,携程金融基于nebula的大规模图应用实践
大数据风控模型是什么?有哪些?
摘要:在互联网金融行业,不少人可能这样觉得:认为只要数据够“大”,就能有最牛逼的风控体系和行业最低的坏账率。
全栈程序员站长
2022/09/05
1.4K0
金融风控领域的工业级大数据应用: 如何跨越AI与业务经验结合前的鸿沟?
机器学习、深度学习等对金融业务有何帮助?背后究竟又是怎样去变革提升当下金融体系的?在本月举办的复旦科技创新论坛上,CreditX氪信创始人兼CEO朱明杰就金融风控领域的工业级大数据应用进行了阐述。 朱
大数据文摘
2018/05/25
1.1K0
金融科技&大数据产品推荐:蜂巢——数据科学驱动的互联网风控解决方案
金融科技&大数据产品推荐:蜂巢——数据科学驱动的互联网风控解决方案
数据猿
2018/04/24
1.4K0
金融科技&大数据产品推荐:蜂巢——数据科学驱动的互联网风控解决方案
干货 | 携程机票实时数据处理实践及应用
作者简介 张振华,携程旅行网机票研发部资深软件工程师,目前主要负责携程机票大数据基础平台的建设、运维、迭代,以及基于此的实时和非实时应用解决方案研发。 携程机票实时数据种类繁多,体量可观,主要包括携程机票用户访问、搜索、下单等行为日志数据;各种服务调用与被调用产生的请求响应数据;机票服务从外部系统(如GDS)获取的机票产品及实时状态数据等等。这些实时数据可以精确反映用户与系统交互时每个服务模块的状态,完整刻画用户浏览操作轨迹,对生产问题排查、异常侦测、用户行为分析等方面至关重要。 回到数据本身,当我们处理数
携程技术
2018/07/05
1.5K0
干货 | 携程实时大数据平台实践分享
编者:本文作者为携程大数据平台负责人张翼。张翼浙江大学硕士毕业,2015年初加入携程,主导了携程实时数据计算平台的建设,以及携程大数据平台整合和平台技术的演进。进入互联网行业近10年,从事大数据平台和架构的工作超过6年。 今天给大家分享的是携程在实时数据平台的一些实践,按照时间顺序来分享我们是怎么一步一步构建起这个实时数据平台的,目前有一些什么新的尝试,未来的方向是怎么样的,希望对需要构建实时数据平台的公司和同学有所借鉴。 为什么要做数据平台 首先先介绍一下背景,为什么我们要做这个数据平台?其实了解携程的
携程技术
2018/03/16
2.5K0
干货 | 携程实时大数据平台实践分享
【案例】大型持牌消费金融公司——智能风控体系构建
数据猿导读 整个金融业态正在技术、资本和市场的共同作用下发生数字化重构。面对剧烈变化的市场竞争格局和趋严的监管政策,金融机构纷纷通过引入先进技术强化其核心竞争力,提升其原有体系的效率。 本篇案例为数据
数据猿
2018/04/24
1.7K0
【案例】大型持牌消费金融公司——智能风控体系构建
第六期 | 黑灰产盯上政府消费券,最高套现额超千万
顶象防御云业务安全情报中心监测发现,自政府消费券发放以来存在着大量套现、虚假交易的风险,从而起不到真正促销费、拉动消费的杠杆作用,相反,政府的资金很大部分落到了恶意用户的口袋中。
顶象技术
2022/09/15
5060
第六期 | 黑灰产盯上政府消费券,最高套现额超千万
【数据分析】互联网+大数据模式下的征信
  技术变革对征信业的发展起到了非常大的促进作用。征信最早起源于消费分期,需要对消费者进行信用评估,但当时更多的是通过口碑积累的定性判断,没有定量描述。进入电子化时代后,数据得到了沉淀和积累,我们开始使用数据统计模型来计算和评估信用,这极大地推动了行业快速向前发展。在今天的互联网时代,数据承载量非常大,任何数据都可以成为信用的一部分,即我们可以利用数据与信用的关联度,深层次挖掘信用数据。人工智能算法模型不止是对过去的统计,也包括对未来的预测,它可以帮助我们更好地刻画违约概率和信用状况。 图1 技术
陆勤_数据人网
2018/02/27
1.6K0
【数据分析】互联网+大数据模式下的征信
风控数据体系-简介
早期传统金融的风控主要利用了信用属性强大的金融数据,一般采用20个维度左右的数据,利用评分来识别客户的还款能力和还款意愿。信用相关程度强的数据维度大概在十个左右,包含年龄、职业、收入、学历、工作单位、借贷情况、房产,汽车、单位、还贷记录等;而互联网金融公司在利用大数据进行风控的同时,会根据需求利用多维度数据来识别借款人风险,维度包括不限于:社交类数据、消费类数据、行为类数据、多源银行账户数据等。
数字悠客
2020/06/29
4.4K0
推荐阅读
相关推荐
微分享回放 | 携程是如何把大数据用于实时风控的
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档