Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >特征工程在实际业务中的应用!

特征工程在实际业务中的应用!

作者头像
算法进阶
发布于 2022-06-02 03:18:57
发布于 2022-06-02 03:18:57
4780
举报
文章被收录于专栏:算法进阶算法进阶

以下文章来源于Datawhale ,作者King James

首先明确一下问题,“特征工程在实际业务中的应用”,也就是领域业务知识和机器学习建模的相互结合。下面会对特征工程简单介绍,并且用自己工作中实际参与的项目给大家分享在银行贷款申请反欺诈场景&零售线上APP推荐场景的机器学习建模里,业务知识是如何帮助特征工程的。

01 简单介绍特征工程是什么?

特征工程是工业界建模中最最最重要的一个模块。模型效果的好坏,一部分是由数据质量决定的,另一部分是由特征工程决定的,大家使用的算法有时候都是一样的。

什么是特征工程?比如金融信贷申请反欺诈场景下,当一个新的用户来申请贷款,我们如何评估一个用户是欺诈用户还是正常用户,那么就需要找到这二者在哪些特征上表现存在差异,通过这些特征来进行区分。寻找基本特征、构建组合特征来有效地区分不同label的样本,这个就是特征工程。

02 业务知识如何帮助特征工程?

几乎所有工业界的建模,数据科学家都会去请教一下业务专家。除非是特别资深的数据科学家,在该场景下建模经验十分丰富,对业务很了解。不然,数学科学家一般都会去请教对于该场景熟悉的业务专家,有他们的输入对建模会有很大的帮助。

比如我们给银行做贷款申请反欺诈项目,我们会对对方的风控人员进行访谈。了解他们在没有反欺诈模型,人工审核时是通过哪些特征来区分欺诈用户和正常用户的。我们给商超做线上推荐项目,我们会访谈对方的运营人员,在没有推荐模型时他们为每个门店不同时间段设置推荐商品时是依据什么样的原则。专家懂的东西,业内我们一般叫做 “专家规则”

为什么要去了解业务知识?

(1)有的放矢,提高建模效率和保证模型效果下限

业务专家的输入,可以帮数学科学家快速做一层特征筛选和特征组合工作。比如银行贷款申请反欺诈场景下,用户的基础特征、征信报告特征加上资产等特征,加起来好几百个特征。很多数学科学家第一次接触征信报告,征信报告都看不懂,无法理解特征字段意义。这时候业务专家就会做输入,哪些特征上欺诈客户和正常客户表现差异很大,哪些特征组合在一起看比较有效。

业务专家的输入,降低了建模试错成本。也一定程度上保证了模型效果的下限。

(2)避免特征过多过拟合

当没有业务输入的时候,很多时候数据科学家只能通过训练集上效果的表现来判断特征有效性,有时候为了模型效果会加入很多特征进去,导致训练集上效果还不错,测试集上可能效果就一般,实际上线后模型效果可能会更差,这就是模型出现了过拟合。这两条原因中,第一条是最主要原因。

03 实例介绍

下面给大家分享一些实际工作中专家规则如何映射到特征工程上。

3.1 银行贷款申请反欺诈场景

场景说明: 用户来银行申请贷款,数据科学家根据用户申请信息、征信数据等等,构建一个反欺诈信用评分模型。分数取值在【0,100】之间,100分代表用户欺诈程度极高,0分代表用户欺诈程度极低,为每一个客户进行信用评分。

使用模型: LR模型;

专家规则:专家规则有很多,我列举几个常见且易懂的规则。

  • 信息是否一致: 银行风控人员在审核贷款申请时,特别关注用户的申请信息和央行征信报告上的数据是否一致,比如申请表上写的离异,但是征信报告上却是已婚。申请表上写的是A公司,征信报告上却是B公司。如果出现此类情况,说明用户存在隐瞒真实信息的可能; (不了解征信报告的读者可以看看这篇,讲的还算清楚 https://zhuanlan.zhihu.com/p/91911632;想了解央行的征信报告和芝麻信用等区别的可以看这篇文章:https://zhuanlan.zhihu.com/p/22280599)
  • 不同时间段内的还款行为: 做过金融行业信贷风控审批的肯定都知道一条专家规则 “半年内不能连三累六” ,这句话的意思是说用户在半年内不能有六次的贷款逾期,且不能有连续三个月贷款逾期不还。稍微解释一下这条规则,可能部分读者觉得半年内贷款逾期六次也太夸张了,实际上满多用户不注意还款时间,加上很多小企业主有很多贷款信用卡等,还款晚了一两天很正常,所以半年内有个2,3次逾期还蛮正常的,但是6次就超过银行风控的底线了。
  • 基本信息: 用户的年龄、学历、籍贯等等都会综合考虑;

专家规则转化为特征工程

关键的一步来了,如何将专家规则转化为特征工程?

  • 信息是否一致: 转化为冲突类特征,模型中会将申请信息的很多关键信息与征信报告中的信息进行比对;
  • 基本信息:转化为基本特征,同时在此之上我们会衍生很多复合类特征;
  • 不同时间段内的还款行为: 转化为聚合特征,按照时间来分桶。将用户的还款行为和时间组合在一起,模型中我们可能会按照近1个月、3个月、6个月、12个月、24个月来分桶。其实不仅是将用户的还款行为来按照时间分桶,我们还会将用户的历史负债行为、申请贷款记录等等,按照时间来分桶,只是有的可能是6个桶,有的可能是12个桶等等。

3.2 零售线上移动端购物车推荐

场景说明: 用户在生鲜电商APP上如叮咚买菜、盒马生鲜,购买相关生鲜商品。购物车的下方,会有“经常一起买“栏位,根据用户已经加购的商品为用户推荐其他商品。数据科学家构建一个推荐模型,为用户千人千面地推荐相应的商品。传统的零售运营,都是后台运营系统根据门店手动配置的,定位在这个门店的用户,不管购物车加购什么商品,最后“经常一起买”栏位展示的商品都是完全一样的。

使用模型: 协同过滤算法+LR模型

专家规则

  • 不同季节不同门店推荐不同的商品: 电商运营会根据不同季节以及门店所处地域来配置商品。比如春节快到了,就会配置“春联”、“饺子皮”、“酵母粉”等。川渝地域就会配置“火锅底料”等;
  • 推荐热销的商品:有时候会配置一些这个门店热销的商品,比如该门店最近”特仑苏“卖的特别好,就会统一为用户推荐“特仑苏“。

专家规则转化为特征工程

在零售推荐场景下,专家规则起到的作用就远远没有贷款申请反欺诈领域大了。不是说规则不重要,而是说该场景比较容易理解,那些专家规则数据科学家也比较容易想到。

  • 不同季节不同门店推荐不同的商品: 转化为“门店画像的时窗统计特征”,数据科学家按照门店维度统计不同历史时窗内(如近3、7、30天)商品的销售量、销售额;门店维度不同历史时窗内(如近3、7、30天)售出商品品类、价格的聚合类衍生特征等等
  • 推荐热销的商品: 热销商品其实在推荐场景下更多是用在召回策略里面,千人千面的排序策略中,我们会构造一个“用户商品画像的时窗统计特征”,如统计用户商品组合维度不同历史时窗内(如近3、7、30天)的购买频次、价格等。

04 特征重要性

我们一般在做最终项目总结汇报时,有一页PPT会专门介绍该模型中Top N重要的特征;

比如该模型只使用某一个特征,可以达到的AUC是多少

因为很多时候业务方都需要我们的模型可解释,你使用了哪些特征需要和业务方解释,业务方会从业务层面来判断你这个模型背后的业务逻辑是否合理。尤其是金融领域,模型可解释是必备的。金融都是和钱、风险挂钩的,如果模型使用的特征在业务层面解释不过去,业务方就会质疑模型的有效。

05 如果数据科学家对领域内业务知识完全不懂怎么办?

不同领域不同场景对领域内业务知识的了解和最终建模的效果影响程度是不一样的。

在金融领域,对领域内业务知识了解就十分重要。之前给银行做反洗钱领域建模时,反洗钱这个场景普通人接触的就够少了,所以没有业务输入,数据科学家建模就很痛苦,只能不停尝试各种特征组合。而像零售领域,普通人都可以接触到,已经具备了一定的业务知识,所以建模起来就相对简单一些,但也是领域内业务知识懂的越多越好。

现在已经有AutoML技术了,完全无任何人工干预,机器直接自己构造特征计算等等。但在工业界目前AutoML落地还存在很大问题,最大的问题就是模型效果不可保证,很多时候只能做到一个及格分,想进一步提升,模型自身无从下手,只能人工干预。

所以如果你既是业务专家,又是建模大师,那你在目前的AI市场将会相当地吃香。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-01-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 算法进阶 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
特征工程在实际业务中的应用!
知乎|https://www.zhihu.com/people/xu-xiu-jian-33
Datawhale
2022/02/17
5550
特征工程在实际业务中的应用!
互联网金融风控中的数据科学
摘要 随着互联网行业的高速发展,互联网金融应运而生。它是传统金融行业与互联网精神相结合的新兴领域。互联网"开放、平等、协作、分享"的精神往传统金融业态渗透,对人类金融模式产生根本影响。宜人贷数据部数据
IT大咖说
2018/04/03
2.7K0
互联网金融风控中的数据科学
第四范式智能风控中台架构设计及应用
导读:风控是金融最常见的场景之一,本文将从业务和技术架构两个层面和大家探讨如何落地智能风控中台系统。分享主要围绕下面五点展开:
DataFunTalk
2022/04/19
3K0
第四范式智能风控中台架构设计及应用
当金融风控遇上人工智能,众安金融的实时特征平台实践
导读:随着企业数字化转型升级,线上业务呈现多场景、多渠道、多元化的特征。数据要素价值的挖掘可谓分秒必争,业务也对数据的时效性和灵活性提出了更高的要求。在庞大分散、高并发的数据来源背景下,数据的实时处理能力成为企业提升竞争力的一大因素。今天分享的是众安金融实时特征平台实践。
NebulaGraph
2023/06/28
7500
当金融风控遇上人工智能,众安金融的实时特征平台实践
金融科技&大数据产品推荐:百融信贷决策审批系统
金融科技&大数据产品推荐:百融信贷决策审批系统
数据猿
2018/04/24
2.5K0
金融科技&大数据产品推荐:百融信贷决策审批系统
先知:人工智能助力Fintech反欺诈
本文内容节选自第六届全球软件案例研究峰会宜人贷数据科学家王婷分享的《先知:人工智能助力Fintech反欺诈》实录,本文主要分享互联网金融反欺诈,通过人工智能与人工调查的结合,实现智能反欺诈的效率和准确性提升。(音频+PPT+文稿)。 编辑:Cynthia 编者按:11月9-12日,第六届全球软件案例研究峰会在北京国家会议中心盛大开幕,现场解读2017年「壹佰案例榜单」。宜人贷数据科学家王婷带来《先知:人工智能助力Fintech反欺诈》的案例分享。 【内容简介】作为中国金融科技第一股,宜人贷发布科技能力共享平
企鹅号小编
2018/01/09
1.9K0
先知:人工智能助力Fintech反欺诈
用户行为序列的特征设计和挖掘思路分享
金融风控,可以是对于信贷类金融风控(银行贷款,花呗,信用卡等),也可以是现金支出(刷微信支付余额和支付宝余额)。
Sam Gor
2021/01/05
2.5K0
用户行为序列的特征设计和挖掘思路分享
传统行业如何了解人工智能?
知乎|https://www.zhihu.com/people/xu-xiu-jian-33
Datawhale
2022/02/17
4100
手动特征工程已经OUT了!自动特征工程才是改进机器学习的方式
【导读】近年来,我们在自动模型选择和超参数调优方面取得了进展,但机器学习流程中最重要的方面-- 特征工程,在很大程度上被我们所忽略。在本文中,我们将使用 Featuretools 库来了解自动化特征工程如何改变并优化机器学习的工作方式。
AI科技大本营
2018/09/28
1.5K0
手动特征工程已经OUT了!自动特征工程才是改进机器学习的方式
【独家】移动互联网大数据助力金融风控(课程精华笔记+PPT)
[导读]为了让清华大学大数据能力提升项目的学生在基础学习和科研的基础之上,更好地了解大数据技术行业领域中的应用,清华-青岛数据科学研究院支持开设了金融大数据方向《量化金融信用与风控分析》课程(课号:80470193)。 本课程由清华大学交叉信息研究院助理院长、清华大数据能力提升项目教育指导委员会委员徐葳老师开设,并且聘任加州大学伯克利分校计算机博士黄铃和美国卡内基·梅隆大学高性能计算研究教学中心创始人、联席总监种骥科博士联袂任教。 在讨论课上,同学们会深度接触互联网金融行业中建立信用和风控模型的理论和实
数据派THU
2018/01/29
2.6K2
【独家】移动互联网大数据助力金融风控(课程精华笔记+PPT)
为什么说自动化特征工程将改变机器学习的方式
没有什么是一成不变的,尤其是在数据科学领域。毕竟,一些库、算法、工具一直在更新迭代。
大数据文摘
2019/03/04
6240
为什么说自动化特征工程将改变机器学习的方式
【案例】融360:智能金融系统建设最佳实践案例
【案例】融360:智能金融系统建设最佳实践案例
数据猿
2018/04/24
2K0
【案例】融360:智能金融系统建设最佳实践案例
深度特征合成:自动化特征工程的运作机制
将机器学习的方法推广到新问题仍然存在着不小的挑战,其中最严峻的问题之一,就是人工提取特征的复杂性和高时间耗费性,本文就将带你了解自动化特征提取方法。
大数据文摘
2018/11/30
1.1K0
深度特征合成:自动化特征工程的运作机制
【应用】揭秘互联网金融的大数据风控
大数据能够进行数据变现的商业模式目前就是两个,一个是精准营销,典型的场景是商品推荐和精准广告投放,另外一个是大数据风控,典型的场景是互联网金融的大数据风控。 金融的本质是风险管理,风控是所有金融业务的核心。典型的金融借贷业务例如抵押贷款、消费贷款、P2P、供应链金融、以及票据融资都需要数据风控识别欺诈用户及评估用户信用等级。 传统金融的风控主要利用了信用属性强大的金融数据,一般采用20个纬度左右的数据,利用评分来识别客户的还款能力和还款意愿。信用相关程度强的数据纬度为十个左右,包含年龄、职业、收入、学历
小莹莹
2018/04/25
1.4K0
【应用】揭秘互联网金融的大数据风控
让人人都能使用AI
作者:常雷博士,偶数科技创始人兼CEO。北京大学计算机系博士,曾任EMC高级研究员、EMC/Pivotal研发部总监,长期专注于AI和大数据领域。
叶锦鲤
2018/12/05
6200
【案例】某银行信用卡中心——大数据反欺诈应用案例
数据猿导读 2003年以来我国经济的快速增长,国内信用消费环境的日趋成熟,我国信用卡市场近几年得到了爆炸性的大发展。根据中国银行业协会统计,信用卡欺诈损失排名前三类型为伪卡、虚假身份和互联网欺诈。 本
数据猿
2018/04/19
5.6K0
【案例】某银行信用卡中心——大数据反欺诈应用案例
【友盟+】CDO 李丹枫:机器模仿人的能力越来越强,但应用的发力点还集中在辅助决策功能上
数据猿导读 过去将人工智能分为两类:第一类是模仿人做事,第二类是做人做不了的事情。尽管现在技术的发展已经使第一类的商业化成为可能,但从投资的角度,还是更看好第二类。在【友盟+】CDO 李丹枫看来,人工
数据猿
2018/04/23
7630
【友盟+】CDO 李丹枫:机器模仿人的能力越来越强,但应用的发力点还集中在辅助决策功能上
AI 算法是如何改变智能风控的 | 文末赠书
来源 | 现代金融风险管理 作者 | 祝世虎 成学军  头图 | 下载于 ICphoto  在金融科技的浪潮下,金融机构纷纷启动了智能风控体系的建设,但是金融机构的关注点多在于业务规模、科技系统等硬实力的建设,而忽略了算法能力、智能风控文化等软实力的建设。 本文聚焦智能风控的“算法能力”的建设,用通俗的语言“漫话算法”,首先讲解算法的逻辑、笔者对算法的理解、算法在智能风控领域的应用经验,而后讲解如何在实战中通过场景因素、数据因素、算力因素来选择合适的算法。 本文结构如下: 1. 第一部分,在智能风控体系建
AI科技大本营
2023/05/08
1K0
AI 算法是如何改变智能风控的 | 文末赠书
2017年大数据风控报告
2017年大数据风控报告:金融科技重塑银行风控,大数据反欺诈和信用评分模型助力银行信贷业务。报告分析了大数据在金融风控领域的应用,包括反欺诈、信用评分模型、风险识别等。同时,报告也介绍了国内企业征信市场的发展情况,包括信用评分模型、风险识别等方面的应用。
企鹅号小编
2017/12/25
2.1K0
收藏!搜推广场景下的特征工程
大家好,这里是NewBeeNLP。深度学习时代,某些领域,如计算机视觉、自然语言处理等,因为模型具有很强的特征表达能力,特征工程显得不那么重要了。
NewBeeNLP
2022/11/11
6750
收藏!搜推广场景下的特征工程
推荐阅读
相关推荐
特征工程在实际业务中的应用!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档