首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ML | 建模的KS

我们这做模型的时候,经常是会用KS值来衡量模型的效果,这个指标也是很多领导会直接关注的指标。今天写一篇文章来全面地剖析一下这个指标,了解当中的原理以及实现,因为这些知识是必备的基本功。...不过这不影响我们去使用它,我们只需要知道在中是怎么实现的,并且在实际场景中怎么去使用它就可以了。就如上面我们说的,KS在主要是用于评估模型的好坏样本区分度高低的。什么是区分度?...可以看下图: 从业务上来说,就是越往后的箱子,客户的质量越差,rate整体上呈现单调性,从而可以把大多数的坏人,直接从箱的维度上就可以区分开来了,在后续的策略使用体验上十分友好。...03 KS的效果应用 KS的值域在0-1之间,一般来说KS是越大越有区分度的,但在领域并不是越大越好,到底KS值与模型可用性的关系如何,可看下表: 004 KS的实现 首先我们来对上面展示的例子进行...Python代码实现。

4.5K30

ML | 建模的WOE与IV

ML」系列文章,主要是分享一下自己多年以来做金融的一些事一些情,当然也包括建模、机器学习、大数据等相关技术分享,欢迎同行交流与新同学的加入,共同学习,进步!...第一次接触这两个名词是在做模型的时候,老师教我们可以用IV去做变量筛选,IV(Information Value),中文名是信息值,简单来说这个指标的作用就是来衡量变量的预测能力强弱的,然后IV又是...04 Python实现 我们知道,针对连续型变量,是需要先转换为类别变量才可以进行IV值的计算的,现在我们把数据导入到Python中,原始变量是连续型变量,那么我们如何在Python里实现IV值的计算呢

3.5K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    建模整体流程

    确定建模目的 在信贷领域中建立模型是为了找出可能会逾期的客户,根据逾期的可能性和资金的松紧程度选择是否放贷。 在支付领域建立模型是为了找出可能存在非法经营的商户,保证商户没有违法经营。...确定好坏样本逻辑 在信贷领域中逾期大于x期(不同公司取值不同)的客户定义为坏客户(1),从未逾期的客户定义为好客户(0) 在支付领域中,有赌博、欺诈、套现、伪卡等行为的商户定义为坏商户(1)(具体根据模型要防的风险决定...数据准备 做完特征工程后就确定了需要建模的字段,如果公司的数据较多可以按以下步骤在hive中跑取需要的数据,如果数据量不大也可以在Python中或者R中准备数据。 ? 5....模型上线 在支付领域如果模型验证没有问题,一般会上到线上,自动生成案例。在信贷中会模型搭配规则,判断申请贷款的人是通过放贷、拒绝放贷、还是转人工处理。...本文所讲的都是大致流程,没有深入展开分析,在之后的各期中会逐步展开这里所讲的每一小点,给所有需要从事模型的同学一点建议。 以上都是我在建模过程中的一点经验总结,有不正之处恳请指正!

    1.9K20

    ML | 建模中怎么做拒绝推断

    并把推断的结果,加入到建模样本中用于丰富样本的多样性,缩小与总体分布之间的差异。...同样的,在金融建模领域也会有这种现象,那就是很多坏客户可能被我们拒绝准入了,所以长期以往库内的客户,都基本上算是不那么差的客户,那么如果我们直接拿这些数据来统计建模,就会出现了偏差,也就是用局部样本代替了全局样本...《建模中的样本偏差与拒绝推断》https://zhuanlan.zhihu.com/p/88624987 不过我也还是把他文章里的分类体系在这里重点再次分享一下。...06 总结一下 本文算是一个对拒绝推断的入门介绍了,让初涉模型的同学有一个相对来说比较清晰的全局认识,这里面涉及到的很多算法模型上的细节并没有展开来讲,因为我觉得这也会让阅读带来比较大的负担,公众号的文章还是要控制在几分钟内读完比较合适...Reference [1] 异常检测算法分类及经典模型概览 https://blog.csdn.net/cyan_soul/article/details/101702066 [2] 建模中的样本偏差与拒绝推断

    1.7K30

    ML | 建模老司机的几点思考与总结

    ML」系列文章,主要是分享一下自己多年以来做金融的一些事一些情,当然也包括建模、机器学习、大数据等相关技术分享,欢迎同行交流与新同学的加入,共同学习,进步!...机器学习建模现在在很多地方都是十分流行,无论现在的你是否从事建模工作,了解这些建模的过程还是十分必要的。话不多说,直接进入正题。...这个时候,我们需要沉住气,,有的时候数据建模师也需要充当起“心理辅导员”,慢慢引导业务说出实际的业务痛点与需求,好让我们对症下药(当然靠谱且有经验的业务是不会犯这种行为的)。...具体可以参考我先前的一篇文章内容《分享8点超级有用的Python编程建议》 搞到数据后,需要做的事情大概可以分为: 1、消化所有的数据含义、逻辑; 2、对数据进行各种清洗,变成你熟悉的结构; 3、对数据进行质量控制...我们需要时刻监控模型的表现,对于排序模型,主要可以从下面几个角度去监控: 1、排序性情况,比如评分卡模型,各个分组间的badrate是否仍存在单调性 2、分类占比,也就是各个类别的占比情况,如果出现与建模时候差异较大的情况

    1.4K30

    建模中SHAP值原理与Python实现

    公众号有个小伙伴问我,Python或R是否可以对spss训练好的pmml模型进行解释分析,做shap值或依赖图。 于是利用空余时间研究了一下。...SHAP(SHapley Additive exPlanations)是一个用于解释机器学习模型预测的Python库。 它基于博弈论中的沙普利(Shapley)值,用于衡量每个特征对预测结果的影响。...在建模中,SHAP库可以帮助理解哪些特征对贷款违约等风险预测的影响最大。 例如,通过SHAP值可以对比收入、信用评分、负债比率等特征对贷款违约预测的影响程度。...一、SHAP库的使用步骤 SHAP库在建模中的使用步骤如下: 数据准备:首先,需要准备用于建模的数据集。这可能包括各种特征,如借款人的收入、信用评分、负债比率等。...至此,建模中的shap值可视化已讲解完毕,如想了解更多建模内容,可以翻看公众号中“建模”模块相关文章。

    98620

    金融科技|建模技术方案

    建模的技术方案 1 逻辑回归模型 在银行的传统评分卡建模中,应用的也是逻辑回归模型。逻辑回归本质上是一个线性分类模型。...一方面,深度学习模型都有很高的模型复杂度,需要大规模的样本数据,而领域要获取大规模的样本数据的成本极高。...而且,不同时间段、不同机构的放款数据是否具有稳定可发掘的模式、可相互迁移,也有待建模试验检验。...另一方面,如前所述特征数据的维度间是平行的,不存在邻近关系,较难利用CNN和RNN这样具有较好物理含义的深度学习模型,而简单的堆砌若干个全连接层在高维特征数据上是很难得到一个稳定的模型。...总之,金融模型是一个既传统又新鲜的技术问题。银行的模型已经随着银行业的发展应用了数十年。

    1.7K30

    金融评分卡建模全流程!

    作者:桔了个仔,南洋理工大学,数据科学家 知乎丨https://zhuanlan.zhihu.com/p/148102950 本文摘要 本文将带领读者一起进行完整的建模全流程,了解银行风是如何做的...一、评分卡的分类 在金融领域,无人不晓的应该是评分卡(scorecard), 无论信用卡还是贷款,都有”前中后“三个阶段。...根据时间点的”前中后”,一般评分卡可以分为下面三类: A卡(Application score card)。目的在于预测申请时(申请信用卡、申请贷款)对申请人进行量化评估。...评分卡种类 美国fico公司算是评分卡的始祖,始于 20世纪六十年代。Fico的评分卡的示例如下(这是个贷前评分卡,也就是A卡): ?...因为实际业务里,分数也高风险越低,当然你也可以设计个风险越低分数越低的评分卡,但里还是默认高分高信用低风险。 计算出A、B的方法如下,首先设定两个假设: 基准分。

    8.9K61

    建模中的IV和WOE

    建模中IV(信息价值)和WOE(证据权重)分别是变量筛选和变量转换中不可缺少的部分。 很多文章已经讨论过这两个变量,本文在吸收前人优秀成果的基础上,希望用通俗易懂的语言让大家快速理解这两个变量。...并用简单的例子让大家明白在实际中如何运用这两个变量,最后给出建模过程中实际需要用到的Python代码。 1....在很多银行和公司,基础的模型都是逻辑回归,通过逻辑回归建模把正常客户(好客户)和逾期客户(坏客户)区分开来。...用Python计算WOE和IV 接下来用一个实例说明如何在python中计算变量的WOE和IV 3.1 加载数据 由于篇幅原因,不在文中放具体数据,如需要,请到公众号中回复“用python计算iv”

    2K30

    Python实现智能

    本书基于Python代码实现应用案例,读者可以获取到完整的代码,并在自己的业务场景中进行适宜性的修订和应用。...本书系统性地讲述了传统到智能的演化和差异点,模型的数据处理、特征设计和富有特色的建模方法。同时,也介绍了基于模型的智能策略的搭建和方法论、实际效果的持续监控、模型策略的调整和迭代。...涵盖了智能技术的特征、建模、策略等各个方面,是金融科技技术在实战领域的宝贵经验总结。 郑宏洲 盛银消费金融首席风险官 人工智能和金融的结合是当今信贷风险管理的主流技术方向。...蒋宏老师有多年基于大数据进行风建模和策略制定的经验,通过本书做到高屋建瓴,在不离具体实操经验的基础上,给出了整体解决方案。有志于在智能领域精进的同学想找一本书来学习,那就非此书莫属了。...阅读本书需要有一定的机器学习基础以及python编程基础,本书的公式化理论和模型尽量用简洁的语言描述方便读者理解,也配有可执行的案例方便读者在实际演练时参考。

    1.3K30

    送书 | 智能Python金融风险管理与评分卡建模

    导读:本文主要介绍机器学习基础知识,包括名词解释(约30个)、基础模型的算法原理及具体的建模过程。...为了更好地表示过拟合和欠拟合,通常建模的时候会将样本集划分为训练集(Train)和测试集(Test)。...关于作者:梅子行,资深技术专家、AI技术专家和算法专家,历任多家知名金融科技公司的算法研究员、数据挖掘工程师。...师承Experian、Discover等企业的资深专家,擅长深度学习、复杂网络、迁移学习、异常检测等非传统机器学习方法,热衷于数据挖掘以及算法的跨领域优化实践。...本文摘编自《智能Python金融风险管理与评分卡建模》,经出版方授权发布。

    41421

    关于互联网金融授信产品的建模

    本文将针对这些问题简单介绍互金行业中授信产品的建模过程,内容主要如下: 信用风险定义 信用风险评分卡类型 信用评分模型建立的基本流程 1信用风险定义 风险管理的概念 风险管理最早起源于美国。...当然,这些技术的应用并不能百分百的保证零风险,因为有很多人为因素是不可控的,但是信用技术在很大程度上帮助金融企业进行了很好的风险管,通过降低风险减少损失来间接增加利润。...这部分的技术栈主要有:Mysql,Hive,Hbase,Spark,Python等。...下面是一个真实的在线授信产品的建模的流程图,可参考进行理解: ? 以上是对信用评分分类以及建模基本流程的介绍,欢迎大家指正。...对于文中提及的一些细节部分以及Python编程实现,后续会与大家慢慢分享。

    1.5K22

    建模中的自动分箱的方法有哪些

    03 如何评估分箱效果的好坏 04 设计一个基于建模的自动分箱轮子 01 分箱是什么意思,为什么要分箱,什么时候分箱? 分箱的意思就是将连续性变量通过几个划分点,分割成几段的过程。...要回答这个问题,我们先要搞清楚分箱的好处有有哪些,主要有2点: 1)对变量进行分箱后,会对异常数据有较强的鲁棒性,变量会更加稳定; 2)变量分箱后,对于建模常用的LR,这种表达能力有限的线性模型,可以提升模型的表达能力...Actually,对于评分卡的大多数模型,是可以的,只不过有些模型,如果直接把连续变量进入模型的话,带来的模型效果会不太理想。...(一般是卡方值都高于设定的阈值,或者达到最大分组数等等) 基于最优KS的连续变量最优分箱 KS相信大家也都不陌生,可以稍微回顾下《建模的KS》 ,不过这里的KS值不是基于模型计算的,而是基于变量计算的...《建模的WOE与IV》 04 设计一个基于建模的自动分箱轮子 一般来说,如果要造一个基于建模的连续变量分箱框架,需要考虑什么内容呢?

    2.7K31

    【干货】建模中把原始变量转成WOE实现

    很多刚开始建模的同学,对原始变量转WOE都是一知半解,弄不清楚为什么要转WOE,也不清楚要怎么把变量转成WOE。...对于WOE原理不清楚的小伙伴,可以先看下本公众号之前的文章:建模中的IV和WOE。 本文重点讲解用Python中的toad库实现变量的WOE转换。...二、Python实现变量WOE转换 1 读取数据 首先导入挑选完入模变量后的建模数据,包括12个自变量,1个因变量。...至此,建模中把原始变量转成WOE实现已讲解完毕 往期回顾: 一文囊括Python中的函数,持续更新。。。 一文囊括Python中的有趣案例,持续更新。。。...一文囊括Python中的数据分析与绘图,持续更新。。。 一文囊括模型搭建(原理+Python实现),持续更新。。。

    99130

    关于互联网金融授信产品的建模

    本文将针对这些问题简单介绍互金行业中授信产品的建模过程,内容主要如下: 信用风险定义 信用风险评分卡类型 信用评分模型建立的基本流程 1信用风险定义 风险管理的概念 风险管理最早起源于美国。...当然,这些技术的应用并不能百分百的保证零风险,因为有很多人为因素是不可控的,但是信用技术在很大程度上帮助金融企业进行了很好的风险管,通过降低风险减少损失来间接增加利润。...在信用评分卡建模中,用到最常用的方法就是逻辑回归(LR)。...下面是一个真实的在线授信产品的建模的流程图,可参考进行理解: ? 以上是对信用评分分类以及建模基本流程的介绍,欢迎大家指正。...对于文中提及的一些细节部分以及Python编程实现,后续会与大家慢慢分享。

    3K20

    信贷模型搭建及核心模式分类

    即在一定时间范围内,用于构建模型的数据依赖的业务模式是相对没有变化的,前后一致的。只有满足这个条件,历史数据模拟出来的模型,和后面的数据才是匹配的。...另外,模型在不同的阶段体现的方式和功能也不一样。...从资金的角度来看,模型是为了评估用户还款能力和还款意愿,反欺诈反作弊,防止用户薅羊毛和保证平台安全等功能;从行业的角度,互联网模型体现在消费金融/供应链金融/信用借贷/P2P/大数据征信等方面。...所以说,模型的计算策略和机制在一个公司属于绝密,规则除了核心的员工,其他人是不能知道规则的。 四、的核心 如果说金融产品的核心是,那么的核心是什么?...五、模型的设计步骤 总体来说模型的设计主要可以分为以下的几个步骤: 1.获取数据 信用评估来自于用户数据,模型规则其实就是用户数据规则,信息的纬度也比较广泛,大致可以分为基本信息/行为信息

    2.2K10

    支付模型

    二、基于规则的 规则是最常用的,也是相对来说比较容易上手的模型。从现实情况中总结出一些经验,结合名单数据,制定规则,简单,有效。 常见的规则有: 1....互联网金融离不开机器学习,特别是支付。 在各种支付模型中,决策树模式是相对比较简单易用的模型。 如下的决策树模型,我们根据已有的数据,分析数据特征,构建出一颗决策树。...比如从支付地址,可以聚类出常用地址,衍生出当前地址和常用地址、上一次支付地址之间的距离,而这些指标在构建模型时都可能使用到。 所以第一个问题是,如何从这些指标中建立一个合适的模型?...这个过程,将在下一篇的架构中介绍。 五、模型评估 本质上是对交易记录的一个分类,所以对模型的评估,除了性能外,还需要评估“查全率”和“查准率”。...支付场景分析 ; 支付数据仓库建设 ; 支付模型和流程分析(本文); 支付系统架构 发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn

    1.9K21
    领券