首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大数据模型是什么?哪些

摘要:在互联网金融行业,不少人可能这样觉得:认为只要数据够“大”,就能有最牛逼的体系和行业最低的坏账率。...在互联网金融行业,不少人可能这样觉得:认为只要数据够“大”,就能有最牛逼的体系和行业最低的坏账率。这种理解有些过于简单了。...其实,做大数据是一个挺细致的事儿,大数据,重要的不是数据本身,而是对数据的理解。...大数据模型是什么 指标体系 大数据圈流行一句话:数据决定了数据分析的上限,而模型做的是逼近这个上限。...模型 大数据更多应用与小微互金贷款,因此更多是还款意愿的控制,欺诈风险会比较高,因此构建好的反欺诈模型就非常重要,目前一般分三种: 1.

1.3K20

建模中的自动分箱的方法哪些

关于这个话题,我也借着这个主题来系统的梳理总结一下几点:为什么要分箱?不分箱可以入模型吗?自动分箱的常用方法哪些?评估分箱效果好坏的方法哪些?...02 常见的自动分箱方法哪些? 03 如何评估分箱效果的好坏 04 设计一个基于建模的自动分箱轮子 01 分箱是什么意思,为什么要分箱,什么时候分箱?...要回答这个问题,我们先要搞清楚分箱的好处哪些,主要有2点: 1)对变量进行分箱后,会对异常数据有较强的鲁棒性,变量会更加稳定; 2)变量分箱后,对于建模常用的LR,这种表达能力有限的线性模型,可以提升模型的表达能力...Actually,对于评分卡的大多数模型,是可以的,只不过有些模型,如果直接把连续变量进入模型的话,带来的模型效果会不太理想。...《建模的WOE与IV》 04 设计一个基于建模的自动分箱轮子 一般来说,如果要造一个基于建模的连续变量分箱框架,需要考虑什么内容呢?

2.7K31
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    实时业务系统

    账号:垃圾注册、撞库、盗号等 交易:盗刷、恶意占用资源、篡改交易金额等 活动:薅羊毛 短信:短信轰炸 项目介绍 实时业务系统是分析风险事件,根据场景动态调整规则,实现自动精准预警风险的系统。...本项目只提供实时风系统框架基础和代码模板。...需要解决的问题 哪些是风险事件,注册、登录、交易、活动等事件,需要业务埋点配合提供实时数据接入 什么样的事件是风险的,风险分析需要用到统计学,对异常用户的历史数据做统计分析,找出异于正常用户的特征 实时性...,能够发现以前的风险,或许能够找到一些特征供参考 项目标签 轻量级,可扩展,高性能的Java实时业务系统 基于Spring boot构建,配置文件能少则少 使用drools规则引擎管理规则,原则上可以动态配置规则...; 扩展规则,针对需要解决的场景问题,添加特定规则,分值也应根据自身场景来调整。

    2.2K10

    ML | 建模的KS

    我们这做模型的时候,经常是会用KS值来衡量模型的效果,这个指标也是很多领导会直接关注的指标。今天写一篇文章来全面地剖析一下这个指标,了解当中的原理以及实现,因为这些知识是必备的基本功。...不过这不影响我们去使用它,我们只需要知道在中是怎么实现的,并且在实际场景中怎么去使用它就可以了。就如上面我们说的,KS在主要是用于评估模型的好坏样本区分度高低的。什么是区分度?...通俗来说,就是模型预测结果排序分桶后,每个桶的好坏样本占比的排序性,也就是说不同的桶,坏人的识别能力都不同,我们可以通过“拒绝”坏人比较多的桶从而来实现风险控制。比较抽象?...可以看下图: 从业务上来说,就是越往后的箱子,客户的质量越差,rate整体上呈现单调性,从而可以把大多数的坏人,直接从箱的维度上就可以区分开来了,在后续的策略使用体验上十分友好。...03 KS的效果应用 KS的值域在0-1之间,一般来说KS是越大越有区分度的,但在领域并不是越大越好,到底KS值与模型可用性的关系如何,可看下表: 004 KS的实现 首先我们来对上面展示的例子进行

    4.6K30

    智能系统设计与实践

    在信息安全领域,建立在人工智能技术之上的策略引擎已经深入到了产品功能的方方面面,相应的,每一个策略系统都离不开大量的特征,来支撑模型算法或人工规则对请求的精准响应,因此特征系统成为了支持线上风引擎的重要支柱...本文以智能在线特征系统为原型,重点从线上数据从生产到特征物料提取、计算、存取角度介绍一些实践中的通用技术点,以解决在线特征系统在高并发情形下面临的问题和挑战。 特征系统的基本概念 1....c) 并发大,策略系统面向用户端,服务端峰值QPS超过35万,每日调用量超过200亿次。...d) 延迟低,面对用户的请求,系统为了保持良好的用户体验,更快的完成对用户准入条件的判断,要求特征系统接口的延迟在50ms以内。...总结和规划 本文主要以智能在线特征系统为原型,提出了在线特征系统的一些设计思路。其中特征工程系统的边界并不限于特征的解析、计算、存取等。

    1.9K20

    ML | 建模的WOE与IV

    ML」系列文章,主要是分享一下自己多年以来做金融的一些事一些情,当然也包括建模、机器学习、大数据等相关技术分享,欢迎同行交流与新同学的加入,共同学习,进步!...第一次接触这两个名词是在做模型的时候,老师教我们可以用IV去做变量筛选,IV(Information Value),中文名是信息值,简单来说这个指标的作用就是来衡量变量的预测能力强弱的,然后IV又是...范围 变量预测力 <0.02 无预测力 0.02~0.10 弱 0.10~0.30 中等 `> 0.30 强 虽然可能这个指标还是很容易就可以使用,但是了解它的原理是十分重要的,这对于我们深入理解变量很大的帮助...我们这份名单上,客户的年龄字段,那么我们可以拿来计算一下这个字段对于是否成功添加好友(响应)多大的预测能力,我们在Excel中进行实现: 可以看出来,这个变量对于我们是否可以成功加到客户微信好友有着很强的预测能力...这边一些细节的东西需要说明一下的。 1)注意区分变量类型,数值型变量和类别型变量要区分对待。 2)注意分组后是否出现某组内的响应(未响应)数量为零的情况,如果为零需要处理一下。

    3.6K20

    信贷模型搭建及核心模式分类

    一、当前模式现状 近年来,信用风险管理发展呈现出数据化、模型化、系统化、自动化和智能化的特点。传统的人工专家经验正逐步被模型与算法替代。...B.风险定义 简单地说就是判定哪些是好客户,哪些是坏客户。 互联网金融业务模式的多样性,导致了对好客户和坏客户的定义标准也不尽相同。 这里有人会问:“怎么会呢?欠钱不还的不就是坏客户么。”...另外,模型在不同的阶段体现的方式和功能也不一样。...一般情况下风模型需要过滤高危地区的黑名单,因为在市场上永远存在着这么靠金融欺诈而获利的人群,对于这类人群只要存在疑虑统统过滤掉;其次通过系统设置的评分规则对用户提交的个人信息进行评定,最后辅助一些其他的输入资料进行分数的微调...所以说,模型的计算策略和机制在一个公司属于绝密,规则除了核心的员工,其他人是不能知道规则的。 四、的核心 如果说金融产品的核心是,那么的核心是什么?

    2.3K10

    1.1 原则

    potential reward 可以被度量的reward概率部分就是risk,不能度量概率的就是uncertainty 01.6 描述和区分风险的关键类别,解释每种风险怎么产生的,评估风险的影响 8...使用衍生品对冲需要披露信息,这是对冲的实践缺点,D错 02.2 解释决定一个公司risk appetite的顾虑和流程 Board应该和Management应该一起决定risk appetite: 定性哪些风险可以忍受...,哪些不可以忍受(qualitatively tolerate) 定量可以忍受的最大损失(quantitative tolerate) 通过压力测试哪些损失可以忍受(不需要缓解),哪些损失不可忍受(需要缓解...由于采购和销售不同国家的产品影响income,所以Operation Risk 采购和销售的产品价格会变化,所以Pricing Risk 和外国交易,payment是外币,balance sheet...的角色和职责,评估CRO如何和其他高管协作 CRO职责 1.对公司面临的所有风险负责 2.开发和实现ERM策略 工作范围: 1.设置公司全局风险偏好 2.度量和量化风险 3.设置风险限制 4.开发风险系统

    2.4K60

    支付模型

    一、风险等级 做拦截,首先要回答的问题是风险等级怎么划分? 目前主流的风险等级划分三种方式, 三等级、四等级、五等级。 三等级的风险分为 低风险、中风险和高风险。...大部分支付系统是使用三等级的风险。 二、基于规则的 规则是最常用的,也是相对来说比较容易上手的模型。从现实情况中总结出一些经验,结合名单数据,制定规则,简单,有效。...一旦漏洞被发现,会对公司造成巨大损失。 而机器学习是解决这些问题的利器。 互联网金融离不开机器学习,特别是支付。 在各种支付模型中,决策树模式是相对比较简单易用的模型。...当一笔交易发生时,我们使用决策树来判断这笔交易是否是高风险交易。 这种模型的优点是非常容易理解,检测速度快。 因而也是现有机构中常用的模型之一。 模型存在的主要问题是其产生的结果比较粗略。...支付场景分析 ; 支付数据仓库建设 ; 支付模型和流程分析(本文); 支付系统架构 发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn

    2K21

    美团点评业务系统构建经验

    所以美团点评需要一套灵活高效的风险控制系统和工作机制来防这些风险。 归纳一下,系统面临的挑战: 业务多、风险点多:上面提到的风险涉及到各个业务的购买流程、用户操作、商家操作等多个场景。...系统构建经验 挑战一:业务多,风险点多 回到工作的起点,在了解业务所面临的风险类别后,首先要面对的问题就是:怎样才能知道风险,并且能够控制风险?...系统要尤其关注以下这些方面: 服务稳定性 隔离部署:在对接的众多后台服务流程中,哪些是核心流程、哪些是非核心流程,需要隔离开防止相互影响。...其次验证种类很多,从较弱可信度的短信验证,到较高可信度的银行卡验证等——能返回什么样的决策受限于特定场景业务方的实现了什么验证支持。 这些问题对于业务和风系统造成了不小麻烦。...挑战三:我在明,敌在暗 与黑色产业的对抗个天然的不利因素,就是团队需要防御所有短板,而对手只需要找到薄弱的环节进攻。

    3.6K71

    ML | 中的异常检测原理与应用

    今天来介绍一下中的异常检测,从最基础的概念开始讲起,因为本人对这块的内容平时工作也做得不多,更多滴偏向于“纸上谈兵”,什么说得不对的地方,也欢迎各位朋友指正~谢谢。...异常检测的概念 02 异常检测的难点 03 异常检测的分类及常见算法 01 异常检测的概念 异常检测(Anomaly Detection 或 Outlier Detection),又称为离群点检测,在我们领域很多地方都会用到...,比如薅羊毛的、团伙骗贷的、个人骗贷的,基本上都混合在一起,不利于监督模型的开展。...代表的算法K-Means、Self-Organizing Maps(SOM)、GMM,其缺点和第一类一样。 3、小簇的点都是异常点。代表的算法CBLOF、LDCOF、CMGOS。...0308 基于机器学习和深度学习的算法 机器学习模型,这里指的是监督模型,常用的算法LR、SVM、GBDT、XGBOOST等二分类模型,用于识别异常样本。

    2.8K20

    ML | 建模中怎么做拒绝推断

    04 做拒绝推断都有哪些方法?...04 做拒绝推断都有哪些方法 这里的方法介绍,我在知乎上看到汪哥的相关文章,写得真的是太棒了!我比较难超越了,就把他的原文链接贴过来,大家可以去看看哦。...《建模中的样本偏差与拒绝推断》https://zhuanlan.zhihu.com/p/88624987 不过我也还是把他文章里的分类体系在这里重点再次分享一下。...06 总结一下 本文算是一个对拒绝推断的入门介绍了,让初涉模型的同学一个相对来说比较清晰的全局认识,这里面涉及到的很多算法模型上的细节并没有展开来讲,因为我觉得这也会让阅读带来比较大的负担,公众号的文章还是要控制在几分钟内读完比较合适...Reference [1] 异常检测算法分类及经典模型概览 https://blog.csdn.net/cyan_soul/article/details/101702066 [2] 建模中的样本偏差与拒绝推断

    1.8K30

    ML | 建模老司机的几点思考与总结

    ML」系列文章,主要是分享一下自己多年以来做金融的一些事一些情,当然也包括建模、机器学习、大数据等相关技术分享,欢迎同行交流与新同学的加入,共同学习,进步!...那么在了解了业务需求后,接下来就需要针对具体的需求,继续咨询业务方一些业务知识点,而不是了一点眉目就马上开工,毕竟模型还是做出来还是业务在用,事先沟通好一些细节性的问题也是无碍,而且沟通的过程可以让你对业务更加深入的了解...而在开始搜集数据前,需要了解几点内容: 1、模型应用节点 2、时效性要求 2、有没有预算,预算多少 3、项目紧急程度 模型应用节点 模型的应用节点,决定了你哪些变量是不可以用的,避免说出现“事后变量...搜集数据,不需要等到所有的特征都搜集完才开始开发特征或者训练模型,多少数据,就先搞多少数据。...更加细致的数据挖掘过程这里就不展开,很多好的书籍和开源代码可以参考。

    1.4K30

    决策引擎经验

    系统的作用在于识别绝对与标识相对风险,如果是绝对,则整套的审核结果便将是“拒绝”。既然结果必然是“拒绝”,则没必要运行完所有的规则,而主要单条触发“拒绝”即可停止剩余规则的校验。...2、规则上的“参数”可调整与灵活配置 举例说明:很多风体系通常会加入对手机运营商的校验,所以一些规则,诸如校验用户手机号的使用时间长度是否大于6个月。...三、记录与统计 最终到底是“跑出来”的,所以,整个系统对所有不同规则的触发需进行有效的记录与统计,以便后期可支持数据分析与模型调整的相关工作。...但若是延伸的提额功能模块,与可根据用户前端不同的输入项数据,而输出与之相匹的不同的额度与费率的产品,则此时需要模型化。 建模需借助于函数的定义,此外也可以借助评分卡的机制进行补充。...而评分卡的模式在另外一方面也作用于系统审核与人工信审,譬如高于X评分的订单申请,系统直接通过;处于X与Y之间的评分,则需人工审核,甚至通过电话联系;而低于Y评分的,则系统直接拒绝(半自动)。

    1.1K30

    为本创新驱动,券商如何实现智能加速?

    面临挑战 该券商的数据基础主要来自于业务系统的关系型数据库的数据,需要在数据基础之上实现数据的运营。而由于合规处于企业核心竞争力的高度,原数据积累10年,数据量已超30TB。...解决方案 沃趣科技以QData高性能数据库云平台作为数据库基础架构平台替换原传统“烟囱式”系统架构,承载合规核心数据库系统,助力业务处理效率大幅提升。...基于QData Cloud建设数据库私有云平台,率先迁移上线系统,后期逐步整合了CRM系统、固定收益部系统、xIR利率资产业务、大宗交易、信用风险、征信系统、机构管理、自营交易等多套业务系统数据库。...价值提升 1 通过QData数据库云平台大幅提升了系统的业务效率,日终调度业务从原十几个小时缩短至1.5小时,性能提升10倍以上。...2 通过多年的发展,基于沃趣QData Cloud云平台解决方案逐步拓展成数据库私有云应用场景,以Oracle为代表的数据库如:客户关系管理、、合规、自营交易等系统正在逐步迁移到数据库私有云平台。

    1.2K10

    领域特征工程

    在金融行业,风险控制()是核心环节,它关乎资产安全、合规性以及机构的长期稳健发展。随着大数据时代的到来,金融机构面临着前所未有的数据量和复杂性。...在这样的背景下,领域特征工程应运而生,成为连接原始数据与精准风险评估的桥梁。 特征工程,简而言之,是对数据的一种深度加工,它通过一系列技术手段,将原始数据转化为对风险预测有用的信息。...在领域,特征工程的核心目标是构建出能够准确反映个体或实体风险水平的特征集。...此外,良好的特征工程实践还能促进模型的解释性,为决策提供更加透明的依据。 随着技术的发展,特征工程的方法也在不断创新。...通过综合运用这些特征衍生方法,领域的特征工程能够更全面地挖掘数据潜力,为风险评估提供多维度的视角。

    23110
    领券