细节君扯淡曰
让细节君陪伴你的进步
大家都是非常热议的智能分析以及AI技术,但是又有多少人知道这些技术背后的底层逻辑呢?
人的大脑就是一个完全智能的超级计算机,它能够智能处理各种信息,不管是语言、数字、文字、模糊信息等。未来的技术就是让我们的计算机拥有这样的技术。而这些技术最底层的就是我们数据挖掘技术。只要学习好了数据挖掘以及衍生学科技术,未来场景应用将不可限量。
下面介绍以下数据分析的各种层次:
1 常规分析
揭示数据间的静态关系,但是这种分析比较滞后,而且对数据要求非常高。一般性数据无法分析。
2 数据挖掘
统计学和计算机技术等科学结合起来,揭示数据之间的隐藏的的关系,将数据的分析范围从从已知扩展到未知,从过去扩展到未来。
3 商务智能
一些列事实作为支持,辅助商业决策的技术和方法,一般都有数据仓库、联机分析处理、数据挖掘、数据备份和恢复等板块,但是底层的方法还是数据挖掘。
4 大数据技术
从多种类型的数据中快速获取知识的能力,属于数据挖掘的衍生。
5 数据可视化
大数据时代,展示数据可以更好辅助理解数据、演绎数据。
以上几个层次,大家可以看看自己属于哪个层次。
其实以上都是理论上的问题。具体的问题,还是要落地实际上。
何为实际,就是你的会编程,你如果能够把这个变成出来,你的未来不可限量。
建模过程
这是PYCHARM中注解的要点:(逻辑回归模型的建模过程)
数据预处理
# 1,读入数据
# 2,选择合适的建模样本
# 3,数据集划分成训练集和测试集
第一步:数据预处理,包括
(1)数据清洗
(2)格式转换
(3)确实值填补
第二步:变量衍生
第三步:分箱,采用ChiMerge,要求分箱完之后:
(1)不超过5箱
(2)Bad Rate单调
(3)每箱同时包含好坏样本
(4)特殊值如-1,单独成一箱
连续型变量可直接分箱
类别型变量:
(a)当取值较多时,先用bad rate编码,再用连续型分箱的方式进行分箱
(b)当取值较少时:
(b1)如果每种类别同时包含好坏样本,无需分箱
(b2)如果有类别只包含好坏样本的一种,需要合并
第四步:WOE编码、计算IV
第五步:单变量分析和多变量分析,均基于WOE编码后的值。
(1)选择IV高于0.01的变量
(2)比较两两线性相关性。如果相关系数的绝对值高于阈值,剔除IV较低的一个
第六步:逻辑回归模型。
要求:
1,变量显著
2,符号为负
'''
第七步:模型验证
细节君扯淡曰:以上PYCHARM是我从行业资深者那里要到的一个建模代码,我把其中的注解部分罗列出来。终于明白,为什么科技公司估值高了。真的代表了未来。
关注细节君
让细节君陪伴你的进步
细节君
让风控、历史细节更加清晰
领取专属 10元无门槛券
私享最新 技术干货