Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >建模前需要面对的问题

建模前需要面对的问题

作者头像
许卉
发布于 2019-07-15 09:04:27
发布于 2019-07-15 09:04:27
5290
举报
文章被收录于专栏:Data AnalystData Analyst

统计更加在乎的是模型应用的完善,即数据必须要符合模型的假定。任何一个模型都有假定。数据挖掘中,如决策树和神经网络做的时候很少会提到假定,实际上他们的假定和回归差不多。很多时候,我们用R或者SAS建立一个决策树会发现效果不好,效果不好的原因就是你的数据不符合假定。决策树这种模型其实是没有底蕴的,即没有体系帮忙进行检验,所以这种模型在建模之前一定要对数据进行预处理,让数据去符合假定。如果想建好一个模型,在建模之前需要面对下面这些点:

1 模型的可解释性:建出的模型的关系必须是和实际业务有联系的,如果你的模型的可解释性关系是比较荒谬、不符合常识的,那么即使模型在技术层面非常好也是无用的

2 模型和技术的假定一定要自己清楚

3 模型能否抵御维度诅咒:回归要求自变量间不能相关,维度越高越容易相关,这就是维度诅咒,不光回归需要这个,决策树和神经网络也需要,建模时模型变数比较大就是这个原因

4 模型能否稳健的应对异常值

5 定性数据问题如何应付

6 缺失值是否需要提前处理:例如回归是需要补缺的,但是决策树不需要补缺,因为决策树不怕缺失值,在决策树看来缺失值就是一个普通的值

7 计算的复杂性:其实不用被各种很炫的模型吓住,其实商业数据分析中使用最多的模型就是回归,这里的回归不是普通的回归,是逻辑回归,将这一个模型搞明白,基本的工作就会平趟了,其他的算法会一点就可以了,因为其他的算法都不太稳健,稳健性最好的就是回归

8 计算的复杂性:统计软件的特点就是计算过程是高度隐藏,计算过程不可见就会造成我们的疑问,这个软件算的对不对呢,其实对不对是取决于计算过程中的误差的,当用统计软件建模的时候,涉及到的误差有四种:

a 测量误差:第一种误差,统计是理性测感性的过程,但是理性测感性有一个麻烦,例如去医院看病,描述身体难受程度的时候不好衡量,这样就会衍生出疼痛等级的概念。这里涉及到一个很有趣的指数-恋爱指数,是用来衡量天气好坏程度的综合指标

b 模型误差

c 计算机的舍入误差:这个是由算法控制的

d 截断误差:计算是有位长限制的,一个统计软件做的好不好是要去衡量其对截断误差的控制程度的

所以统计软件做的对不对是需要经过认证的,目前数据分析领域中完全过了认证的软件只有SAS,因其商业软件的性质,有人负责。R基础包进过了认证,大部分的延伸包没有经过认证。PYTHON2.0经过了认证,PYTHON3.0版本没有经过认证。SPSS也没有经过认证,如果用SAS和SPSS一起跑一个典型相关分析,结果是不一样的,所以建模时需要人为去控制计算层面的复杂性。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-02-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Data Analyst 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
我眼中的模型评估
逻辑回归模型的几个衡量指标如洛伦兹曲线、ROC曲线、lift曲线等皆来源于混淆矩阵,如果针对同一个问题构建不同的模型,当进行模型间效果比较时,经常会用到这三个曲线。
许卉
2019/07/15
7910
我眼中的模型评估
算法工程师-机器学习面试题总结(3)
FM(因子分解机)模型和逻辑回归是两种常见的预测建模方法,它们在一些方面有不同的优缺点
机器学习AI算法工程
2023/09/04
9470
算法工程师-机器学习面试题总结(3)
整理一份详细的数据预处理方法
作者:lswbjtu https://zhuanlan.zhihu.com/p/51131210
统计学家
2019/07/15
4.7K0
整理一份详细的数据预处理方法
《机器学习实战》算法总结
[美]Peter Harrington. 机器学习实战 (图灵程序设计丛书 72)
iOSDevLog
2018/12/10
5360
8种最差的预测建模技术,你认同吗?
以下技术大多数已经发展了较长时间(在过去10年中),其中大部分缺点已经得到弥补,因此更新后的技术已经远不同于其原始版本,性能也大为提高。但通常情况下,这些有弊端的技术仍然被广泛使用。
博文视点Broadview
2020/06/11
4280
一篇文章教你如何用R进行数据挖掘
引言 R是一种广泛用于数据分析和统计计算的强大语言,于上世纪90年代开始发展起来。得益于全世界众多 爱好者的无尽努力,大家继而开发出了一种基于R但优于R基本文本编辑器的R Studio(用户的界面体验更好)。也正是由于全世界越来越多的数据科学社区和用户对R包的慷慨贡献,让R语言在全球范围内越来越流行。其中一些R包,例如MASS,SparkR, ggplot2,使数据操作,可视化和计算功能越来越强大。 我们所说的机器学习和R有什么关系呢?我对R的第一印象是,它只是一个统计计算的一个软件。但是后来我发现R有足够
CDA数据分析师
2018/02/11
4.1K0
一篇文章教你如何用R进行数据挖掘
数据科学家面试常见的77个问题
[之前翻译的文章,今天看看觉得不错,分享给朋友们!] 随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是中国统计网为大家翻译的数据科学家面试常见的77个问题。 下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题,供各位同行参考。 1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。 2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的? 3、什么是:提升值、关键绩效指标、强
小莹莹
2018/04/20
1.4K0
数据科学家面试常见的77个问题
如何构建一个好的数据挖掘模型
1 首先要保证数据质量,特征值需要选择好,其次需要弄明白业务需求,确立你的分析目标是分类还是预测
许卉
2019/07/15
7830
深度|DT时代的核心竞争力---数据分析与挖掘
数据分析与挖掘,指的是通过对大量的数据进行观察与分析。发掘其中的未知的,潜在的、对决策有价值的关系、模式和趋势,并利用这些规则建立决策模型、提供预测性支持的方法和过程。 作为一名大数据开发工程师,什么能力才是我们我们的核心竞争力,答案是肯定的,那就是数据分析与挖掘。只有让数据产生价值才是数据开发工程师的职责。下面我将从几个方面介绍数据挖掘: 1 数据挖掘的基本任务 数据挖据的基本任务包括利用分类与预测、聚类分析、关联规则、时序模式、偏差检验、智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争
灯塔大数据
2018/04/09
1.2K0
提前想好答案 数据分析师面试常见的77个问题
随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题,供各位同行参考。 1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。 2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的? 3、什么是:提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则? 4、什么是:协同过滤、n-grams, map reduce、余弦距离? 5、
小莹莹
2018/04/18
1.9K0
用R语言做钻石价格预测
作者:夏尔康 https://ask.hellobi.com/blog/xiaerkang/4424 1.1问题描述和目标 因为钻石的价格定价取决于重量,颜色,刀工等影响,价格该如何制定合理,为公司抢占市场制定价格提供依据。 1.2数据说明 这里我使用的是R语言里面数据集diamonds,如果看这本《ggplot2:数据分析与图形艺术》应该对这个数据都不会太陌生。该数据集收集了约54000颗钻石的价格和质量的信息。每条记录由十个变量构成,其中有三个是名义变量,分别描述钻石的切工,颜色和净度; car
机器学习AI算法工程
2018/03/13
1.8K0
用R语言做钻石价格预测
R语言k-means聚类、层次聚类、主成分(PCA)降维及可视化分析鸢尾花iris数据集|附代码数据
最近我们被客户要求撰写关于鸢尾花iris数据集的研究报告,包括一些图形和统计输出。
拓端
2023/02/24
1.8K0
CS229 课程笔记之十三:决策树和集成方法
本章将介绍决策树,一种简单而灵活的算法。我们首先将给出决策树的非线性与基于区域的特征,然后对基于区域的损失函数进行定义与对比,最后给出这些方法的优缺点(进而引出集成方法)。
口仆
2020/08/14
9530
数据科学面试题-2023面试题库
数据科学是一个跨学科领域,它挖掘原始数据,对其进行分析,并提出用于从中提取有价值的见解的模式。统计学、计算机科学、机器学习、深度学习、数据分析、数据可视化和各种其他技术构成了数据科学的核心基础。
jack.yang
2025/04/05
1030
数据科学面试题-2023面试题库
全面整理!机器学习常用的回归预测模型(表格数据)
线性回归是一种线性模型,通过特征的线性组合来预测连续值标签。线性回归通过拟合系数
叶庭云
2024/05/25
4K0
全面整理!机器学习常用的回归预测模型(表格数据)
【笔记】CDA LEVEL II 数据建模师培训学习笔记(一)软件安装
写在前面:此笔记是PPV课学员张梦根据李玉玺老师在CDA LEVEL II 数据建模师培训的上课内容整理而成的。 ———————————–作者说明————————————— CDA level 2 前4天笔记。 重点在操作和老师口述的无关内容。由于开始没安装成功EM,所以没有截图。 有讲义的笔记都记录在讲义上。复习参考讲义。 2015/9/20 ————————————老师简介————————————— 李御玺 国立中国台湾大学咨询工程博士 铭传大
小莹莹
2018/04/25
8330
【笔记】CDA LEVEL II 数据建模师培训学习笔记(一)软件安装
数据挖掘机器学习[七]---2021研究生数学建模B题空气质量预报二次建模求解过程:基于Stacking机器学习混合模型的空气质量预测{含码源+pdf文章}
 但受制于模拟的气象场以及排放清单的不确定性,以及对包括臭氧在内的污染物生成机理的不完全明晰,WRF-CMAQ预报模型的结果并不理想。故题目提出二次建模概念:即指在WRF-CMAQ等一次预报模型模拟结果的基础上,结合更多的数据源进行再建模,以提高预报的准确性。其中,由于实际气象条件对空气质量影响很大(例如湿度降低有利于臭氧的生成),且污染物浓度实测数据的变化情况对空气质量预报具有一定参考价值,故目前会参考空气质量监测点获得的气象与污染物数据进行二次建模,以优化预报模型。二次模型与WRF-CMAQ模型关系如图 3所示。为便于理解,下文将WRF-CMAQ模型运行产生的数据简称为“一次预报数据”,将空气质量监测站点实际监测得到的数据简称为“实测数据”。一般来说,一次预报数据与实测数据相关性不高,但预报过程中常会使用实测数据对一次预报数据进行修正以达到更好的效果。
汀丶人工智能
2022/12/21
1.6K0
数据挖掘机器学习[七]---2021研究生数学建模B题空气质量预报二次建模求解过程:基于Stacking机器学习混合模型的空气质量预测{含码源+pdf文章}
CDA LEVEL II 数据建模师培训学习笔记(一)软件安装
写在前面:此笔记是PPV课学员张梦根据李玉玺老师在CDA LEVEL II 数据建模师培训的上课内容整理而成的。 —————————作者说明————————— CDA level 2 前4天笔记。 重点在操作和老师口述的无关内容。由于开始没安装成功EM,所以没有截图。 有讲义的笔记都记录在讲义上。复习参考讲义。 2015/9/20 —————————老师简介————————— 李御玺 国立台湾大学咨询工程博士 铭传大学咨询工程学系教授(2000~) CDA协会高级会员=数据分析专家 铭传大学大数据研究中
小莹莹
2018/04/20
8170
CDA LEVEL II 数据建模师培训学习笔记(一)软件安装
数据分享|R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病|附代码数据
这个数据集可以追溯到1988年,由四个数据库组成。克利夫兰、匈牙利、瑞士和长滩。"目标 "字段是指病人是否有心脏病。它的数值为整数,0=无病,1=有病 。
拓端
2023/02/06
1K0
Come On!决策树算法!
机器学习在各个领域都有广泛的应用,特别在数据分析领域有着深远的影响。决策树是机器学习中最基础且应用最广泛的算法模型。本文介绍了机器学习的相关概念、常见的算法分类和决策树模型及应用。通过一个决策树案例,着重从特征选择、剪枝等方面描述决策树的构建,讨论并研究决策树模型评估准则。最后基于 R 语言和 SPSS 这两个工具,分别设计与实现了决策树模型的应用实例。 机器学习概念 机器学习 (Machine Learning) 是近 20 多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度
小莹莹
2018/04/20
9320
Come On!决策树算法!
推荐阅读
相关推荐
我眼中的模型评估
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档