首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

一个字,搞定数据分析!

上期回顾:

回到前面,考了95分的你。当你发现其他同学都是100分、99分的时候,肯定心灰意冷,但是,你发现通过自己的努力,也能从80多分考到95分的时候,也会重燃信心。

你在跟其他同学了解一下,发现考100分的同学,每天都花1小时来做练习题,你是不是也可以这样做呢?你尝试时候,下一次考试,你也考了100分,这样就说明每天1小时的练习是有效果的,你可以继续坚持下去。

我们做数据分析其实也是同样的过程,通过对比发现问题,找出问题的关键点,在去了解背后的原因,改进你原来的工作方法,再看改进后的效果,循环往复,不断提升。

那么,除了上次讲的横向纵向对比之外,高大上的数据挖掘算法们,跟“比”有关系吗?

万变不离其宗。

我们看常用的算法:

分类:

对于训练集而言,就是根据已知的类型,通过比较找出不同类型的特征节点。当需要对新的样本进行分类时,将样本的特征和跟原有类型特征对比,把相同(或相似)的就归入同一类。

聚类:

把一堆样本特征进行对比,特征接近的就聚为相同的一类,所谓的组间距离最大,最内距离最小。

下图是K-Means聚类的动态演示,从随机初始点开始,计算各个点与类中心点的距离,对比将距离较短的点归入一类,再重新计算实际得到的类型重新计算类的中心点,再计算距离,多次迭代之后,达到相对稳定的聚类结果。

关联:

几个样产品同时出现的概率,其他产品同时出现的概率更高,就说明他们有关联。

回归:

先总结已有样本的特征(x)与结果(y)的对应关系,再将新的观察样本特征x’导入到模型中,计算出预测的y’结果。大家可能会说,这里并没有对比呀?但是,我们了解一下回归建模的过程就可以发现,当我们构建模型是,实际上就是要计算出每个特征对应的参数,我们通过调整参数,就可以得到不同的y值,我们将预测的y值和实际的y值对比,找到预测值与实际值差距最小的一组参数,就是我们模型的参数。也就是,回归建模的过程,就是不断的将预测值与实际值比较的过程。只不过,我们用数据的方法简化了人工一次一次对比的过程。

个人理解,各种机器学习也或多或少的是比较的过程:

有监督学习,是将预测值与实际值对比,从而使预测值越来越接近实际值的过程。

无监督学习,就是将样本进行对比,从而找出其中相似性的过程。

半监督学习,则是将部分规则特征,应用于产生更多规则的过程。

强化学习,则是根据对比目标的反馈情况,而进行模型校准的过程。

总体来说,数据分析和数据挖掘,都是通过将现有数据与相关的参照物进行对比,找出差距(差异),并不断优化的过程。

因此,从这角度来说,“比”可以说是数据分析和挖掘最核心的基础方法。

虽然,我承认在数据挖掘领域,设计精巧的数学工具,已经超出了普通“比较”范畴,比单纯的横向、纵向对比已经不在一个层面上。

但是,本文的目的是希望大家再今后的工作和学习中,能善用比较的方法,通过比较,从数据中发现问题,挖掘价值。

大家如果对本文或对数据分析有什么观点和看法,都欢迎在下面进行留言交流。

--全文完--

悦读·数享

酸梅汤的数据、读书和音乐

公众号ID:ydshuxiang

关注

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180420G1E76X00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券