(图片来自网络,存谢!)
昨天发的朋友圈,其实是大数据分析的结果。
估计很多人不信,大数据这么“高大上”的东西,怎么产生出那么不“高大上”的结果?
哈哈,工具是死的,人才是万物的主宰,你输进去金矿石,出来的是金子;你输进去的是粮食,出来的也就是粪便。
什么是大数据?2013年,浙江人民出版社出版了一本书叫《大数据时代》,我不知道国内是先有大数据的概念,还是因为先有这本书,而后引入大数据这个概念的?其实,现在分析书与理论的前后不是重点,关键是,什么是大数据?大数据可以干什么?
什么是大数据?好像没有精确的定义,大数据的英文名是“BIG DATA”,从这个名词就可以看出,这是一个几乎跟原石一样粗糙的词。之所以这么粗糙,主要原因还是,想不出一个非常精确的词来命名大数据及其分析活动。
大数据,顾名思义,就是大量的、多种类、多样式的数据。大数据研究分析,就是要将不同类别的数据进行综合利用,最后得出不同数据之间的关系。如果就概念说概念,估计很多人还是理解不清楚。
记得以前中学开始学物理的时候,老师经常会问一个问题,棉花和铁谁重?现在我们知道了,那是老师为了告诉你“比重”或者“密度”的概念。稍有一点物理知识的人,都知道“棉花和铁谁重”的问题怎么回答了。
大数据时代不是这样的,大数据时代是要让你知道,棉花真的没有铁重,它会通过一系列数据来论证,棉花没有铁重。
大数据分析,就是通过收集大量的数据,建立某个数据模型,将数据之间建立关系,最后分析得出结论。按照这个理解,大数据跟以前的统计分析工作唯一的区别就是,待分析的数据有多种多样,不像以前的数据分析要求的单一性和同质性,如影像数据与声音数据都可以一起分析。按照大数据思维,棉花和铁是可以比重的。
大数据分析相对于传统的数据分析有三个特点:一是大数据要的是全量数据,而不是随机抽取的数据;二是大数据要的是一种混杂的数据,不是精确的结论;三是大数据要分析的是一种相关性,而不是一种因果性。
棉花与铁谁重,不用通过假设条件,而是通过大量的、多种的、各样式的数据,在模型的约束下,最后说明棉花的重量与铁的重量之间是有相关性的,通过相关性分析,最后的结论是,棉花没有铁重。
不知道将大数据说清楚没有?
大数据最核心的不是数据,数据始终是以各种方式存在的,想要就能找到,难的是如何设计分析模型,将这些庞杂的数据拟合到模型里,最后将不同的要素之间建立相关性,这就是大数据分析的结论。
我昨天发朋友圈的那些结论,就是大数据分析的结果,朋友圈里有音频、视频、文字和图片资料,我用自己的模型,拟合各类数据与人的性格、行为和喜好之间的关系,最后得出17种相似性结论,符合某些特征的与模型一相似,符合某些特征的与模型二相似,符合某些特征的与模型十七相似,仅此而已。
要是不相信我的结论的,不是我的模型有问题,也不是我的结论有问题,而是大数据的分析方法有问题。
被我无意冒犯的,不要找我,去找大数据吧。
大数据抽取的是全量的数据,我选择的也是我的朋友圈全量的数据;大数据需要的是混杂的数据,我也没有做定向精确数据分析;大数据说的是一种相关性,而不是一种因果关系,我也是说的相关,至于相关度有多高,估计答案自在读者的心中了。
还有对大数据精通的专家,估计在找我要模型,这个是核心商业机密,我不能随意外泄,不然,以后我还能把文字卖给谁看呢?
哈哈哈。
朱晔(古磨盘州人),安徽望江人,经济学硕士,高级经济师,中国注册会计师,人力资源管理师,中国金融作家协会会员,中国金融作家协会理事、副秘书长。2008年开始文学创作,已经出版了三部历史专著:《理说明朝》、《理说宋朝(北宋篇)》、《理说宋朝(南宋篇)》,旅行散文随笔《一车一世界》,创作出版长篇小说《最后一个磨盘州人》、《银圈子》,并在《文艺报》、《中外文摘》、《金融时报》、《中国金融文学》、《金融文化》、《中国金融文化》、《金融文坛》、《中国城乡金融报》等期刊上发表作品。累计出版文字200万字。
领取专属 10元无门槛券
私享最新 技术干货