田教授侃大数据一:大数据思想漫谈
以前不是没有数据,是数据没有被记录!
当然,以前的数据确实没有现在的丰富!以前没有电子商务,没有移动终端,没有如此丰富的交通工具等等等等!
数据不等于大数据!
何为大数据?
大家都知道大数据的四个V!(还有5V,6V,7V)
分别为:Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)!
这里面最重要的是第一个V!
这个量大到什么程度?
大到,当时的软硬件处理不了的程度!
单个的硬件处理不了,解决方案就是从以前的集中式改成分布式协同处理!
既硬件也是靠量取胜!
以前的数据库架构处理不了,也得更新数据处理架构!
这才是真正的大数据!
究竟多大的数据才是大数据?
没有定论!但是如果数据连PB级别都没有,就不好意思称为之大数据了吧!
这里引发地震的,是一个思想!
既在大数据时代:要相关性,不要因果性!
也就是,我们只需要知道是什么,不需要知道为什么?
提出这个观点的是大名鼎鼎的克里斯.安德森,长尾理论的作者,连线杂志的主编!
连线杂志另一位主编就是《失控》的作者凯文凯利!
都是顶级牛人!
克里斯安德森,在2008年发表了一篇震惊学界的短文《理论的终结》!
他在文中说,因为数据变得如此之大,那些所谓的理论也好、模型也好,变得不再重要!
只需要让数据说话!数据不会说谎!我们只需在乎结论,至于理论和方法全部靠边站!它的例证就是google!google的研发主管也跳出来,推波助澜,声称所有的模型都是错误的!
这打碎或即将打碎多少人的饭碗,估计和尚都要出手削他了!
可是仔细想想,也不无道理!
数据建模的本质是逻辑分析,不管范式建模也好,还是维度建模也好!都是遵循某种逻辑或者哲学!
可是在数据洪流面前,主要问题有两个:
一是逻辑的滞后性!
逻辑是不断变化的!
变化才是永恒!在此向伟大的《易经》致敬!
等你搞清楚逻辑的时候,不好意思,逻辑可能又变了!
不是说没有规律,而是规律会变化!
二是模型的复杂性
我们都认为万事有规律可循!甚至爱因斯坦都想把世界规律统一到一个方程面!
结果失败了!
世界有时候会出现一种匪夷所思的状况,它超出了我们人类的理解能力和语言范畴!比如薛定谔那只半死半活的猫!有时候连数学都会陷入自相矛盾的境地(哥德尔不完备)!
这让我想起了“道可道,非常道”!在此向老子致敬!
你告诉我,这种情况下,你怎么建模?
google的翻译就是最好的例子!
googl的翻译,谁用谁知道!那是真的好!
其他的翻译,连吃它的土,都吃不到!
啥原因呢?
人家理念先进!
说先进,其实用了笨方法!
以前的翻译原则,是按照专家的思维去思考!
就是请一大推的语法专家参与翻译转件的开发过程,后来发现,很难搞!
为啥,因为人类的语言根本就不是标准的!人类的语言就是从实践中形成的!是从事实开始的,根本就不遵循什么固定的规律!
比如,汉字,什么形声,什么会意?有太多字什么都不是!
我现在最反感,什么字古代读什么!显得那帮专家很与学问似的!
其实,语言就是用来沟通的,只要大家达成一种共识,都认可,至于它原来啥意思,啥读音,真的不重要!
google后来灵光一闪!最准确的语言就是使用的语言!而几乎所有的组词或者句子都被人使用过!从来没有被使用的,基本是病句!而互联网上就存在巨大的语言知识库!
这本来就是google的长项!
google做了一个词汇关联的统计数据库,这个数据库根据词汇关联的频率进行排名,最高的就是最常用的!根本就不关心语法规则!根据数据去推倒出出另外一个数据!
效果出奇的好!
现在google的翻译在这个基础上更进一步,称之为序列到序列的翻译,把原来的单词变成了数字符号!增加了一层逻辑抽象!
这下子!在google的翻译里面,根本就没有含义的概念了!也就是,google的翻译系统把翻译仅仅变成了数字的最佳排列组合游戏而已了!
另外一个就是猫的故事,前google人工实验室主任李飞飞在TED演讲中,讲了怎样让google的AI去认识一个猫,一开始的时候,也是按照动物学家的描述去给猫定模型!然后,Ai去按照这个模型去找猫!
因为猫的种类、姿态、还有猫所在的环境太复杂,这个模型非常难以定义!效果非常差!
后来就想,啥是猫?大家认为是猫当然就是猫!互联网上有那么多猫的图片,如果样本足够大!Ai就学会了相当牛逼的认猫本领,甚至超过人类!效果出奇的好!
其实想想,这也符合我们人类学习的过程!我们认识一个事物,并非从建模开始!都是从事实和实践中去一步步学习来的!
从以上例子可以看出,google确实有资格说模型已死!
但是其他的公司,并非有资格!
忽略因果,只求相关!并非普世真理!
必须是具备以下两个条件的场合:
一个是无法建模!
一个是因果并不重要!
以上google的翻译和认猫就符合这样的条件!
没人去关心翻译和认猫的因果性!你不会因为认识一只猫,就会被苦苦的追寻为什么!
我们的很多应用场景,真的不能说大数据!
只是蹭大数据的热度而已!只是传统的数据分析和数据挖掘!
但是,这种界限确正在模糊化!
现在人们不再关心概念的争论,而是在乎数据分析能他们的业务带来什么价值!
在一般的场景下,模型依旧重要!
通过深刻理解客户的业务场景和业务逻辑,建立符合客户的数据模型依旧是重中之重!这仍然是很多公司的看家本领!
找出事件的关联,用清晰的图表表达之余,我们更重要的是要思考,这究竟是为什么?
分析清楚事件背后的前因后果之后,才能更好的调整业务模式或者管理模式!防患于未然,或者把业绩推向更高!
大数据的这种相关性思想,更适合已经发生的事物!它的逻辑是从一个事实去等价出另外一个事实!大数据的前提是有数据!
可是,它对没有发生的事物,无能为力!
而以建模为基础的因果性思想,则适合探索未知领域,也就是更适合预测!在一个已知域里面的得出的因果关系,可能适合一个未知领域,也可能不适合!但是绝对聊胜于无!
我们探索火星!是不可能实现得到火星的大数据的!我们只能用在地球上的模拟的数据进行建模,来应对火星的环境!
事实上,这样做的很好!
很多人都追问过生命的意义!从进化论的角度来看,真的看不出生命有何意义!
生命就像时间长河上的泡沫一样!缘起而生,缘灭而破!
可是人类却不同,已经进化出了超出其他一般生命体的非凡能力和勇气,搞搞清楚这一切他妈的究竟是为什么?也许永远都不会有答案,但是我们会一直去寻找,也许这就是意义!
领取专属 10元无门槛券
私享最新 技术干货