未来十年将是一个“大数据”引领智慧科技的时代。更多的传感设备、移动终端接入到网络、由此产生的数据及增长速度将更多、更快。技术进展也将改变企业运营的方方面面。数据是企业未来竞争优势的基础和重要资源。大数据在商务管理应用中的作用体现在三个方面。
跨界整合:整合企业内外部资源与不同领域的专业化人才
深入探究:具备探究更多未知的科学能力
生态参与:利益相关方共同参与的生态建设
什么是大数据?
至今没有公认的定义
定义1:(Kusnetzky,Dan. What is "Big Data?")
所涉及的数据规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。
定义2:(维克托·迈尔-舍恩伯格、肯尼斯·库克耶 “大数据时代”)
不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方案
定义3:(“大数据”,Big Data 研究机构Gartner)
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
“大”有多大?
英语:
1Byte=8 bit
1KB=1024Bytes
1Mb=1024Kb=1048576 Bytes
1GB=1024MB=1048576MB
以此类推
TB、PB、EB、ZB、YB、BB、NB、DB
汉语:
仟 1000
万 10e4
亿 10e8
兆 10e12
京 10e16
垓 10e20
秭 10e24
穰 10e28
沟 10e32
涧 10e36
正 10e40
载 10e44
梵文(太多了,不敲了,可怕的还在后面)
大数据的特点
数据量(Volume)、速度(Velocity)、多样性复杂性(Variety)、高度分析的新价值(Value)
大数据的应用
预测、推荐、商业情报分析、科学研究
大数据问题求解计算的过程
大数据算法定义
在给定的资源约束下,以大数据为输入,在给定时间约束内可以生成满足给定约束结果的算法。
大数据算法可以不是:精确算法、内存算法、串行算法、仅在电子计算机上运行的算法。
大数据算法不仅是:云计算、MapReduce 、大数据分析和挖掘算法
大数据算法的难度
访问全部数据时间过长
读取部分数据(时间亚线性算法)
数据难于放入内存计算
将数据存储到磁盘上(外存算法)
仅基于少量数据进行计算(空间亚线性算法)
单个计算机难以保存全部数据,计算需要整体数据
并行处理(并行算法)
计算机计算能力不足或知识不足
人来帮忙(众包算法)
大数据算法
精确算法设计方法
并行算法
近似算法
随机算法
在线算法/数据流算法
外存算法
面向新型体系结构的算法
现代优化算法
大数据的算法分析
时间空间复杂性
IO复杂性
结果质量(近似比、competitive ratio)
通讯复杂性
我在冬天里盛开
那是因为
春天你没有来
间歇性更新
或分享给更多的人
公众号:颇有微词(poyouweici)
领取专属 10元无门槛券
私享最新 技术干货