大型物联网系统中数亿、数十亿个传感设备(如传感器、多媒体采集设备、遥感设施等)在不断地感知动态变化的物理世界,并通过各类移动通讯设备、计算机与互联网连接和整合,共同构成了人类未来的信息网络,最终将形成人一机-物三元融合的信息世界。据预测,三元融合世界带来的信息量将远远超过现有人类社会的信息。物联网的感知数据是典型的大数据,具备5V的全部特征。同时,伴随着物联网数据规模的爆炸式增长,数据的获取方式、表现形态、相互关系、存取速度和语义演化也会发生一系列根本变化,给目前的海量信息处理技术带来前所未有的挑战。
传统的数据管理技术已经难以满足物联网感知大数据处理需求。例如,起源于20世纪70年代的关系数据库采用了集中式设计,因此并不太适用于分布、并行环境。这种不足在对象数据库、对象关系数据库中也同样存在。直到最近几年,随着云计算键-值模型的提出以及列存储系统的产生,海量数据处理技术才有了显著进步。
作为海量信息处理的主流技术之一,云计算数据处理技术方兴未艾,但在物联网感知大数据管理上还存在诸多局限性。目前,云计算的大部分研究工作集中在软硬件架构、网络和服务模式层面,大多数现有方案局限于关键词处理。还有些工作通过虚拟化技术将关系数据库(包括并行数据库)运行于云计算等大数据环境,但是由于存在输入/输出瓶颈及并发事务处理效率等方面的问题,比如在数据库管理系统一级进行并行化/虚拟化的效率远低于在文件存储一级的并行化效率(即,使用云计算、大数据存储所提供的并行存储能力,如谷歌文件系统),因此这种虚拟化技术并不完全适用。虽然较好的云计算关系数据库平台(如Windows Azure和simpleDB均针对云环境对底层存储进行了专门的设计,但是总体而言,这些工作侧重的仍然是提供将数据库管理系统作为服务(RDB-a-a-S)的功能,在一定程度上回避了性能问题。
如何满足物理信息感知中时空逻辑、科学计算多模态实时分析处理的要求,对物联网、感知中国智慧城市等大型应用的海量感知数据管理进行支持,已经成为云计算技术发展的必然趋势。针对云计算技术目前的研究现状和核心问题,本文将重点分析云计算在海量物理信息感知数据管理方面所面临的挑战,提出基于海-云计算模型的大数据存储与分析方案,并介绍软件系统及其实现。
领取专属 10元无门槛券
私享最新 技术干货