今年,亿信华辰数据存储产品升级啦。与早期的分布式数据库产品相比,PetaBase-s全面升级为实时大数据平台。
很长一段时间,我们一直在致力于解决两个问题:
1)数据量不断快速增长,获取、处理和存储要求的时间越来越长;
2)用户对即时查询(hoc query)响应的要求越来越高。
好在有开源社区的帮助,我们的产品也在不断增强。众多用户与我们的工程师一起锻造出了PetaBase-s实时大数据平台,通过连接PetaBase-s统一对外访问服务,它就可以解决星形模型、企业数据仓库以及集成的先进分析混合模型分析等应用场景。从传统数据仓库用例到敏捷快速的实时数据智能平台,PetaBase-s都很适合。
无论你需要处理的数据结构是哪种:地理空间信息、文本、自然语言或是结构化的、非结构化的图像分析,PetaBase-s都能处理。如果你希望体验机器学习、深度学习和人工智能?PetaBase-s也能全包。
到底PetaBase-s有多厉害,下面就是 PetaBase-s 实时大数据平台的主要新功能一览:
产品架构图
全新架构拥抱大数据生态
PetaBase-s实时大数据平台采用了全新的企业级平台框架,以开源的Ambari作为平台统一管理工具,集成了诸多主流开源组件,数量将近二十个,如:YARN(统一资源管理),HBase(列存NoSQL数据库),Spark(快速通用的、基于内存的、分布式的计算引擎),Impala(联机查询引擎),Hive(数仓工具),Hdfs(分布式文件系统),Kudu(支持单条记录级别的增删改查的存储系统),Kafka(分布式发布订阅消息系统),Flume(分布式的海量日志采集系统),Sqoop(关系型数据库与hdoop之间的数据ETL工具)等。
PetaBase-s用户因此享有了更多的大数据应用功能,不仅可以搜索、分析和查询半结构化的文件,存储也得以优化,同时结构化数据的处理效率也大大提升,可以更快速地进行查询。
平台性能显著提升
在实际项目中,数据仓库和分析型系统的工作负载需要合并大量的大型查询和短查询和一些跑批量的离线计算以及分析系统。因此,PetaBase-s一直致力于优化复杂场景下的混合负载性能。新版本中,这些工作负载的性能不同程度的提高了数倍至数十倍。在同样的工作负载和硬件环境中,你能明显获得处理速度提升所带给你的振奋和喜悦。
更加简单的人机交互
PetaBase-s实时大数据平台提供了统一的可视化操作管理界面,从系统部署、集群安装、监控、故障等,都可以通过可视化的操作完成。文件的存储访问,平台提供更易用的集成开发工具,实现从数据采集、存储、计算、分析端到端的一站式管理。数据的访问开发,平台支持以拖拉拽的方式进行操作,提升用户效率。
为管理员提供更好的操控力
PetaBase-s实时大数据平台中包含有最新的Ambari集群管理控制工具,并在此基础上进行了一系列的改造和增强,以图形化监控系统PetaBase-s Command Center(PBCC)对外提供管理访问服务。大数据平台管理员和数据架构师们可以利用它来监测数据库系统,监督工作负载、系统的利用、锁定、查询进展以及历史分析。
机器深度学习与流式处理的新突破
Spark MLlib是PetaBase-s实时大数据平台的一个组成部分,它是Spark提供的可扩展的机器学习库。MLlib已经集成了大量机器学习的算法,能帮助PetaBase-s的用户简化机器学习的工程实践工作,并方便扩展到更大规模。
PetaBase-s内置的Flume+Kafka特别适合高可靠,高性能的混合格式数据加载,相较于传统ETL模式有明显优势。PetaBase-s Streaming Processer能够在流式消息中实时、持续地更新数据集。这一方法已经在工业物联和金融交易用例中成功应用。Kafka持续将数据输入Spark Streaming的APP中,支持在实时分析场景下,对数据进行低延时的处理。
结语:项目上的经验告诉我们,PetaBase-s在处理规模在TB至PB之间的数据时,效果是最出色的。企业使用PetaBase-s运行大量的挖掘分析和混合工作负载查询,PetaBase-s展现出了易扩展、高可用、灵活敏捷和高性能诸多惊人能力。未来,PetaBase-s致力于帮助企业更加高效地分析数据,提升企业的运营效率,加速企业的商业决策。还有其他一些新特性也非常有用,如果你感兴趣,请赶紧联系我们吧!
领取专属 10元无门槛券
私享最新 技术干货