【注:以下内容参考自pravega.io,所做内容仅为作者愚见不代表所在公司】
当前的大数据处理系统无论是Lamda架构还是Kappa架构都面临一个问题,即:“计算是原生的流计算,而存储却不是原生的流存储”。
作为存储业界首屈一指的领导者,DELL EMC的存储专家们重新思考了这一基本的数据处理的和存储规则,为这一场景重新设计了一种新的存储类型,即原生的流存储,命名为"Pravega",在是梵语里是“Good Speed”的意思。
Pravega是一种连续又无边无际的流数据存储系统,其具有可持久化,弹性,数据只追加,字节序列无限制,性能良好和强一致性的特点。并且根据Apache 2.0许可证开源,DELLEMC的存储专家们相信这一颠覆性技术应该开源出来由开源社区一种拥有与推动,Pravega相应的介绍以及代码可以从pravega.io获得。
主要特性
正好一次 – 不管是客户端、服务端还是网络出现了故障,Pravega都能确保每个事件都只被传递和处理正好一次(exactly-once)。
自动伸缩 – 不同于静态分区系统只有固定大小的存储空间,当数据采集速率发生变化时Pravega可以根据场景自动调整空间大小以自动适应数据规模的变化。
分布式计算原语 – Pravega具有和zookeeper一样的选主功能,支持进程间传递消息,支持数据存储,非常适用于分布式计算场景。
写入效率 – 目前Pravega 的写入时延在毫秒级,还能无缝的扩展以支持数千个客户端的同时并发读写,是IOT和其他时延敏感型应用的理想选择。
无限保存 – 数据永远都在流中采集、处理和保存,对于实时数据和历史数据使用一样的处理范式。
高效存储 – Pravega构建了一种数据处理通道,支持将批处理,实时处理以及其他应用比如数据检索,都构建在一个数据处理通道内,无需为每个处理模式都保留一份数据副本。
可持久化 – Pravega保证无需在高性能,可持久化和一致性之间做权衡,在客户端确认写入操作已完成之前,Pravega将一直存留并保护数据。
事务支持 - 开发人员使用Pravega事务来确保一组事件原子性的写入流中。
Pravega的逻辑架构
计算与存储解耦,计算包括 Flink,Spark,一个自我开发的分布式检索系统。
存储层实现了一个流抽象层,一级高性能存储采用Bookeeper,二级冷数据存储
可以支持开源的HDFS,CEPH,GlusterFS,Swift,云存储等。与Kafka对比,最大区别在于Pravega是专门为流数据而生的原生的流存储。
领取专属 10元无门槛券
私享最新 技术干货