随着各行各业加快数字化转型,对数据存储技术提出了更高的要求,那如何通过创新的IT技术去降本增效,也成了企业与技术团队必须要面对的问题。
提到灵活的数据存储技术,业界必然会想到OceanBase。早在今年5月,OceanBase数据库高压缩比分布式存储引擎就被授予“2022 数博会领先科技成果奖”这一荣誉。可以说,OceanBase对于存储成本和性能的优化,为业界提供了重要的参考范本。
OceanBase集结多项优势,持续降低数据存储成本
数据压缩是降低海量数据存储空间占用的关键手段,但传统的事务型数据库通常使用定长块存储数据,这样可以保障读写性能,但与此同时也带来了额外开销和空间浪费。另一方面,分析型数据库天然更适合高压缩比,但压缩会降低查询和更新性能。
而只有在保证高性能的前提下实现高压缩,才是真正对用户有价值的高压缩,也能实现真正的降本增效。OceanBase基于LSM-Tree架构自研的存储引擎,实现了对OLTP与OLAP负载的同时支持,也能在提供高效的事务处理能力的同时,根据数据存储的特征进行自适应编码压缩,提供高效的数据压缩能力。
那如何做出更适合实际业务场景的数据压缩呢?OceanBase中同时支持不感知数据特征的通用压缩和感知数据特征并按列进行压缩的数据编码。这两种压缩方式是正交的,也就是说我们可以对一个数据块先进行编码,然后再进行通用压缩,来实现更高的压缩率。
依托OceanBase分布式存储引擎,400+行业客户实现降本增效
OceanBase数据编码压缩的效果测试如何?对此也进行了简单的测试。使用OceanBase 4.0版本,分别在交易场景的TPC-H10g的数据模型和用户行为日志场景的IJCAI-16 Brick-and-Mortar Store Recommendation Dataset数据集上对OceanBase的压缩率进行测试:
TPC-H是对订单,交易场景的建模,我们对TPC-H模型中数据量比较大的两张表:存储订单的ORDERS表,和存储商品信息的LINEITEM表的压缩率进行统计。在OceanBase默认配置(zstd + encoding)下,这两张表的压缩率可以达到4.6左右,相较于只开启encoding或zstd压缩时提升明显。
二、IJCAI-16 taobao user log则是淘宝脱敏后的真实业务数据,存储了用户浏览商品时的行为日志。在OceanBase默认配置(zstd + encoding)下压缩率可以达到9.9,只开启encoding压缩率可以达到8.3,只开启zstd压缩率为6.0。
可以看到,OceanBase在面对真实的业务数据时会有更出色的数据压缩效果,在TPC-H这种数据冗余相对更少的数据集上也有着优秀的数据压缩能力。
正因为有如此优秀的数据压缩能力,OceanBase高压缩比的分布式存储引擎,不仅应用于蚂蚁集团内部,也在金融、政府公共服务、能源、交通、运营商等400余家行业客户的核心系统升级上应用部署,显著提升客户的业务系统稳定性、安全性,有效降低存储成本 70%-90%。且在同一业务场景下,OceanBase的数据存储量仅为MySQL/Oracle数据库的1/4-1/3。
目前OceanBase已基于LSM-Tree存储引擎,在存储成本与查询性能之间实现平衡,并完成了系统的工程实践,给业界提供了很好的参考样本,值得参考和借鉴。
但OceanBase的存储引擎仍在不断迭代升级,不但对数据编码压缩功能在不同场景、不同存储架构下的优化做出更多尝试,同时在更丰富的数据模型上,利用现代硬件的特性对数据的编码压缩效果、以及编码数据的访问做出更多的优化,期待未来更新的体验。
领取专属 10元无门槛券
私享最新 技术干货