首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

hudi流批一体

Hudi是一个支持流处理和批处理的存储系统,它可以高效地处理大规模数据的实时和批量处理需求。Hudi的核心特点是支持数据的增量查询和增量写入,可以大大提高数据处理的效率。

Hudi的应用场景包括数据仓库、数据湖、实时数据分析等。在数据仓库中,Hudi可以作为一个高效的存储层,提供快速的查询和写入性能。在数据湖中,Hudi可以作为一个数据存储的中间层,将原始数据转换为可用的数据集,并支持数据的实时和批量处理。在实时数据分析中,Hudi可以作为一个实时数据处理的存储层,支持数据的实时写入和查询。

推荐的腾讯云相关产品是云上数仓,它是一个高性能、高可靠的数据仓库服务,可以支持PB级数据的存储和查询。云上数仓支持SQL查询,可以方便地进行数据分析和报表搭建。云上数仓的产品介绍链接地址是:https://cloud.tencent.com/product/dws

Hudi的优势在于支持数据的增量查询和增量写入,可以大大提高数据处理的效率。同时,Hudi还支持数据的版本控制和数据的分区管理,可以方便地管理和查询数据。

总之,Hudi是一个非常有前途的存储系统,可以支持流处理和批处理的数据处理需求。在腾讯云中,可以使用云上数仓来支持数据仓库和数据湖的需求,并且可以方便地进行数据分析和报表搭建。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

腾讯广告业务基于Apache Flink + Hudi的批流一体实践

广告主和代理商通过广告投放平台来进行广告投放,由多个媒介进行广告展示 ,从而触达到潜在用户。整个过程中会产生各种各样的数据,比如展现数据、点击数据。其中非常重要的数据是计费数据,以计费日志为依据向上可统计如行业维度、客户维度的消耗数据,分析不同维度的计费数据有助于业务及时进行商业决策,但目前部门内消耗统计以离线为主,这种T+1延迟的结果已经无法满足商业分析同学的日常分析需求,所以我们的目标为:建设口径统一的实时消耗数据,结合BI工具的自动化配置和展现能力,满足业务实时多维消耗分析,提高数据运营的效率和数据准确性。

01

腾讯广告业务基于Apache Flink + Hudi的批流一体实践

广告主和代理商通过广告投放平台来进行广告投放,由多个媒介进行广告展示 ,从而触达到潜在用户。整个过程中会产生各种各样的数据,比如展现数据、点击数据。其中非常重要的数据是计费数据,以计费日志为依据向上可统计如行业维度、客户维度的消耗数据,分析不同维度的计费数据有助于业务及时进行商业决策,但目前部门内消耗统计以离线为主,这种T+1延迟的结果已经无法满足商业分析同学的日常分析需求,所以我们的目标为:建设口径统一的实时消耗数据,结合BI工具的自动化配置和展现能力,满足业务实时多维消耗分析,提高数据运营的效率和数据准确性。

01

重磅!基于Apache Hudi的商业公司Onehouse成立

Apache Hudi[1](简称“Hudi”)于 2016 年在 Uber 创建,旨在将数据仓库功能引入数据湖以获取准实时的数据,开创了事务数据湖架构,现已在所有垂直行业中进入主流。在过去的 5 年里,围绕该项目已发展出一个丰富多彩的社区[2],并迅速创新。Hudi 为数据湖带来了类似数据仓库及数据库的功能,并使诸如分钟级数据新鲜度、优化存储、自我管理表等新事物直接在数据湖中成为可能。来自世界各地的许多公司都为 Hudi 做出了贡献,该项目在不到两年的时间内增长了 7 倍,每月下载量接近 100 万次。我很荣幸目睹了亚马逊[3]、字节跳动、Disney+ Hotstar[4]、GE Aviation[5]、Robinhood[6]、沃尔玛[7]等更多企业采用并构建基于 Apache Hudi 的 EB (Exabyte) 级数据湖,来支持其关键商业应用。紧跟潮流,我很高兴能在这里分享过去几个月我们利用 Hudi 正在构建的公司和产品 - Onehouse。为了启动我们的征程,我们获得了 Greylock Ventures 和 Addition 的 8 百万美元的种子轮投资——这些投资公司在培育企业数据初创公司方面拥有出色的业绩记录和丰富的经验。以下是我们的旅程故事和对未来的愿景。

02
领券