随着湖仓技术的持续演进,数据仓库和数据湖方案在快速演进和弥补自身缺陷的同时,二者之间的边界也逐渐淡化,湖上建仓、仓中数据降冷到湖、物化视图、冷热融合查询等方案也越来越多的成为各个公司的标配,各大厂商也陆续提出了自己的湖仓融合方案,通过湖仓融合技术来提升业务使用体验的同时也降低了业务的使用成本。
本论坛由腾讯大数据联合DataFun联合举办,邀请到了来自腾讯、阿里、Cloudera、炎凰数据、镜舟科技等公司的几位专家,分享关于他们的新一代湖仓融合架构,以及如何使用物化视图加速数据湖查询,数据湖查询引擎优化等方面的内容。通过本次分享,听众可以了解新一代湖仓湖仓融合架构、物化视图等方向的前沿技术。
出品人:程广旭 腾讯 TEG 数据平台部 专家工程师
个人介绍:腾讯大数据 OLAP 平台技术负责人,Apache HBase/InLong PMC 成员,有10年大数据相关工作经验,专注在 OLAP 领域及 KV 存储。
演讲题目:天穹OLAP:实时湖仓融合平台架构实践
演讲提纲:本次分享将会介绍基于天穹 OLAP 平台的实时湖仓融合架构。主要内容包括:
1. 介绍数据湖与实时数仓之间的异同以及湖仓融合的意义、常见湖仓融合方案的优劣
2. 解析腾讯大数据是如何解决当前湖仓融合的痛点,以及如何将实时数仓演变成新的实时湖仓融合架构
3. 腾讯大数据后续如何更进一步升级湖仓融合架构
听众收益:
1. 了解当前数据湖及实时数仓的优劣,并了解腾讯大数据是如何解决当前湖仓融合的痛点
2. 腾讯大数据在湖仓融合领域的新探索
喻奎 阿里云智能 高级技术专家
个人介绍:哈工大本硕毕业后,进入阿里巴巴云智能集团工作近10年,一直从事大数据分布式计算分析引擎的设计开发工作,重点从事MaxCompute SQL引擎从0到1各个版本的重构设计优化工作。
演讲题目:MaxCompute湖仓一体方案新能力
演讲提纲:
1. MaxCompute 增量处理框架揭秘
2. MaxCompute SQL引擎物化视图新能力介绍
3. MaxCompute SQL引擎Adaptive执行架构揭秘
听众收益:
1. 了解MaxCompute 增量处理框架的原理和功能,包括Upsert,timetravel,增量查询等能力
2. 了解MaxCompute SQL引擎物化视图的智能推荐以及自动化等新能力
3. 了解MaxCompute SQL引擎Adaptive执行架构的原理和新功能
黄权隆 Cloudera,Staff Software Engineer
个人介绍:黄权隆,Cloudera研发工程师,Apache Impala PMC 成员和 Committer,ORC Committer。毕业于北大计算机系,曾就职于Hulu大数据基础架构团队,参与大数据集群的维护、调优和二次开发。现就职于Cloudera,主要从事Impala系统的开发。
演讲题目:Impala 中的性能优化
演讲提纲:Impala 是一个高性能的 MPP 查询引擎,纯计算无状态的特性使其天然就适合数据湖的场景。本次分享将介绍 Impala 中的性能优化,包括 Iceberg 的优化、Codegen、内存管理等。
听众收益:
1. 数据湖查询引擎有哪些挑战?
2. Impala 在 IceBerg 上的优化
3. Impala 在 Codegen 方向的优化
4. Impala 的内存优化
彭江涛 炎凰数据 研发工程师
个人介绍:毕业于上海交通大学,一直从事数据处理和数据分析相关的系统研发工作。目前从事于查询引擎开发工作,包括查询解析、执行计划优化、查询调度等内容,致力于提供高效、准确和可扩展的查询引擎解决方案。
演讲题目:实时物化视图:加速大规模时间序列数据查询的利器
演讲提纲:
1. 探索实时物化视图的重要性及其在大规模时间序列数据处理中的查询加速作用
2. 介绍物化视图的底层实现方式,如预计算、存储和刷新机制等
3. 分享炎凰产品实现实时物化视图的关键方法,包括数据划分、自动聚合结果创建和维护,以及实时性更新
4. 展望实时物化视图未来的潜力和应用场景
听众收益:
1. 了解如何处理大规模时间序列数据时实现高性能的聚合查询
2. 了解物化视图的局限性,如何有效地利用物化视图加速查询
3. 了解实时物化视图的潜力和扩展性
王欢明 StarRocks 研发
个人介绍:在 StarRocks 主要负责开发查询引擎、物化视图等项目。
演讲题目:数据湖超车道:StarRocks 如何借助物化视图加速数据分析
演讲提纲:介绍 StarRocks 物化视图功能以及在数据湖分析场景的应用。
听众收益:
1. 物化视图的技术介绍
2. 如何使用物化视图
3. 如何加速数据湖分析