本文共计4124字 预计阅读时长13分钟
根植于开源、坚持开源开放的理念,腾讯云 TCHouse 团队致力于通过技术创新回馈开源社区,推动 Apache Doris 社区的不断演进和发展,目前已成为 Apache Doris 社区在全球范围内贡献者最多、贡献度最大的云厂商。追求卓越,砥砺前行,未来 TCHouse 仍将持续深耕实时 OLAP 分析及实时湖仓场景,在引领开源社区发展的同时,帮助更多客户在降本增效、实现业务价值持续增长。
近期,由腾讯云联合主办的 Apache Doris 社区年度用户峰会 Doris Summit 2024 在深圳圆满落幕。本次峰会以“与创新者同行”为主题,聚焦于实时数据处理与分析领域最前沿的创新应用实践与未来趋势探索,来自金融、互联网、零售、教育、能源、制造、通信等十余行业的近百位行业专家出席峰会并带来精彩演讲,为众多大数据及数据库领域一线从业者、技术专家以及开源技术爱好者们带来了一场年度技术盛宴。
腾讯云 TCHouse 团队受邀参与本次峰会,腾讯云数据仓库 TCHouse-D 研发负责人、Apache Doris PMC 成员李德发表主题演讲,从云数据仓库技术的挑战与机遇出发,深度解读了基于腾讯云数据仓库 TCHouse-D 的云上极速实时湖仓构建之道。
根植于开源
以开源共建持续推动技术创新
定位于云原生、全托管、一站式的实时湖仓引擎,腾讯云数据仓库 TCHouse-D 基于 Apache Doris 内核打造、并与腾讯云上大数据生态体系深度融合,提供丰富的集群管控能力及完善的巡检告警体系,为客户提供简单易用、极简运维的云上全托管数据仓库服务,助力客户快速进行实时 OLAP 数据分析及实时湖仓构建。截止目前,腾讯云数据仓库 TCHouse-D 已在超过 20 个行业的数百家企业中落地,服务了大量金融、教育、游戏、互联网等行业头部客户,已成为在全球范围内最大规模的 Apache Doris 企业级云数据仓库服务。
在长期服务于广大企业级客户的同时,腾讯云 TCHouse 团队持续坚持开源开放的理念,致力于通过技术创新回馈开源社区,推动 Apache Doris 社区的不断演进和发展。
自 2024 年初至今,腾讯云 TCHouse 团队已累计提交并合入 Pull Request 近 500 个,参与了全新 CBO 查询优化器、Pipeline 执行引擎、Multi-Catalog 湖仓一体与 Elastic Compute Node 弹性计算节点以及云原生存算分离架构升级等关键功能方向的研发,贡献了多个重要功能、性能优化项以及稳定性问题修复。
目前腾讯云已发展 2 名社区 PMC 成员、近 10 名 Committer 以及数十名活跃贡献者,成为 Apache Doris 社区在全球范围内贡献者最多、贡献度最大的云厂商。凭借在开源社区的持续贡献,腾讯云 TCHouse 团队荣获社区「年度卓越贡献奖」。
企业级特性一览
在联合 Apache Doris 社区共同增强实时分析性能、拓宽应用场景边界的同时,腾讯云 TCHouse 在易用性、可用性、稳定性以及运维便捷性方面进行了大幅增强,致力于为企业客户提供成熟稳定、简单易用和安全高效的云数据仓库产品体验,并充分联动腾讯云大数据上下游产品生态,形成一站式开箱即用的大数据分析解决方案。
产品易用性增强:
○ 可视化集群管理、一键资源扩缩:仅在界面上进行简单配置即可完成集群的创建、扩缩容、配置变更等操作,节点灵活伸缩、数据自动均衡,完全无人工运维压力;
○ 精细化权限管理,可视化 SQL 查询:支持源/库/表/列多级粒度数据权限控制,实现更细粒度的权限管理;在 SQL 工作区中快速进行数据探索验证,更短时间内获得更及时准确的数据决策;
○ 查询分析及数据审计:支持可视化 Profile 分析,快速定位慢查询问题、解决性能瓶颈;支持数据库审计和集群操作审计,用户操作可追溯、更加安全可控;
○ 数据备份恢复及一键跨集群迁移:支持可视化、周期性备份恢复配置,支持跨 Doris 集群一键数据迁移。
产品高可用增强:
○ 跨多可用区高可用:对业务安全有强诉求的场景,可购买三可用区高可用集群,任意可用户宕机不影响集群整体的读写,充分保障数据的安全性和业务的连续性;
○ 安全组隔离、节点负载均衡:提升更细粒度的访问控制和业务之间的隔离,确保在高负载情况下系统的稳定性和响应能力;
○ 多业务资源隔离:可在控制台便捷创建资源组并绑定不同业务间的用户,以实现业务间的资源隔离。
产品运维增强:
○ 丰富的集群、机器、业务监控指标:120+ 监控指标,全面覆盖 BE、FE 及业务监控指标;五大分类,查找更方便;重点指标一键关注,更聚焦;
○ 集群健康检查,主动问题预警:集群负载、异常状态、异常 Tablet 等健康检查,主动给出异常预警;
○ 实时问题巡检,快速问题解决:30+ 集群巡检指标,识别到问题研发人员快速介入,提前发现并解决问题。
云上生态联动:
○ 数据集成 DataInlong 联动,实时数据同步:支持字段类型自动映射、一键自动建表、一键批量同步、智能限流限速等能力,实现极简高效的数据实时同步。
○ 流计算 Oceanus 联动,快速构建实时数仓;Oceanus进行实时数据的收集、处理和传输,并将处理后的数据实时写入TCHouse-D,TCHouse-D提供高效的数据查询和分析能力,并支持通过多表物化视图构建实时数仓分层。
○ EMR 联动,数据湖查询加速:可视化配置 Hive/Iceberg catalog,通过 SQL 工作区快速实现湖中数据的查询加速。
○ 数据湖 DLC 联动:一键开启湖仓一体,联动数据湖 DLC 提供一站式的湖仓分析体验。
○ 腾讯云 BI 联动:快速可视化数据分析。
产品稳定性保障:
○ 99.9%的产品可用性承诺
○ 内核稳定性的持续优化
○ 产品bug快速响应解决
○ 7*24小时工单支持
更多行业客户的认可和信赖
自2022年上线以来,腾讯云数据仓库 TCHouse-D 已在超过20个行业的数百家企业中落地,服务了大量金融、教育、游戏、互联网等行业头部客户,已成为在全球范围内最大规模的 Apache Doris 企业级云数据仓库服务,为客户提供了更快速、更稳定、更强大的数据分析体验,实现更深度的数据价值洞察和更实时的业务管理决策。
某头部保险公司:简化 Hadoop 技术栈,从小时级到秒级的性能飞跃
客户早期架构选用 Hadoop 体系构建离线大数据平台、使用 HBase+Impala 进行实时分析,随着用户体量不断上升、集群规模越来越大、此架构暴露的问题也越发明显:
解决思路
基于 TCHouse-D + Oceanus 搭建实时 OLAP 分析计算可视化平台,数据从业务数据库流入 Kafka、通过 Oceanus 实时写入 TCHouse-D,对外提供数据服务,整体实现秒级的实时数据分析、提取、下钻、监控等。
客户收益
某全球化 HR SaaS 软件服务商:某 HTAP 数据库迁移,查询性能提升 70%
作为一家全球化的劳动力管理 SaaS 服务软件,需要向 B 端用户提供人员分布、流动离职、考勤、薪酬和审批流等提供实时报表服务,原本业务库表规模多达数万张,均存储在某 HTAP 中,在业务高峰期租户集中查询时,报表服务访问慢、导致客户体验严重受损:
解决思路
引入 TCHouse-D + Oceanus 全面替代之的 Flink + 某 HTAP 数据库架构,通过 TCHouse-D 的集群弹性伸缩能力实现快速扩缩容,合理拆分集群对业务进行隔离、配合 Workload Group 资源组的方式对集群内租户进行资源隔离,充分避免不同租户见的资源抢占,同时由 TCHouse-D 团队技术专家提供指导,输出 SQL 改造实践文档,规范报表开发。
客户收益
某海外头部区块链科技企业:从 AWS 迁移至 TCHouse-D 全托管服务、性能提升 200%、成本下降 30%
客户是一家致力于区块链技术创新和应用的高科技公司,大数据场景包含客户分析、交易风控、用户标签画像分析、客服分析等,之前在 AWS 上自建开源 Apache Doris 集群,随着业务规模的快速增长,自建模式的资源和运维成本越来越高:
解决思路
从开源自建模式转向使用腾讯云上全托管的 Apache Doris 服务,选择升级到经由腾讯云众多客户大规模打磨成熟的 2.1 版本内核,配合 TCHouse-D 团队的专家调优指导,系统稳定性问题大幅降低、查询性能大幅提升、且完全免去集群运维人力,同时 TCHouse-D 自带的集群健康检查及实时异常巡检服务,帮助提前发现业务异常,进一步提升系统稳定性。
客户收益
未来规划
灵活弹性更易用
○ 一方面,TCHouse-D 团队会持续坚持开源社区共建, 深度参与 Apache Doris 3.0 以及后续版本的规划和迭代,优化多表物化视图、ETL 数据加工及算子落盘、日志分析等重要功能,提升 Apache Doris 在复杂查询、海量数据处理、日志检索等场景的能力及体验,并将打磨稳定的社区最新功能及时合入腾讯云 TCHouse-D 中,使云上客户也能享受查询性能的飞跃和功能体验的提升。
○ 另一方面,TCHouse-D 即将上线云原生存算分离版本,支持定时启停、分时弹性、规则弹性等弹性策略,以实现多计算集群间资源隔离、集群间读写分离、存储资源降本(COS存储)、资源弹性扩缩等特性,为用户提供更具性价比、更加 Serverless 的云原生数据仓库服务。
湖仓一体再进化
○ “湖加速” 升级至 “实时湖仓”:腾讯云 TCHouse-D 将联动 TC-Iceberg + Oceanus 等产品提供一站式的实时湖仓一体服务,支持统一的元数据管理、支持百万 QPS 数据的实时入湖、支持分钟级的增量数据数据数仓分层、支持秒级的数据查询加速及亚秒级的热数据高效分析。
融合 AI 更智能
○ TCHouse-D 后续会不断进行同 AI 结合的探索,上线智能问答助手、数据智能管家等服务,以 AI 驱动的全新方式,通过实时异常识别预测、多维度策略洞察、AI 深度分析、成本和性能优化以及自动化治理,为用户提供从数据洞察到智能治理的全面解决方案。
追求卓越,砥砺前行。未来,TCHouse-D 将持续深耕实时 OLAP 分析及实时湖仓场景,在成本、性能、稳定性等方面持续提升,帮助客户在降本增效的同时实现业务价值持续增长,欢迎大家持续关注。
腾讯云大数据始终致力于为各行业客户提供轻快、易用,智能的大数据平台。
END