Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >云端数智新引擎,腾讯云原生数据湖计算重磅发布

云端数智新引擎,腾讯云原生数据湖计算重磅发布

作者头像
腾讯云大数据
发布于 2021-03-25 02:40:35
发布于 2021-03-25 02:40:35
1.1K0
举报
文章被收录于专栏:腾讯云大数据腾讯云大数据

引言

是否遇到过,一个简单的业务统计需求却让数据工程师们抓耳挠腮?

是否遇到过,业务峰值周期明显,要么资源大量闲置, 要么线上疯狂告警?

是否遇到过,大数据集群运维复杂,需要投入大量技术工程师?

针对以上痛点, 腾讯云发布云原生数据湖计算服务,协同腾讯云端数据湖体系,帮助企业高效构建云端数据湖架构、降低数据计算成本,提升数据分析敏捷性、激发数据应用价值,助力企业数字化决策。

本文作者:ericshhxie

一、数据湖的前世今生

2010年 Pentaho 公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)首次提出数据湖的概念。把数据湖中的数据比作原生态的水——它是未经处理的,原汁原味的。数据湖中的水从源头流入湖中,各种用户都可以来湖里获取、蒸馏提纯这些水(数据)。此时, 大家对于数据湖的理解主要是当作一个集中式的存储系统,允许存储任意规模的结构化和非结构化数据。

随着存 HDFS 和对象存储等技术的发展, 海量数据的低成本存储问题得以解决,用户对湖中数据价值萃取的诉求愈发强烈。至此,数据湖重点从存储转向数据的计算分析,核心在于提升数据分析的敏捷性、增强对数据的洞察力。

2017年前后,兴起了新一轮的 AI 热潮。深度学习和超大规模的神经网络更离不开对海量数据文件的敏捷处理。借助数据湖架构,可以更好地打通数据之间的壁垒,支撑AI 模型训练、推理以及数据预处理。

发展至今, 数据湖已经不再局限于某个技术、某个软件产品,而是涵盖数据湖存储、数据湖计算、数据湖AI的多元化数据架构,满足企业级用户的生产管理需求。

腾讯技术和产品发展至今,几乎任何一个与用户相关的业务数据量都在亿级别,每日系统调用次数从亿到百亿,对海量异构数据的低成本存储和高敏捷分析是最重要的关注点。我们认为:“数据湖是企业新一代数据技术架构,可以赋予客户更高的数据敏捷度、更低的分析成本,而云是数据湖的最佳实践场所”。

二、腾讯云原生数据湖架构

选择 Cloud 还是 Local 的诸多讨论和实践中,成本一直是绕不开的话题。“在云端部署数据架构不如想象的便宜”,国内不少刚开始接触云服务的企业会有如此感叹。反观国外很多中大型企业(例如 Netflix,Pinterest),或者体量较大的中国出海公司(Shareit,Mobvista)更偏向于选择公有云服务。其核心差异是云原生技术的普及和落地,如何更好的利用云服务的优势,达到比本地自建大数据平台更低的IT成本,是云服务厂商和企业用户共同探索的关键点。

为了解决海量异构数据的存储和敏捷分析问题,腾讯云推出了云端数据湖体系,其包含:海量异构数据的存储能力、面向多元化场景的分析能力、音视图文的 AI 智能化能力。客户借助于腾讯云“数据云原生”能力, 高效构建企业级数据湖架构, 降低企业数据成本 、 提升企业数据敏捷性,助力企业数字化决策。

腾讯云数据湖体系围绕数据湖存储、数据湖计算、数据湖 AI,覆盖数据业务全场景,形成综合性云端数据湖解决方案。目前,腾讯云数据湖体系已服务众多内外部客户,算力弹性资源池达500万核,存储数据超过100PB,日采集数据量超500TB,每日分析任务数达1500万,每日实时计算次数超过超过万亿,能支持上亿维度的数据训练。

三、云原生数据湖计算

通常使用大数据分析组件对对象存储中的数据进行分析时, 会面临两个核心问题:

  • 如何基于云服务兼容特性屏蔽底层架构,降低计算成本?
  • 如何加速和优化存储侧的性能瓶颈?

为了解决数据湖敏捷高效的分析和计算问题,腾讯云推出一款开箱即用的数据湖分析服务——腾讯云数据湖计算(Data Lake Compute,DLC)(官网介绍:https://cloud.tencent.com/product/dlc)。

该服务采用 Serverless 架构,用户无需关注底层架构或维护计算资源,使用标准 SQL 即可完成对象存储服务(COS)及其他云端数据设施的联合分析计算。借助于该服务,用户无需进行传统的数据分层建模,大幅缩减了海量数据分析的准备时间,有效提升企业数据敏捷度。

腾讯云 DLC 服务联合腾讯多个团队深耕核心技术, 以提供一款高性能数据计算服务为目标,实现了如下几个关键技术特征:

腾讯云 DLC 引入高性能 serverless presto 引擎,针对数据湖底层存储的特点,在稳定性和性能方面做了大量的优化。

数据倾斜多年来一直是数据工程的宿敌,对云原生数据湖架构而言却是个好消息:在数据 scan 阶段,数据热度的巨大差异可以用很少的缓存来撬动很好的加速效果。在腾讯常见的大数据场景中,我们发现 read-only 的请求的缓存命中率高达75%-85%,甚至可能更高。

除了缓存加速,减少数据文件的扫描量在数据湖架构下更重要,如何做好数据排布需要新一代的建模技术。除了分区,分桶等传统技术,稀疏索引在数据湖扮演非常重要的作用。AP 向 TP存储格式设计的靠拢大大加速了分析性能,可以看到一些高性能数仓技术如 clickhouse 都会引入稀疏索引技术,在不过分消耗存储的基础上大大提升了查询性能。

  • 数据湖存储透明加速

客户最关注的问题是:如何把数据快速输送给大数据引擎,让引擎高效率工作。这是腾讯云工程师们一直在思考的问题。

对象存储服务 COS 作为数据湖统一存储服务,在确保数据安全、可靠、无限扩展能力的基础上,针对大数据业务 IO 特点做了进一步性能优化,分别在计算端、AZ 端、存储端提供了性能加速能力。

这三级加速位于数据湖计算引擎和 COS 持久化存储之间,为数据分析和存储系统建了桥梁, 将数据从 COS 对象存储移动到距离数据应用更近的位置,使数据能够更容易被访问到。层次化的加速架构,使得数据的访问速度能比现有方案有数量级的提升。

  • 低成本,无限算力云原生数据湖

相对于传统固定规模集群,腾讯数据湖技术完全基于腾讯云弹性容器技术(EKS:https://cloud.tencent.com/document/product/457/39804)构建,理论上“无限”的计算资源随时可供秒级调度,满足不同规模的计算任务,使用者再也不用关心底层资源的部署和运维。

在传统基于物理机/虚拟机的大数据架构下,往往要维护一个规模相对固定的计算集群,资源成本存在巨大的浪费。而云数据湖技术真正做到了随用随弃,充分利用弹性计算资源。计算引擎资源的创建、自动扩缩容、删除、秒级监控等功能全部交由 EKS 的控制模块来负责,用户只需直接提交计算任务即可。当 DLC 预测到当前算力即将不足时,动态扩容计算资源以补充算力,作业无须重新执行,大幅度减少集群空闲时的成本浪费,同时又能快速响应各种临时 /backfill 需求。

四、腾讯云原生数据湖技术未来展望

随着企业对数据驱动业务需求的加深,也随着海量数据分析技术的成熟,传统单一的数据架构也没法满足多变的数据分析需求。腾讯云推出云原生数据湖体系,一方面降低数据存储和分析的成本, 另一方面大幅度提升数据分析的敏捷性。

腾讯云数据湖体系架构,未来将会继续在如下几个方面继续深耕,进一步推动云端数据湖的技术发展。

  • 灵活高效的计算引擎调度

在大数据领域,没有一个万能的 SQL 执行引擎,不同的计算引擎擅长不同的任务。基于腾讯大数据漂移计算技术,可以智能选择对应最佳的计算引擎,支持数据源下推和 CBO 优化,提供更佳的分析性能。

  • 增强数据湖入湖能力

提供更优的数据入湖能力,支持 ACID 事务能力,可以大幅缩短数据入湖操作流程,提升 ETL处理效率。

  • 更优的流批处理能力

提供流式增量和批式全量处理能力,使用相同的高性能存储模型,数据不再孤立,架构更简单。

  • 更好的兼容性和扩展性

更好的适配支持 Hadoop 生态,对象存储的语义,结合 Cache 能力解决对象存储性能问题。支持智能行列混存,针对读/写不同场景下有更好的性能。

  • 更低成本的 Serverless 算力支持

EKS 即将推出更具成本优势的竞价型容器服务, 进一步减少数据湖计算资源的成本消耗,从而更降低用户使用数据湖分析的价格。

点击文末「阅读原文」,了解腾讯云数据湖计算DLC更多信息~

腾讯云大数据

长按二维码 关注我们

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-03-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
腾讯云DLC(数据湖计算)重磅支持Apache Hudi
数据湖计算 DLC 通过类 SaaS 化的服务设计,为客户提供云原生企业级敏捷智能数据湖解决方案,具备以下特点:
ApacheHudi
2023/02/28
1.3K0
腾讯云DLC(数据湖计算)重磅支持Apache Hudi
云端数智新引擎,腾讯云原生数据湖计算重磅发布
针对以上痛点, 腾讯云发布云原生数据湖计算服务,协同腾讯云端数据湖体系,帮助企业高效构建云端数据湖架构、降低数据计算成本,提升数据分析敏捷性、激发数据应用价值,助力企业数字化决策。
腾讯云大数据
2021/03/25
1.3K0
云端数智新引擎,腾讯云原生数据湖计算重磅发布
开箱即用,腾讯数据湖计算为海量数据分析赋能
导读 / Introduction 数据湖解决了海量异构数据的入湖和存储需求。通过对海量数据的分析挖掘,提升对数据的洞察,助力数字化决策,进而促进业务发展,是每个企业构建数据湖的根本目的所在。随着业务迭代的不断加速,企业对数据时效性和数据分析敏捷性提出了更高的要求。为此,腾讯云推出了数据湖计算(Data Lake Compute,DLC)。DLC采用存储和计算分离的架构,结合腾讯云对象存储COS和弹性容器服务EKS,打造了一个开箱即用、弹性扩展、按量付费的交互式分析服务。 图1 DLC架构图 高性
腾讯大数据
2021/05/13
1.5K0
腾讯云原生数据湖存储服务能力再上新,三级加速体系助力企业用数赋智
2022 导语 随着数据价值被越来越多企业认可,数据湖存储已成为企业级存储的首选和新一代提升生产力的服务。12月1日,在2022腾讯数字生态大会存储专场,腾讯云升级了云原生数据湖产品能力,并详细阐释了其设计理念,对其在多个行业的应用进行了案例分享,为更多企业提供降低存储成本、提升存储性能的实践参考。 当下,数据的生产、存储和消费模式日新月异,随着数据的爆发式增长,在数据存储和处理方面的降本增效成为企业亟待解决的问题。 腾讯云存储高级产品经理林楠认为,“市场需要一个更大、更快、更全能、更低成本的存储服务。数据
云存储
2022/12/06
4920
腾讯云原生数据湖存储服务能力再上新,三级加速体系助力企业用数赋智
腾讯云放大招!重磅发布全新大数据计算引擎,性能提升6倍
在刚过去的618购物节,某大型电商企业的订单量在几小时内激增至平时的几十倍。如果该企业的大数据计算引擎无法及时处理这些数据,订单处理、库存管理和客户服务将面临严重滞后,导致客户体验下降和销售机会流失,甚至损害品牌声誉。这一场景,展示了高性能大数据计算引擎对企业运营的重要性。
数据猿
2024/07/05
3020
腾讯云放大招!重磅发布全新大数据计算引擎,性能提升6倍
腾讯云发布国内首个云原生智能数据湖产品图谱,构建一体化数据湖服务
腾讯云大数据产品中心副总经理雷小平表示:“伴随着企业对于数据洞察敏捷度要求的不断提升,腾讯云正在不断探索更智能、更灵活、更高性价比的大数据工具。我们看到,数据湖架构已经成为在数据智能时代的新趋势,而云是数据湖最佳的实践场所。腾讯云原生智能数据湖将助力各行各业解决多元化数据分析场景的新需求,更好地激发大数据在企业数字化升级过程中的价值。”
CloudBest
2023/03/07
8360
腾讯云发布国内首个云原生智能数据湖产品图谱,构建一体化数据湖服务
数智技术驱动,打造极致性价比
导读:云计算和大数据作为现代企业基础设施的核心部分,对于提高效率和降低成本至关重要。腾讯云大数据团队始终致力于通过技术创新,提供高性价比的产品解决方案,以满足企业的需求。围绕性价比提升,腾讯云大数据首先推出了 Meson 高性能计算加速解决方案,目前可为 EMR 和 DLC 两款数据湖产品带来约2倍的基准性能提升。另外,在检索分析服务ES上,我们基于读写分离、存算分离架构升级,今年我们在日志场景可实现约10倍的性价比提升。更值得一提的是,我们今年也带来了可进一步降低成本的全新产品形态,包括 EMR 托管节点,以及 ES Serverless 服务。文中将对相关细节做详细讲解。
腾讯QQ大数据
2024/10/18
2070
数智技术驱动,打造极致性价比
腾讯云首发大数据高性能计算引擎Meson,支持三大产品线性能升级
目前, Meson 已登陆腾讯云数据湖、检索分析服务、云数据仓库三大业务线,为企业在湖仓一体分析、向量检索、海量数据离线计算等业务场景带来卓越的性能表现。
腾讯QQ大数据
2024/07/01
7000
腾讯云首发大数据高性能计算引擎Meson,支持三大产品线性能升级
云原生数据湖为什么要选择腾讯云大数据DLC,一份性能分析报告告诉你!
摘要 日前,腾讯云大数据数据湖计算 DLC 与国内两家知名云厂商的数据湖产品进行了性能对比,其中腾讯云 DLC 在三款产品中SQL平均执行查询时间短,性能表现优。腾讯云大数据 DLC 在存算分离和大数据量查询场景下,海量查询性能较 A 厂商 产品提升 248%,较 B 厂商产品提升36%。 在存算分离大数据量查询场景下,腾讯云大数据 DLC 较 A 厂商 、B 厂商表现更优,同时在较大任务上的任务执行成功率更高,所有任务均成功执行。结合性能、性价比、使用体验等因素,腾讯云 DLC 在云原生数据湖选择上整体上
腾讯云大数据
2022/09/09
1.9K0
云原生数据湖为什么要选择腾讯云大数据DLC,一份性能分析报告告诉你!
腾讯云TBDS:新一代数据湖仓实践,助力企业数据架构升级
腾讯云大数据 TBDS 是一款依托腾讯多年海量数据处理经验,基于云原生技术,泛 Hadoop 生态和最前沿的湖仓技术打造的可靠、安全、易用的大数据平台。TBDS 推出的新一代湖仓产品方案具备计算隔离强、存算按需伸缩、智能运维调优等高可靠性。通过统一元数据和统一的安全机制,TBDS 能够显著提升用户的用数体验,优化使用成本,赋能多场景应用,助力企业轻松驾驭各类工作负载,加速企业的数字化转型。
腾讯QQ大数据
2024/10/25
6270
腾讯云TBDS:新一代数据湖仓实践,助力企业数据架构升级
一份数据满足所有数据场景?腾讯云数据湖解决方案及DLC内核技术介绍
摘要 OLAP数据库/引擎日新月异,不断推陈出新,在各种场景下有不同引擎的价值:flink擅长于实时数据集成/实时计算;spark批处理、tb级以上、hive生态、复杂join的数据分析、以及机器学习;presto联邦分析、较简单join、tb级以下hive生态udf数据分析;clickhouse 大宽表聚合操作、无数据更新、尽量无join、没有复杂udf的亚秒级分析,tensorflow深度学习等等 即使相同的引擎,考虑资源隔离、成本分摊、数仓研发/使用周期(test,adhoc,prod,backfil
腾讯云大数据
2022/04/22
1K0
一份数据满足所有数据场景?腾讯云数据湖解决方案及DLC内核技术介绍
听说,难于上青天的云原生数据湖能开箱即用了?
导语 | 云原生数据湖架构以低成本优势推动客户上云,同时云上客户得以低成本撬动更多结构化和非结构化数据的价值,是一场云厂商的自我革命。本文由腾讯大数据专家工程师于华丽在 Techo TVP开发者峰会「数据的冰与火之歌——从在线数据库技术,到海量数据分析技术」的《云原生数据湖新一代数据架构》演讲分享整理而成,为大家详尽介绍云原生数据湖的价值和背景,云原生数据湖架构原则和挑战,同时分析腾讯云数据湖产品,展望腾讯云数据湖解决方案。 点击可观看精彩演讲视频 一、云原生数据湖架构的价值 今天分四个阶段来为大家
腾讯云开发者
2021/05/26
7790
重塑数据价值,赋能企业创新
在信息化和数字化迅猛发展的今天,人工智能和大数据已成为推动社会变革和技术进步的两大支柱。AI 技术通过自动化和智能化,为各行业提供了更高效、更精准的解决方案。而大数据则通过对大量数据的深入分析,揭示了隐藏的模式和趋势,帮助企业和组织做出更科学的决策。
腾讯QQ大数据
2024/12/29
2770
重塑数据价值,赋能企业创新
惊!腾讯挖了一个湖
企业数据量越来越大; 数据类型越来越复杂; 数据管理越来越吃力; 现有的数据仓库技术无法满足海量、多样的数据处理需求 …… 为了帮助企业解决这些苦恼,今天,腾讯云正式发布国内首个云原生智能数据湖产品图谱 简单来说,数据湖就是一个能够把“各种数据”进行集中存储并进行处理分析的系统。 无论是结构化、半结构化、非结构化的数据,对它来说,来者不拒! 来,先上一张图 数据湖在赋予客户更高的数据敏捷度、更优的数据存储分析成本以及更极致的资源弹性能力方面,“超能打”。 数据湖存储:以对象存储COS服务为核心,
腾讯云大数据
2021/05/14
8910
面向大模型,腾讯云大数据重磅发布ES及数据湖产品新版本
在2023腾讯全球数字生态大会大数据专场上,腾讯云大数据正式发布云数据仓库全新品牌TCHouse,全面构建性能与易用性兼具的企业级云数仓体系。同时,还针对大模型场景,率先在国内发布具备云端AI增强与向量检索能力的ES 全新版本,以及代表下一代Lakehouse湖仓架构的数据湖计算产品DLC,免运维、轻量化、低门槛等新特性,助力客户轻松构筑面向AIGC的企业大数据基座。
腾讯QQ大数据
2023/09/15
5720
面向大模型,腾讯云大数据重磅发布ES及数据湖产品新版本
QCon大会实录:PB级数据秒级分析-腾讯云原生湖仓DLC架构揭秘
导语 ‍‍‍‍文章整理了全球软件开发大会QCon《PB级数据秒级分析-腾讯云原生湖仓DLC架构揭秘》。大数据基于海量数据的分析,硬件、存储、计算资源尽量都可以用廉价的资源完成,如何在廉价资源上进行性能优化尤为重要。大数据是一种IO密集型负载,性能优化也首先着眼于IO优化。 ‍‍‍‍ 开篇:云提供了便利的按需使用方式,最佳实践非常重要 主持人:过去几年,数据湖能力已经在腾讯内部包括微信视频号、小程序等多个业务大规模落地,数据规模达到 PB 至 EB 级别,在此基础上,腾讯自研业务也启动了云原生湖仓能力建设
腾讯云大数据
2022/08/26
7760
QCon大会实录:PB级数据秒级分析-腾讯云原生湖仓DLC架构揭秘
国内首场Iceberg Meetup!腾讯云推出TC-Iceberg开放智能数据湖方案
国内首场 Apache Iceberg Meetup 在深圳成功举办,腾讯云在活动中分享了 Iceberg 在腾讯云大数据中的成功实践,并推出了 TC-Iceberg 批流一体开放智能数据湖解决方案,帮助企业高效维护数据湖架构。
腾讯QQ大数据
2025/03/10
2160
国内首场Iceberg Meetup!腾讯云推出TC-Iceberg开放智能数据湖方案
PB 级数据秒级分析:腾讯云原生湖仓DLC 架构揭秘
导读|过去几年,数据湖能力已经在腾讯内部包括微信视频号、小程序等多个业务大规模落地,数据规模达到 PB至 EB 级别。在此基础上,腾讯自研业务也启动了云原生湖仓能力建设。云原生湖仓架构最大的挑战什么?腾讯云原生湖仓 DLC 从哪些方面着手解决问题?接下来由腾讯云大数据专家工程师于华丽带来相关分享。 云原生湖仓的诞生背景、价值、挑战 当前这个阶段,相信大家对于数据湖,数据仓,湖仓一系列的名词已经不算陌生了,我用最直白、最狭义方式去解释“湖仓”的话,就是数据湖跟数仓存储架构统一。 数据湖最初的需求是,要存储和
腾讯云开发者
2023/01/04
1.2K0
PB 级数据秒级分析:腾讯云原生湖仓DLC 架构揭秘
腾讯云数仓 TCHouse:基于 zero ETL,实现事务
导读 腾讯云官网上有上百款在售的产品,面向海量数据处理和分析场景,从大数据基础引擎、数据开发与治理平台、到数据应用服务,腾讯云提供了全栈的大数据产品服务及解决方案。针对不同的真实业务场景,用户往往会搭配使用多款产品,如何让多产品丝滑地联动起来、为用户提供高效易用和高性价比的大数据分析体验,是我们长期努力的目标。本次分享将为大家介绍近半年我们在多款大数据产品联动使用体验方向上的主要进展。
腾讯QQ大数据
2024/11/11
3080
腾讯云数仓 TCHouse:基于 zero ETL,实现事务
OPPO数仓与数据湖融合架构升级的实践与思考
作者 | 蔡芳芳 过去几年,数据仓库和数据湖方案在快速演进和弥补自身缺陷的同时,二者之间的边界也逐渐淡化。云原生的新一代数据架构不再遵循数据湖或数据仓库的单一经典架构,而是在一定程度上结合二者的优势重新构建。在云厂商和开源技术方案的共同推动之下,2021 年我们将会看到更多“湖仓一体”的实际落地案例。InfoQ 希望通过选题的方式对数据湖和数仓融合架构在不同企业的落地情况、实践过程、改进优化方案等内容进行呈现。本文,InfoQ 采访了 OPPO 云数架构部部长鲍永成,请他与我们分享 OPPO 引入数据湖和数
深度学习与Python
2023/04/01
1.2K0
OPPO数仓与数据湖融合架构升级的实践与思考
推荐阅读
相关推荐
腾讯云DLC(数据湖计算)重磅支持Apache Hudi
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档