开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

数据入湖时效性业界水平

数据入湖时效性是指数据从产生到入库的时间，是一个关键的指标，可以用来衡量数据处理和存储的效率。在云计算领域，数据入湖时效性业界水平通常会受到多种因素的影响，例如数据量、数据类型、数据来源、网络带宽、存储系统性能等等。

在腾讯云中，我们提供了多种数据存储和处理的产品，可以帮助用户实现数据入湖时效性的优化。例如，通过使用腾讯云的云上数据仓库产品，用户可以将数据高效地导入仓库中进行分析和处理，并且可以通过腾讯云的 CDN 加速服务来提高数据传输速度，从而达到更快的入湖时效性。此外，腾讯云还提供了数据传输服务，例如数据迁移服务和数据同步服务，可以帮助用户快速、安全地将数据迁移到腾讯云中，以实现更快的入湖时效性。

总之，腾讯云提供了多种数据存储和处理的产品和服务，可以帮助用户实现更快的数据入湖时效性，并且提供了一系列的工具和服务来帮助用户优化数据处理和存储流程。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

农业银行湖仓一体实时数仓建设探索实践

在数字化转型驱动下，实时化需求日益成为金融业数据应用新常态。传统离线数仓“T+N”数据供给模式，难于满足“T+0”等高时效场景需求；依托Storm、Spark Streaming、Flink等实时计算框架提供“端到端”的实时加工模式，无法沉淀实时数据资产，存在实时数据复用性低、烟囱式垂直建设等不足。

04

Forrester发布云数据仓库报告：腾讯云大数据强势迈入竞争者行列

刚刚获悉，在全球研究机构Forrester最新发布了2023年第二季度《The Forrester Wave™: Cloud Data Warehouses》报告，吸引众多国际顶尖云数据仓库厂商参与其中，腾讯云以全栈云原生数据仓库解决方案成功入选 “竞争者”阵营，成为国内唯二入选的云厂商。

03

数据湖技术在抖音近实时场景的实践

首先，数据湖可存储海量、低加工的原始数据。在数据湖中开发成本较低，可以支持灵活的构建，构建出来的数据的复用性也比较强。

02

企业到底需要怎样的湖仓一体架构？| Q推荐

作者 | 郑思宇在愈发复杂的大数据场景下，数据仓库与数据湖各自的弊端开始显现，湖仓一体架构走向舞台中央。此前，InfoQ 也曾在《湖仓一体会成为企业的必选项吗？》一文中提到，对于高速增长的企业来说，选择湖仓一体架构来替代传统的独立仓和独立湖，将成为不可逆转的趋势。虽然业界对于湖仓一体的价值是高度认同的，但作为一种新兴的架构，大多数公司对于湖仓一体仍处在初期的探索阶段，有些企业甚至对于要选择怎样的湖仓一体架构仍旧是云里雾里。本文，我们希望从技术选型的角度出发，让你重新理解湖仓一体的本质与要求，扫除技

01

数据湖在快手的生产实践

快手的传统离线链路和很多公司是一致的，基于 Hive做离线分层数仓的建设。在入仓环节和层与层之间是基于 Spark 或者 Hive做清洗加工和计算。这个链路有以下四个痛点：

04

Apache Paimon要赢了？湖仓一体实时化时代全面开启！

摘要：本文整理自阿里云开源大数据平台负责人王峰（莫问）老师在5月16日 Streaming Lakehouse Meetup · Online 上的分享，主要介绍在新一代湖仓架构上如何进行实时化大数据分析。内容主要分为以下五个部分：

01

B站基于Hudi+Flink打造流式数据湖的落地实践

上图展示了当前B站实时数仓的一个简略架构，大致可以分为采集传输层、数据处理层，以及最终的AI和BI应用层。为保证稳定性，数据处理层是由以实时为主，以离线兜底的两条链路组成，即我们熟知的批流双链路。

05

滴普科技冯森：FastData DLink实时湖仓引擎架构设计与落地实践

本文根据冯森在【第十三届中国数据库技术大会（DTCC2022）】线上演讲内容整理而成。

03

字节电商场景基于Apache Hudi的落湖实践

字节跳动早期为了快速支持业务，对于电商流量数据采用Lambda的设计架构，由于当前电商流量数据随着建设的深入和精细化的运营，设计架构的弊端也愈发凸显。

01

实时数仓：实时数仓3.0的演进之路

传统意义上我们通常将数据处理分为离线数据处理和实时数据处理。对于实时处理场景，我们一般又可以分为两类，一类诸如监控报警类、大屏展示类场景要求秒级甚至毫秒级；另一类诸如大部分实时报表的需求通常没有非常高的时效性要求，一般分钟级别，比如10分钟甚至30分钟以内都可以接受。

01

vivo 实时计算平台建设实践

vivo 实时计算平台是 vivo 实时团队基于 Apache Flink 计算引擎自研的覆盖实时流数据接入、开发、部署、运维和运营全流程的一站式数据建设与治理平台。

03

长安汽车：基于云器Lakehouse一体化数据平台，建立智能互联时代的领先优势丨案例研究

长安汽车智能化研究院是中国长安汽车集团有限责任公司旗下专注于汽车智能化技术研究和创新的研发机构。其愿景是通过持续创新和技术突破，实现汽车智能驾驶、智能网联和智能交通的全面发展，提供更安全、更便捷、更智能的出行体验，并成为中国汽车智能化领域的领军企业。

02

字节跳动基于 Apache Hudi 构建实时数仓的实践

导读：今天很高兴能与大家分享字节数据平台在实时数仓中的一些实践。目前在数据湖和Hudi相关的一些基本技术原理方面社区已有较多的介绍，所以我们今天的分享主要聚焦于实践部分的内容。

04

Apache Paimon流式湖仓学习交流群成立

Apache Paimon是一个流式数据湖平台。致力于构建一个实时、高效的流式数据湖平台。这个项目采用了先进的流式计算技术，使企业能够实时处理和分析大量数据。Apache Paimon 的核心优势在于它对于大数据生态系统中流式处理的支持，尤其是在高并发和低延迟方面表现出色。

01

增量计算（生产）与数据湖核心原理

增量计算就是计算 5 分钟或者 10 分钟的数据，需要数据湖能从上次的地方继续开始消费。

03

Flink 在实时金融数据湖的应用

导读：本文由中原银行大数据平台研发工程师白学余分享，主要介绍实时金融数据湖在中原银行的应用。主要内容包括：

02

云原生数据湖101

导语 | 云原生数据湖致力于扩大公有云市场总量：一方面以低成本优势推动客户上云，另一方面云上客户得以低成本撬动更多结构化和非结构化数据的价值，是一场云厂商的自我革命，本文将为大家洞悉云原生数据湖的神秘面纱，并且首次推出腾讯云的云原生数据湖产品。文章作者：于华丽，腾讯TEG数据平台部研发工程师。一、云上架构大数据平台的挑战和机遇选择 Cloud 还是 Local 的诸多讨论和实践中，成本一直是绕不开的话题。“公有云太贵了，一年机器就够托管三五年了”，这基本上是刚开始接触公有云的企业，在进行了详细价格

01

实时数仓-Iceberg

互联网技术高速发展的背景下，数据已经成为各大公司的最宝贵资源之一。大数据领域经过近十年的高速发展，无论是离线计算还是实时计算、不管是数据仓库还是数据中台都已深入各大公司的各个业务。在复杂业务的背景下，迫切需要一套高效的大数据架构。以数据仓库为例，经过了几次架构升级。其中，首先诞生的一个比较成熟的流批一体架构就是Lambda架构，然后就是升级版的 Kappa 架构。

03

ByteHouse 基于 ClickHouse 优化实现实时数仓场景突破

ByteHouse是火山引擎上的一款云原生数据仓库，为用户带来极速分析体验，能够支撑实时数据分析和海量数据离线分析。便捷的弹性扩缩容能力，极致分析性能和丰富的企业级特性，助力客户数字化转型。

03

腾讯主导 Apache 开源项目: InLong（应龙）数据入湖原理分析

作为业界首个一站式、全场景海量数据集成框架，Apache InLong（应龙）提供了自动、安全、可靠和高性能的数据传输能力，方便业务快速构建基于流式的数据分析、建模和应用。目前 InLong 正广泛应用于广告、支付、社交、游戏、人工智能等各个行业领域，服务上千个业务，其中高性能场景数据规模超百万亿条/天，高可靠场景数据规模超十万亿条/天。InLong 项目定位的核心关键词是“一站式”、“全场景”和“海量数据”。对于“一站式”，我们希望屏蔽技术细节、提供完整数据集成及配套服务，实现开箱即用；对于“全场景”，我们希望提供全方位的解决方案，覆盖大数据领域常见的数据集成场景；对于“海量数据”，我们希望通过架构上的数据链路分层、全组件可扩展、自带多集群管理等优势，在百万亿条/天的基础上，稳定支持更大规模的数据量。

01

Flink在中原银行的实践

在构建实时场景的过程中，如何快速、正确的实时同步业务数据是最先面临的问题，本文主要讨论一下如何使用实时处理引擎Apache Flink和数据湖两种技术，来解决业务数据实时入湖的相关问题。两者的结合能良好的支持实时数据落地存储，借助Apache Flink出色的流批一体能力，可以为用户构建一个准实时数仓，满足用户准实时业务探索。

04

实时湖仓一体规模化实践：腾讯广告日志平台

本文为从大数据到人工智能博主「bajiebajie2333」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。

01

实时湖仓一体规模化实践：腾讯广告日志平台

1. 背景 1.1 整体架构腾讯广告系统中的日志数据流，按照时效性可划分为实时和离线，实时日志通过消息队列供下游消费使用，离线日志需要保存下来，供下游准实时（分钟级）计算任务，离线（小时级/天级/Adhoc）分析处理和问题排查等基于日志的业务场景。因此，我们开发了一系列的日志落地处理模块，包括消息队列订阅 Subscriber，日志合并，自研 dragon 格式日志等，如下图所示： Subscriber：Spark Streaming 任务，消费实时数据，落地到 HDFS，每分钟一个目录，供下游准实时

03

实时数仓：Iceberg

作者：代来，腾讯 CSIG 工程师背景互联网技术高速发展的背景下，数据已经成为各大公司的最宝贵资源之一。大数据领域经过近十年的高速发展，无论是离线计算还是实时计算、不管是数据仓库还是数据中台都已深入各大公司的各个业务。在复杂业务的背景下，迫切需要一套高效的大数据架构。以数据仓库为例，经过了几次架构升级。其中，首先诞生的一个比较成熟的流批一体架构就是 Lambda 架构，然后就是升级版的 Kappa 架构。对于传统的 Lambda 架构，流与批是两条割裂的链路，维护成本高且容易出现数据不一致的情况。新

01

干货|流批一体Hudi近实时数仓实践

传统意义上的数据集市主要处理T+1的数据。随着互联网的发展，当前越来越多的业务场景对于数据时效性提出了更高的要求，以便及时快速地进行数据分析和业务决策，比如依托实时数据情况开展实时推荐、实时风控、实时营销等。特别是各种新技术的出现、发展和日趋成熟，实时数据分析和处理也成为可能。实时的大规模数据处理成为企业数字化转型过程中需要破解的难题，也是企业当前面临的一个普遍需求。

02

Tapdata Cloud 场景通关系列：数据入湖仓之 MySQL → Doris，极简架构，更实时、更简便

【前言】作为中国的 “Fivetran/Airbyte”, Tapdata Cloud 自去年发布云版公测以来，吸引了近万名用户的注册使用。应社区用户上生产系统的要求，Tapdata Cloud 3.0 将正式推出商业版服务，提供对生产系统的 SLA 支撑。Tapdata 目前专注在实时数据同步和集成领域，核心场景包括以下几大类： √ 实时数据库同步，如 Oracle → Oracle, Oracle → MySQL, MySQL → MySQL 等 √ 数据入湖入仓，或者为现代数据平台供数，如： △ 常规 ETL 任务（建宽表、数据清洗、脱敏等） △ 为 Kafka/MQ/Bitsflow 供数或下推

01

湖仓一体电商项目（一）：项目背景和架构介绍

湖仓一体实时电商项目是基于某宝商城电商项目的电商数据分析平台，本项目在技术方面涉及大数据技术组件搭建，湖仓一体分层数仓设计、实时到离线数据指标分析及数据大屏可视化，项目所用到的技术组件都从基础搭建开始，目的在于湖仓一体架构中数据仓库与数据湖融合打通，实现企业级项目离线与实时数据指标分析。在业务方面目前暂时涉及到会员主题与商品主题，分析指标有用户实时登录信息分析、实时浏览pv/uv分析、实时商品浏览信息分析、用户积分指标分析，后续还会继续增加业务指标和完善架构设计。

04

Flink + Iceberg 在去哪儿的实时数仓实践

摘要：本文介绍去哪儿数据平台在使用 Flink + Iceberg 0.11 的一些实践。内容包括：

02

数据湖在快手的应用实践

快手业务发展迅速，对数据精细化运营的要求越来越高。随之而来，数仓的数据模型持续快速增长。这带来了两个主要问题：

01

国内顶级汽车制造厂的创新实践：如何利用实时数据湖为更多业务提供新鲜数据？

使用 TapData，化繁为简，摆脱手动搭建、维护数据管道的诸多烦扰，轻量代替 OGG、DSG 等同步工具，「CDC + 流处理 + 数据集成」组合拳，加速仓内数据流转，帮助企业将真正具有业务价值的数据作用到实处，将“实时数仓”方法论落进现实。 TapData 持续迭代产品能力，优化用户体验的同时，也在不断探索各行各业数据需求的底层逻辑，力求为行业用户提供更加简洁、更具针对性的解题思路。本期内容便是我们在汽车制造行业做出的实践以及展望。

01

图加速数据湖分析-GeaFlow和Apache Hudi集成

关系模型自1970年由埃德加·科德提出来以后被广泛应用于数据库和数仓等数据处理系统的数据建模。关系模型以表作为基本的数据结构来定义数据模型，表为二维数据结构，本身缺乏关系的表达能力，关系的运算通过Join关联运算来处理。表模型简单且易于理解，在关系模型中被广泛使用。随着互联网信息技术的发展，处理的数据规模越来越大，大数据系统应运而生。表模型作为重要的数据模型依然被Spark/Hive/Flink等主流大数据引擎所采用，表模型之上的SQL查询语言也被广泛使用在大数据分析处理中。然而随着应用场景的丰富和处理数据规模的变大，表模型的问题也越来越多的暴露出来。

02

图加速数据湖分析-GeaFlow和Hudi集成

GeaFlow(品牌名TuGraph-Analytics) 已正式开源，欢迎大家关注！！！欢迎给我们 Star 哦! GitHub👉https://github.com/TuGraph-family/tugraph-analytics

01

现在的湖仓一体像是个伪命题

从一体机、超融合到云计算、HTAP，我们不断尝试将多种应用场景融合在一起并试图通过一种技术来解决一类问题，借以达到使用简单高效的目标。现在很热的湖仓一体（Lakehouse）也一样，如果能将数据湖和数据仓库融合在一起就可以同时发挥二者的价值。数据湖和数据仓库一直以来都有十分密切的联系但同时存在显著的差异。数据湖更注重原始信息的保留，将原始数据“原汁原味”地保存下来是数据湖的首要目标。但原始数据中有很多垃圾数据，原样保留就意味着垃圾数据都要存进数据湖？没错，数据湖就是这样一个数据垃圾场，不管什么样的数据一股

03

尘锋信息基于 Apache Paimon 的流批一体湖仓实践

尘锋信息 (www.dustess.com) 是基于企业微信生态的一站式私域运营管理解决方案供应商，致力于成为全行业首席私域运营与管理专家，帮助企业构建数字时代私域运营管理新模式，助力企业实现高质量发展。

04

数据湖

>消息队列本身对数据存储有时效性，且当前无法使用 OLAP 引擎直接分析消息队列中的数据

03

业内首个基于Iceberg的“云端仓转湖”生产实践探索

业务背景作业帮成立于2015年，一直致力于用科技手段助力教育普惠，运用人工智能、大数据等前沿技术，为学生、老师、家长提供更高效的学习、教育解决方案，智能硬件产品等。作为大数据中台架构团队，我们一直探索利用有限的资源，较低的开发维护成本、高时效的数据更新和查询，为业务团队提供基础支持。问题&痛点 ODS层数据就绪时间晚，DWS/ADS等上层数据和业务报表构建时间少。作业帮ODS层表大概有几千张，TP90就绪时间大概在4点30左右，不同业务团队因工作时间不同，看数时间会有些差异，总体上来说基本都要求数

01

字节跳动基于 Apache Hudi 的湖仓一体方案及应用实践

目前主流的数仓架构—— Lambda 架构，能够通过实时和离线两套链路、两套代码同时兼容实时数据与离线数据，做到通过批处理提供全面及准确的数据、通过流处理提供低延迟的数据，达到平衡延迟、吞吐量和容错性的目的。在实际应用中，为满足下游的即席查询，批处理和流处理的结果会进行合并。

03

字节跳动基于 Apache Hudi 的湖仓一体方案及应用实践

目前主流的数仓架构—— Lambda 架构，能够通过实时和离线两套链路、两套代码同时兼容实时数据与离线数据，做到通过批处理提供全面及准确的数据、通过流处理提供低延迟的数据，达到平衡延迟、吞吐量和容错性的目的。在实际应用中，为满足下游的即席查询，批处理和流处理的结果会进行合并。

05

个推TechDay直播回顾 | 分享基于Flink的实时数仓搭建秘诀附课件下载

近日，个推TechDay“治数训练营”系列直播课第二期举办。来自每日互动（个推）的资深数据研发工程师为大家详细解读了实时数仓架构演进，分享了实时数仓的技术选型要点，并结合实战案例详细剖析实时数仓搭建秘诀。

04

查收一份来自南极的Iceberg数据治理指南

Apache Iceberg 作为面向超大型湖存储的新一代表格式，由于在元数据管理、数据时效性以及解决传统Hive在海量分区操作耗时方面具备显著优势，目前正在被越来越多的企业用户认可。如腾讯云的新一代Lakehouse产品数据湖计算 DLC，其底层存储同样基于Iceberg深度优化。

01

数据湖｜Flink + Iceberg 全场景实时数仓的建设实践

摘要：Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎，数据湖是顺应云时代发展潮流的新型技术架构，以 Iceberg、Hudi、Delta 为代表的解决方案应运而生，Iceberg 目前支持 Flink 通过 DataStream API /Table API 将数据写入 Iceberg 的表，并提供对 Apache Flink 1.11.x 的集成支持。

04

腾讯天穹 StarRocks 一站式湖仓融合平台架构揭秘

腾讯天穹是协同腾讯内各 BG 大数据能力而生的 Oteam，作为腾讯大数据领域的代名词，旨在拉通大数据各个技术组件，打造一个具有统一技术栈的公司级大数据平台体系。从底层数据接入、数据存储、资源管理、计算引擎、作业调度，到上层数据治理及数据应用等多个环节，支持腾讯内部近 EB 级数据的存储和计算，为业务提供海量、高效、稳定的大数据平台支撑和决策支持。

01

Flink社区 | Flink CDC 2.0 正式发布，核心改进详解

摘要：本文由社区志愿者陈政羽整理，内容来源自阿里巴巴高级开发工程师徐榜江 (雪尽) 7 月 10 日在北京站 Flink Meetup 分享的《详解 Flink-CDC》。深入讲解了最新发布的 Flink CDC 2.0.0 版本带来的核心特性，包括：全量数据的并发读取、checkpoint、无锁读取等重大改进。

03

湖仓一体详解

问题导读 1.什么是数据仓库、数据集市和数据湖？ 2.湖仓一体化为什么诞生？ 3.湖仓一体化是什么？ 4.湖仓一体化的好处是什么？ 0.沃尔玛纸尿裤和啤酒在了解湖仓一体化之前，我们先来看一则有关数据仓库的有趣故事吧~ 沃尔玛拥有世界上最大的数据仓库系统，它利用数据挖掘方法对交易数据进行分析后发现"跟尿布一起购买最多的商品竟是啤酒！后来经过大量实际调查和分析，发现在美国，一些年轻的父亲下班后经常要到超市去买婴儿尿布，而他们中有30%～40%的人同时也为自己买一些啤酒，这是因为美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布，而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。可见大数据其实很早之前就已经伴随在我们的日常生活之中了。那么接下来我们就来了解一下湖仓一体化的基本概念吧。 1.什么是数据仓库、数据集市和数据湖？ 1.1 数据仓库早期系统采用数据库来存放管理数据，但是随着大数据技术的兴起，大家想要通过大数据技术来找到数据之间可能存在的关系，所以大家设计了一套新的数据存储管理系统，把所有的数据全部存储到数据仓库，然后统一对数据处理，这个系统叫做数据仓库。而数据库缺少灵活和强大的处理能力。在计算机领域，数据仓库（英语：data warehouse，也称为企业数据仓库）是用于报告和数据分析的系统，被认为是商业智能的核心组件。数据仓库是来自一个或多个不同源的集成数据的中央存储库。数据仓库将当前和历史数据存储在一起，以利各种分析方法如在线分析处理(OLAP)、数据挖掘(Data Mining)，帮助决策者能快速从大量数据中，分析出有价值的信息，帮助建构商业智能(BI)。尽管仓库非常适合结构化数据，但是许多现代企业必须处理非结构化数据，半结构化数据以及具有高多样性、高速度和高容量的数据。数据仓库不适用于许多此类场景，并且成本效益并非最佳。

02

投入上百人、经历多次双11，Flink已经足够强大了吗？

采访嘉宾｜王峰（莫问）作者 | Tina 作为最活跃的大数据项目之一，Flink 进入 Apache 软件基金会顶级项目已经有八年了。 Apache Flink 是一款实时大数据分析引擎，同时支持流批执行模式，并与 Hadoop 生态可以无缝对接。2014 年，它被接纳为 Apache 孵化器项目，仅仅几个月后，它就成为了 Apache 的顶级项目。对于 Flink 来说，阿里有非常适合的流式场景。作为 Flink 的主导力量，阿里从 2015 年开始调研 Flink，并于 2016 年第一次在搜

04

Hudi:数据湖技术引领大数据新风口

Apache Hudi（Hadoop Upserts Delete and Incremental）是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发，同时保持数据的开源文件格式。

04

基于Flink CDC打通数据实时入湖

在构建实时数仓的过程中，如何快速、正确的同步业务数据是最先面临的问题，本文主要讨论一下如何使用实时处理引擎Flink和数据湖Apache Iceberg两种技术，来解决业务数据实时入湖相关的问题。

02

Apache Doris 在奇富科技的统一 OLAP 场景探索实践

作为中国卓越的人工智能驱动的信贷科技服务平台，奇富科技（原 360 数科）致力于帮助金融机构提升智能化水平。经过多年金融领域实践，奇富科技以自身强大安全生态为依托，完成了在人工智能、大数据、云计算等技术方面的专业积累。目前，已与银行、消费金融公司、信托公司等建立广泛合作，针对不同类型金融机构的需求提供定制化解决方案，帮助客户完成数字化、智能化升级改造。

03

2021数据技术嘉年华的几点观感

2021 DTC大会已结束数周，近期忙里偷闲学习下开放的材料。作为年度数据库领域的盛会，可以从中了解到很多行业、厂商、技术等多方面变化。本文从个人比较感兴趣的几个点，谈谈我对此次大会的几点观感。个人观点，仅供参考！

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭