首页
学习
活动
专区
圈层
工具
发布
首页标签大数据

#大数据

腾讯云大数据解决方案,助力客户快速构建企业级数据架构,获取数据时代核心竞争优势

数据质量不用人盯死:聊聊“规则 + 阈值 + 自愈”怎么玩才靠谱?

Echo_Wish

兄弟们,做大数据的要是没被“数据质量”折磨过,我都怀疑你是不是在玩票。线上业务天天变、源头数据花式造、表字段随时加减,今天你多一列,明天我空一列——只要没人盯,...

700

高速公路为什么热衷于创造各种新名词:技术突破还是概念包装?

高速公路那点事儿

这些新名词好像将高速公路从传统的土木工程+信息化系统的范畴推向了一个集成了大数据、人工智能、车路协同等新技术的复合型领域。

900

qData 数据中台开源版 v1.1.0 更新:扩展 8 项规则,支持 ARM + x86 双架构部署

吴同

qData 数据中台开源版 v1.1.0 对部分功能与工程构建流程进行了调整。本次更新主要基于社区用户在实际使用过程中反馈的问题,集中在清洗与稽查规则补充、构建...

700

数据管道别裸奔!聊聊单元、集成、端到端测试的“三层护体”玩法

Echo_Wish

所以这篇,我想用“走心、接地气”的方式聊聊大数据管道测试的三板斧:单元测试、集成测试、端到端测试。咱别整那些“一看就头昏”的学术名词,把它们变成能落地的策略。

3000

论文解读 - 潜在思维链推理的全面综述

合合技术团队

大语言模型(LLMs)在复杂推理任务中,通过思路链(CoT)提示取得了显著的性能。然而,传统的CoT依赖于用自然语言明确表达的推理步骤,这不仅降低了效率,还限制...

2710

别让大数据“全表扫描”掏空你:数据分区策略与分区裁剪的实战心经

Echo_Wish

大家好,我是 Echo_Wish。今天不聊那些高屋建瓴的框架宣传,我们来点接地气的——数据分区策略怎么做才有效?分区裁剪怎么让查询跑得飞?

8910

用一条表达式,稳定同步上万张表

ClouGence

在现代业务环境中,“表太多” 已成为数据库同步领域越来越普遍的现象。一个成熟的业务背后,数据库中经常有几千张甚至上万张表。在这种规模下,一旦某张表未被同步,下游...

6910

别再迷信“你给我一次,我还你一次”:聊聊数据流水线里的 Exactly-Once 神话

Echo_Wish

兄弟们,今天咱不聊玄学、不说情怀,咱聊点让工程师半夜惊醒、老板天天催命的硬需求——数据流水线的事务与一致性,尤其是 Exactly-Once(“只处理一次”)怎...

13210

Flink学习笔记:状态后端

Jackeyzhe

我们继续来聊 Flink 容错相关的内容。前面在介绍 Checkpoint 和 Savepoint 时提到了 State 的稳定存储,那究竟如何存储以及存储在什...

12810

国产化适配、配置化治理:数据中台 + 物联网平台赋能某河流域数字孪生建设

吴同

从“碎片感知”到“一图统览”,从“人工搬运”到“自动流转”——某河流域数字孪生建设的底层突破

10120

用 Flink 做实时 ETL: 别只盯着算子,真正的灵魂是「语义、状态和扛事能力」

Echo_Wish

说句实在话,这几年我看过太多团队“上了 Flink”,但真正把 Flink 用对的,并不多。

10810

Flink学习笔记:如何做容错

Jackeyzhe

现在我们已经了解了 Flink 的状态如何定义和使用,那 Flink 是如何做容错的呢?今天我们一起来了解一下。

9710

指标平台如何落地?qData 商业版原子指标计算方案拆解

吴同

qData 数据中台商业版指标平台通过原子指标计算模型,将指标的定义、计算、验证和存储纳入统一体系。本文将围绕该原子指标计算方案,介绍其在真实项目中的落地方式。

17020

Flink学习笔记:状态类型和应用

Jackeyzhe

Flink 被广泛应用的原因,除了我们前面提到的对时间以及窗口的应用之外,另一点就是它强大的容错机制,以及对 Exactly Once 的支持。

10500

数据一多就卡?别急,先把“数据入口”修好

Echo_Wish

我见过太多项目,一上来就聊 Flink 多强、Spark 多牛、ClickHouse 多快,结果一上线:

9210
领券