首页
学习
活动
专区
圈层
工具
发布
首页标签大数据处理

#大数据处理

数据中台建设中的数据质量问题:从识别到治理的技术路径与实践

数据治理实践笔记

数据中台上线后,业务方反馈「数据不准」是行业高频痛点。本文从数据质量评价体系、监测架构、治理闭环三个层面,拆解数据质量问题的根因与解决方案,并提供轻量级起步路径...

4210

2026年会议记录工具实测:多语言长录音准确性高,免费真香

用户12564747

日常办公经常遇到跨部门研讨、跨境线上会议、多人圆桌沟通,动辄 1-2 小时连续录音,还会穿插中英词汇、外来专业术语。不少付费工具虽然识别稳定,但长期高频使用会产...

12110

build 了业内首个实事求是的社交媒体时空文本语义分析 AI Agent Sys

月小水长

如题所言,我做的这个时空分析 AI Agent,SpatioAgent,可能是世界上首个同时在垂类爬虫资源调度和研究任务分析实现自闭环的大数据时空语义分析 AI...

24130

邮件文件存储格式对性能的影响

TurboEx技术分享

邮件存储层的性能瓶颈,从来不在于磁盘吞吐上限,而是文件锁争抢、inode 消耗、目录检索、元数据查询这类细碎的内核态开销。多数邮件服务后期性能崩坏,根源都是初期...

13110

什么是大数据分析?大数据分析技术为什么很重要?

帆软BI

一提到大数据分析,大家的第一反应往往是数据很多、系统很复杂、技术门槛很高。这个印象不算错,但如果只停留在这里,其实还是离实际应用有点远。

27110

从零开始学Flink:TopN 榜单

代码匠心

在上一篇 《从零开始学Flink:Flink SQL四大Join解析》 结尾提到过,下一篇要把 窗口聚合(Window Aggregation)与 TopN 讲...

22510

万字详解偏度(Skewness):数据不对称性的灵魂解码

jack.yang

本文将带您亲手触摸偏度的温度:🔹 为何收入报告必须标注偏度?🔹 为何右偏数据中“均值>中位数>众数”是铁律?🔹 为何小样本偏度值可能完全失真?——答案尽在手工推...

55620

从零开始学Flink:Flink SQL四大Join解析

代码匠心

在上一篇 《从零开始学Flink:实时数仓与维表时态Join实战》 中,我们通过引入 Hive Catalog,解决了 Flink SQL 元数据管理的痛点。

63710

AllData数据中台打通国产全链路,国产麒麟+国产海光CPU+国产OceanBase全栈国产化落地,信创环境100%可用

奥零数据科技

在过去,“信创”从一个政策口号,逐渐演变为政府、金融、能源、交通等关键行业的“必答题”。但很多企业发现:国产硬件有了,国产系统有了,国产数据库也有了,但把它们“...

43920

从零开始学Flink:Flink SQL 元数据持久化实战

代码匠心

在上一篇 《从零开始学Flink:实时数仓与维表时态Join实战》 中,我们通过「订单事实流 + 用户维表」构建了一条基础的实时数仓链路。

75410

商业实战复盘:并发不是越多越快

jackcode

在商业数据采集的战场上,新手往往迷信“天下武功唯快不破”,喜欢在代码里把线程池的 max_workers 拉到满;而成熟的爬虫工程师往往是“资源精算师”,他们深...

20410

从零开始学Flink:实时数仓与维表时态Join实战

代码匠心

在前一篇 《Flink 双流 JOIN 实战详解》 中,我们用「订单流 + 支付流」搞懂了事实双流之间的时间关联。

39210

从零开始学Flink:Flink 双流 JOIN 实战详解

代码匠心

在前一篇 《Flink SQL 窗口(Window)操作详解》 中,我们已经打好了时间与窗口的基础。

33810

流计算与数据湖融合:大数据处理的下一代范式

gavin1024

在当今数据驱动的时代,企业不仅需要存储海量数据,更要求能够实时处理和分析这些数据。数据湖作为集中存储各类数据的仓库,而流计算则负责实时处理数据流,二者的融合正成...

38510

从零开始学Flink:Flink SQL 窗口(Window)操作详解

代码匠心

在上一篇 Flink SQL 极简入门 中,我们体验了 Flink SQL 的基础用法。但在流处理中,最核心、最迷人(也最让人头秃)的概念莫过于“时间”和“窗口...

39510

Spark SQL Catalyst 优化器详解

ETL 小当家

宏观来看:Spark SQL 语句,经过一个优化器(Catalyst),转化为 RDD,交给集群执行。

33610

从零开始学Flink:Flink SQL 极简入门

代码匠心

Flink SQL 是 Apache Flink 的核心模块之一,它让开发者可以使用标准的 SQL 语法来编写流处理和批处理作业。对于不想深究 Java/Sca...

67310
领券