首页
学习
活动
专区
圈层
工具
发布
首页标签大数据

#大数据

腾讯云大数据解决方案,助力客户快速构建企业级数据架构,获取数据时代核心竞争优势

模型复现翻车的第一现场:不是代码,而是你没管好训练数据

Echo_Wish

说句掏心窝子的:模型不可复现,80% 不是算法的问题,90% 不是框架的问题,99% 都是数据的问题。

700

从“人治”到“机治”:得物离线数仓发布流水线质量门禁实践

得物技术

随着企业数字化转型加速推进,大数据业务规模呈现指数级增长,迭代变更越发频繁。此背景下,呈现"高频变更"与"超大规模"并存的特征,这种双重特性给大数据任务的发布变...

1600

推荐系统为啥都长一个样?聊聊「离线训练 + 在线召回 + 排序」这套大数据架构

Echo_Wish

如果你干过推荐系统,不管是内容推荐、电商、广告、资讯、短视频,大概率都会发现一件事:

2410

保姆级 SeaTunnel 入门!再学不会小编当场表演倒立敲代码

Apache SeaTunnel

欢迎来到 Apache SeaTunnel 的世界!这份文档旨在帮助新手快速了解 SeaTunnel 的核心功能、基本架构,并完成第一个数据同步任务。

6610

达梦 & 人大金仓适配实战:SeaTunnel 在信创数据平台中的应用与踩坑总结

Apache SeaTunnel

作者 | 三线程序员Tags | MySQL Doris PG 达梦 金仓关键词 | SeaTunnel、DolphinScheduler、信创、国产、达梦、人...

8710

深度探秘 Apache DolphinScheduler 数据库模式

Apache DolphinScheduler

本文将深入介绍 Apache DolphinScheduler 所采用的数据库模式,此模式主要用于持久化存储工作流定义、执行状态、调度信息以及系统元数据。它具备...

4310

破圈!东方财经电视台对金猿大数据产业发展论坛进行报道

数据猿

近日,“第八届金猿大数据产业发展论坛——暨AI Infra&Data Agent趋势论坛”在上海圆满落幕。本届论坛不仅现场嘉宾云集、观点交锋,其产生的深度行业影...

6010

Linux 环境下,Apache DolphinScheduler 如何驱动 Flink 消费 Kafka 数据?

Apache DolphinScheduler

已经在虚拟机部署好Apache DolphinScheduler了,想尝试下在Flink新建一个Flink节点,然后用Flink消费Kafka数据。

3210

模型不是坏了,是世界变了——聊聊数据偏差(Data Drift)检测与自动化响应这件“迟早要还的债”

Echo_Wish

老实说,我见过太多模型——上线时风光无限,三个月后“智商下降”,半年后被业务同学追着骂。

6410

从日志到根因:邮件系统性能瓶颈排查“三步法”实战

TurboEx技术分享

邮件系统作为企业内外部沟通的核心枢纽,其稳定性与性能直接关联业务流转效率——例如销售团队无法及时发送报价邮件可能错失商机,客服团队邮件投递延迟会导致用户投诉升级...

5610

ADALM-PLUTO 的平替版 PlutoSDR NANO 来了!

云深无际

在电子领域里面,这个射频应该是最难的部分了,那ADI早就出了这种集成的收发器,还做了教育套件:ADALM-PLUTO 是一个用于学习 SDR / RF / 无线...

9210

从王坚的一句,到上万名大学生的赛场:中国数据库的“换道超车”之路

数据猿

十多年前,阿里巴巴首席架构师王坚博士这么不经意的一句,像一颗投入湖面的石子,在时任淘宝技术保障部负责人刘振飞心中激起了千层浪。彼时,他刚接过一份预算,其中一项是...

7510

圆桌论坛:AI大模型+Agent,正推动数据基础设施变革?

数据猿

大模型与智能体的兴起,对数据提出了根本性的新要求,也推动数据基础设施向更高层次演进。

7310

【赵渝强老师】基于Hudi的大数据湖仓一体架构

赵渝强老师

Apache Hudi(Hadoop Upserts Delete and Incremental)是下一代流数据湖平台。Apache Hudi将核心仓库和数据...

9610

别再把 Spark / Dask 当“放大版 Pandas”了——聊聊大规模特征计算那些真能救命的技巧

Echo_Wish

说实话,这几年我见过太多团队,明明上了 Spark / Dask,特征计算却还是慢得想骂人。任务一跑就是几个小时,CPU 在抖,内存在炸,工程师在群里装死。

10610

MLflow / Feast 实战手记:MLOps 不是装工具,是治内伤

Echo_Wish

这两年,MLOps 火得不行。MLflow、Feast、Kubeflow、Airflow、Argo 一字排开,PPT 上一看,仿佛只要点几下鼠标,模型就能自动训...

6900

训练时一套,线上跑一套?离线训练与在线服务数据一致性这坑,我替你踩过了

Echo_Wish

做大数据、搞推荐、玩风控、折腾机器学习的朋友,大概率都遇到过一个极其隐蔽、但杀伤力极强的问题:

9010

C++ 二叉排序树

Dragon水魅

8010
领券