首页
学习
活动
专区
圈层
工具
发布
首页标签数据湖

#数据湖

数据湖是一个集中式存储池,可对接多种数据源,无缝对接各种计算分析和机器学习平台

揭秘 Uber 跨区域数据湖与灾难恢复机制:350PB 数据、数百万事件、单一系统

深度学习与Python

Uber 构建了 HiveSync,这是一个分片式批量复制系统,能够使 Hive 和 HDFS 数据在多个区域之间保持同步,它每天处理数百万个 Hive 事件。...

5810

【赵渝强老师】基于Hudi的大数据湖仓一体架构

赵渝强老师

Apache Hudi(Hadoop Upserts Delete and Incremental)是下一代流数据湖平台。Apache Hudi将核心仓库和数据...

12510

【数据湖仓】腾讯云发布面向AI的数据湖方案:TCLake+EMR打造AI-Ready数据底座

腾讯QQ大数据

面向 AI 的数据湖方案 TCLake+EMR,以一套多模态数据湖底座承载结构化与非结构化数据,以一套 CPU+GPU 混合调度体系承载数据工程与 AI 工作负...

11510

数据湖时代新篇章:Hive与Apache Iceberg集成,破解传统数据管理难题

用户6320865

随着企业数据量呈指数级增长,传统的数据仓库架构在处理海量异构数据时逐渐显露出局限性。据2025年最新行业报告显示,全球数据湖市场规模已突破千亿美元,年增长率高达...

27810

Hive的未来之路:数据湖仓一体趋势下的总结与展望

用户6320865

Hive最初由Facebook于2007年开发,旨在解决海量日志数据的处理问题。当时,Facebook每天产生TB级别的数据,传统的数据仓库方案在扩展性和成本方...

26910

打破数据壁垒!腾讯云BI如何无缝集成你的数据仓库与数据湖?

gavin1024

13610

AI大模型时代:高性能数据湖与存储架构的破局之道

数据存储前沿技术

在AI大模型浪潮席卷全球的今天,所有目光都聚焦在模型效果和应用创新上。然而,作为解决方案架构师,我们深知高质量AI的基石在于高质量的数据基础设施。一个现代AI数...

30810

基于 Spark + Delta Lake 的数据中台搭建实践总结

薛定喵君

本文取材于几个月前博主开发的真实项目,总结了基于 Apache Spark、Delta Lake、Kafka 等技术栈构建企业级数据中台的完整实践过程,涵盖架构...

16210

腾讯云TBDS在海量Iceberg的治理之路

腾讯QQ大数据

TBDS(Tencent Big Data Suite)是腾讯基于多年大数据实践构建的一站式、高性能、企业级大数据存储计算分析平台。该平台覆盖数据全生命周期,具...

34810

StarRocks 4.0:让 Apache Iceberg 数据真正 Query-Ready

StarRocks

在 Apache Iceberg 表中,数据的写入方式往往并未针对查询性能进行优化。持续不断的微批写入会产生成千上万个小文件;也很难做到让数据在写入后的第一时间...

20410

企业数据湖建设之路:自建还是上云?腾讯云DLC给出最优解

gavin1024

本文深入探讨企业数据湖建设的两种路径——自建与云托管,从成本、性能、运维等维度进行对比分析,并结合腾讯云数据湖计算DLC的实践案例,为企业的数据战略提供决策参考...

17410

数据爆炸时代,如何突破数据湖性能与扩展性瓶颈?

gavin1024

随着企业数据量指数级增长,传统数据湖在性能与扩展性上面临严峻挑战。本文深入分析数据湖的瓶颈根源,并结合腾讯云数据湖计算(DLC)的领先技术,探讨如何通过云原生架...

19610

解锁物联网时序数据价值,腾讯云数据湖计算助力企业精准决策

gavin1024

面对物联网时序数据的多重挑战,腾讯云原生智能数据湖提供了全方位解决方案。该方案包含数据湖存储、算力调度、大数据分析、AI能力、数据应用和云上基础服务六个层级,形...

19410

数据湖如何成为AI特征工程与模型训练的基石?腾讯云DLC入选Gartner指南揭示未来趋势

gavin1024

数据湖作为AI时代的数据基础设施,正从"可选"变为"必选"。腾讯云数据湖计算DLC凭借其在Gartner报告中的突出表现和技术创新,为企业提供了特征工程与模型训...

17510

数据湖赋能金融业变革:风控精准化与营销智能化的新引擎

gavin1024

本文探讨了数据湖技术在金融行业风控与精准营销场景中的核心应用价值,分析了其如何通过统一数据底座解决传统数据孤岛、处理效率低下等痛点,并重点介绍了腾讯云数据湖计算...

20710

数据湖成本管控指南:如何精准监控资源消耗,避免成本溢出?

gavin1024

本文针对企业数据湖资源消耗监控与成本管控难题,深入解析成本溢出的关键原因,提出以腾讯云数据湖计算DLC为核心的解决方案。通过介绍其Serverless架构、按量...

17210

数据湖计算成本优化全攻略:企业如何节省50%数据分析成本?

gavin1024

15510

相关产品

  • 数据湖

    数据湖是一个集中式存储池,可对接多种数据源,无缝对接各种计算分析和机器学习平台

领券