首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

最新大厂数据湖面试题,知识点总结(上万字建议收藏)

如何确保数据的定义、业务规则的一致性? 数据湖的理念很好,但是它现在还缺乏像数据仓库那样,有一整套方法论为基础,有一系列具有可操作性的工具和生态为支撑。...缺乏建模的方法论和工具:在数据湖中,似乎每一项工作都得从头开始,因为以前的项目产生的数据几乎没有办法重用。...数据湖是开放、自助式的(self-service):开放数据给所有人使用,数据团队更多是提供工具、环境供各业务团队使用(不过集中式的维度表建设还是需要的),业务团队进行开发、分析。...八、数据湖挑战 从传统集中式的数仓转为开放式的数据湖,并不简单,会碰到许多问题 数据发现:如何帮助用户发现数据、了解有哪些数据? 数据安全:如果管理数据的权限和安全?...因为一些数据是敏感的、或者不应直接开放给所有人的(比如电话号码、地址等) 数据管理:多个团队使用数据,如何共享数据成果(比如画像、特征、指标),避免重复开发 这也是目前各大互联网公司都在改进的方向!

1.2K21

通用数据湖仓一体架构正当时

• 昂贵的引入和数据准备:虽然数据仓库为可变数据提供了合并功能,但对于上游数据库或流数据的快速增量数据引入,它们的性能很差。...数以千计同时使用数据湖和数据仓库的组织可以通过采用此架构获得以下好处: 统一数据 通用数据湖仓一体体系结构使用数据湖仓一体作为组织云帐户中的事实来源,并以开源格式存储数据。...首先它专为可变数据而设计,可快速摄取来自变更数据捕获 (CDC)、流数据和其他来源的更新。其次它打开了一扇门,将工作负载从大型臃肿的批处理转移到增量模型,以提高速度和效率。...这有助于处理棘手的写入模式,例如在青铜层引入期间的随机写入,以及利用更改流以增量方式更新银牌表,而无需一次又一次地重新处理青铜层。...它通过简单的目录集成实现了跨主要湖仓一体表格式(Apache Hudi、Apache Iceberg 和 Delta Lake)的互操作性,允许跨计算引擎自由设置数据,并以不同格式构建下游黄金层。

27310
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    对话Apache Hudi VP,洞悉数据湖的过去现在和未来

    具体地说,云数仓现在是黄金时间,它们与以前的仓库有完全不同的体系结构,它们使存储和计算分离,然后可以使用云存储来水平扩展,这样它们听起来就像是数据湖。...Q3:既然您提到Uber,您能给我更多有关Uber的数据仓库或Uber的数据基础架构的背景信息吗?...如今这些现有的数据湖、数据仓库产品已经解决了这些问题吗? VC:我们需要事务、更新和删除等功能,以便我们快速将数据从上游数据库中提取到仓库中。...我要说的第三点,实际上是Hudi目标的核心,作为一个项目我们要思考的要比我们做的要远得多,我们必须想一想如何从流处理中学习并让我们的批处理作业更多,如增量运行无需过多处理,因为任何时候您都会遇到围绕数据新鲜度或查询性能的类似瓶颈...VC:如果他们正在执行批处理查询,例如,如果您只是查询表的快照,那么他们通常不必真正关心它是Hudi还是Delta Lake或其他任何格式,甚至是Hive,他们通常只是简单地感兴趣:"查询速度更快,数据正确

    76020

    数据湖和数据仓库 - 了解其中的差异

    ETL过程会尽职地发出错误报告,生成日志,并将错误记录发送到异常文件和表在以后的日子。 由于这种刚性以及它们的工作方式,数据仓库支持部分或增量ETL。...正如David Loshin所写的:“数据湖的想法是提供原始格式的原始数据,直到需要时为止。”数据处于休眠状态,除非有人或某物需要它。 在访问数据湖时,用户确定: 他们需要的具体数据类型和来源。...他们需要派生的分析类型。 所有这些都可能在数据仓库中吗?可能不会。即使可能,在一段时间内实现这些目标的可能性并不大,特别是在当今瞬息万变的环境中。除此之外,一个特定的模式几乎肯定不适合每一个业务需求。...因此,它可以为用户和下游应用程序提供无模式数据;也就是说,无论来源如何,都是类似于“自然”或原始格式的数据。 虽然陪审团仍然没有,但如果不是大多数数据湖应用程序不支持部分或增量加载。...把数据集市或数据仓库想象成一个充满瓶装水的仓库。这些案件不是一夜之间神奇地出现的。人和机器收集和净化水。包装完成后,才有人购买和饮用。 相比之下,把数据湖想象成一大堆天然水,只有当你渴死时才会喝水。

    61720

    开放表格式的历史和演变 - 第二部分

    所以问题是: 如果不可变日志可以存储表示始终真实事实的事件,从而在 Apache Kafka 等系统中有效地捕获应用程序状态随时间的变化,那么我们难道不能应用相同的基本原则来管理表元数据的状态吗?...构建一个简单的面向日志的表 让我们做一个快速的实践练习,以了解我们如何设计新的表格格式来捕获和组织日志文件中的元数据。...一种专注于新数据和更新数据的增量方法是必要的,但 HDFS 的不变性带来了挑战。...意识到对 Hive 的增量改进是不够的,这推动了新解决方案的开发,它通过更改表设计,通过将表指向有序文件列表来跟踪文件级别的表中的数据。...从本质上讲,数据湖仓一体使组织能够将数据湖存储视为传统数据仓库,反之亦然。

    12010

    计算引擎之下,存储之上 - 数据湖初探

    一、数据湖的角色和定位 随着移动互联网,物联网技术的发展,数据的应用逐渐从 BI 报表可视化往机器学习、预测分析等方向发展,即 BI 到 AI 的转变。...下表展示了数据仓库和数据湖在各个维度上的特性: ? 相比于数据仓库,数据湖会保留最原始的数据,并且是读取时确定 Schema,这样可以在业务发生变化时能灵活调整。...,包括流处理和批处理:SPARK,FLINK 简单的说,数据湖技术是计算引擎和底层存储格式之间的一种数据组织格式,用来定义数据、元数据的组织方式。...,让实时数据湖变得水到渠成; 流批操作可以共享同一张表; 版本概念,可以随时回溯,避免一次误操作或者代码逻辑而无法恢复的灾难性后果。...五、总结 下表从各个维度,总结了三大数据湖框架支持的特性。 ? 如果用一个比喻来说明delta、iceberg、hudi、三者差异的话,可以把三个项目比做建房子。

    1.7K40

    实时方案之数据湖探究调研笔记

    什么是数据湖 数据湖是目前比较热的一个概念,许多企业都在构建或者计划构建自己的数据湖。...但是在计划构建数据湖之前,搞清楚什么是数据湖,明确一个数据湖项目的基本组成,进而设计数据湖的基本架构,对于数据湖的构建至关重要。关于什么是数据湖?有不同的定义。...微软的定义就更加模糊了,并没有明确给出什么是Data Lake,而是取巧的将数据湖的功能作为定义,数据湖包括一切使得开发者、数据科学家、分析师能更简单的存储、处理数据的能力,这些能力使得用户可以存储任意规模...数据湖需要能支撑各种各样的数据源,并能从相关的数据源中获取全量/增量数据;然后规范存储。数据湖能将数据分析处理的结果推送到合适的存储引擎中,满足不同的应用访问需求。...2、Hudi Hudi 是什么 一般来说,我们会将大量数据存储到HDFS/S3,新数据增量写入,而旧数据鲜有改动,特别是在经过数据清洗,放入数据仓库的场景。

    82431

    数据湖框架之技术选型-Hudi、Delta Lake、Iceberg和Paimon

    二、大数据为什么需要数据湖 当前基于Hive的离线数据仓库已经非常成熟,在传统的离线数据仓库中对记录级别的数据进行更新是非常麻烦的,需要对待更新的数据所属的整个分区,甚至是整个表进行全面覆盖才行,由于离线数仓多级逐层加工的架构设计...三、数据湖与数据仓库的区别 数据仓库与数据湖主要的区别在于如下两点: 存储数据类型 数据仓库是存储数据,进行建模,存储的是结构化数据;数据湖以其本源格式保存大量原始数据,包括结构化的、半结构化的和非结构化的数据...,数据湖好像是一种存储数据的格式,正如Delta Lake的介绍是一种 开源存储框架。...这些工具通常使用一种或多种文件格式来存储数据,但它们更多地是针对数据湖中的数据管理和处理进行了优化,提供了更好的数据管理、查询性能、一致性保障等功能。...以下是对这些工具的简要介绍: Apache Hudi:Hudi是一种用于增量数据处理的开源数据湖工具,它支持数据的更新、插入、删除等操作,并提供了时间旅行(时间轴查询)等功能。

    7K03

    Lakehouse 特性对比 | Apache Hudi vs Delta Lake vs Apache Iceberg

    在您阅读时,请注意 Hudi 社区如何在湖存储格式之上投入巨资开发综合平台服务。虽然格式对于标准化和互操作性至关重要,但表/平台服务为您提供了一个强大的工具包,可以轻松开发和管理您的数据湖部署。...多模式索引 索引是数据库和数据仓库不可或缺的组成部分,但在数据湖中基本上不存在。...DeltaStreamer 是一个独立的实用程序,它允许您从各种来源(如 DFS、Kafka、数据库更改日志、S3 事件、JDBC 等)增量摄取上游更改。...单表最大数据量达到400PB+,日增量为PB级,总数据量达到EB级。” “吞吐量比较大。单表吞吐量超过100GB/s,单表需要PB级存储。数据模式很复杂。数据是高维和稀疏的。...“我们正在使用Apache Hudi从 Kafka 增量摄取变更日志,以创建数据湖表。Apache Hudi 是一个统一的数据湖平台,用于在数据湖上执行批处理和流处理。

    1.8K20

    从Snowflake看数据仓库未来演进方向:计算存储分离、弹性计算、统一存储和Serverless化

    InfoQ:大数据存储方向从去年到今年涌现了不少热门话题,比如数据湖、数据湖仓等等。在您看来,传统数仓和云数仓当前存在哪些需要改进的问题和局限?为什么需要数据湖、数据湖仓?...数据仓库和数据湖并没有严格的范式去定义,比较公认的概念为:数据湖是一个集中式的存储,允许以任意规模存储结构化和非结构化数据。...数据湖仓个人理解是使用一套技术去实现数据湖和数据仓库的能力,类似多模的概念。...数据湖从概念上讲更强调集中式存储、数据的原始特性,而数据仓库则是以结构化和半结构化数据为主。 InfoQ:未来数仓技术的发展趋势会是怎样的?...陈龙: 个人觉得未来大数据领域值得关注的技术方向有:Delta 技术,通过 Delta 技术可以实现历史数据更新和增量数据处理,同时支持 ACID 能力,可以大幅降低大数据分析的复杂度;另外是 OLAP

    1.3K20

    从Snowflake看数据仓库演进方向:计算存储分离、弹性计算、统一存储和Serverless化

    InfoQ:大数据存储方向从去年到今年涌现了不少热门话题,比如数据湖、数据湖仓等等。在您看来,传统数仓和云数仓当前存在哪些需要改进的问题和局限?为什么需要数据湖、数据湖仓?...数据仓库和数据湖并没有严格的范式去定义,比较公认的概念为:数据湖是一个集中式的存储,允许以任意规模存储结构化和非结构化数据。...数据湖仓个人理解是使用一套技术去实现数据湖和数据仓库的能力,类似多模的概念。...数据湖从概念上讲更强调集中式存储、数据的原始特性,而数据仓库则是以结构化和半结构化数据为主。 InfoQ:未来数仓技术的发展趋势会是怎样的?...陈龙: 个人觉得未来大数据领域值得关注的技术方向有:Delta 技术,通过 Delta 技术可以实现历史数据更新和增量数据处理,同时支持 ACID 能力,可以大幅降低大数据分析的复杂度;另外是 OLAP

    1.3K41

    【数据湖仓】数据湖和仓库:Databricks 和 Snowflake

    数据库类型功能是专门使用 Delta 文件格式开发的。 Delta 文件格式是一种将数据库优势带入数据湖世界的方法。除其他外,该格式提供数据模式版本控制和数据库类型 ACID 事务。...根据数据湖范式,文件格式本身是开放的,任何人都可以免费使用。...基于 Delta 格式和 Databricks 工具,该公司正在尝试为数据湖和数据仓库混合方法传播一种新颖的“Data Lakehouse”范式概念。...Snowflake 是一个借鉴数据湖范式的可扩展数据仓库 Snowflake 是专为云环境开发的可扩展数据仓库解决方案。 Snowflake 以专有文件格式将数据存储在云存储中。...正如上一篇博文中所讨论的,我们从它们的背景范式的角度专门研究了它们。 我们注意到 Snowflake 在数据仓库领域有基础,而 Databricks 更面向数据湖。

    2.6K10

    基于 Flink+Iceberg 构建企业级实时数据湖

    有一波人站在湖的入口,用设备在检测水质,这对应着数据湖上的流处理作业;有一批抽水机从湖里面抽水,这对应着数据湖的批处理作业;还有一批人在船头钓鱼或者在岸上捕鱼,这对应着数据科学家从数据湖中通过机器学习的手段来提取数据价值...; 第四个特点是灵活的底层存储,一般用 ds3、oss、hdfs 这种廉价的分布式文件系统,采用特定的文件格式和缓存,满足对应场景的数据分析需求。...那么我们可以再新起一个 Flink 作业从 Apache Iceberg 表中消费增量数据,经过处理之后写入到提纯之后的 Iceberg 表中。...此时,可能还有业务需要对数据做进一步的聚合,那么我们继续在iceberg 表上启动增量 Flink 作业,将聚合之后的数据结果写入到聚合表中。...有人会想,这个场景好像通过 Flink+Hive 也能实现。 Flink+Hive 的确可以实现,但写入到 Hive 的数据更多地是为了实现数仓的数据分析,而不是为了做增量拉取。

    2.3K23

    数据仓库与数据湖与湖仓一体:概述及比较

    数据湖灵活、耐用且经济高效,使组织能够从非结构化数据中获得高级洞察,这与处理这种格式数据的数据仓库不同。...3.3 数据湖表格式 数据湖表格式非常有吸引力,因为它们是数据湖上的数据库。与表相同,一种数据湖表格式将分布式文件捆绑到一个很难管理的表中。...它们是上述其中一种开源数据湖文件格式,可优化列存储并高度压缩,数据湖表格式允许直接从数据湖中高效地查询数据,不需要进行转换。数据湖表格式是数据湖文件格式的引擎。...点击图片可查看完整电子表格 "湖仓一体与数据仓库与数据湖"仍然是一个持续的话题。选择哪种大数据存储架构最终取决于您正在处理的数据类型、数据源以及利益相关者将如何使用数据。...这是一个令人兴奋的前景,尤其是人工智能带来的可能性,我们迫不及待地想看看数据仓库、湖泊和湖屋在未来几年将如何发展。

    3.2K10

    降本百万!Notion 基于Apache Hudi构建LakeHouse

    Blocks 面临的挑战是它们所代表的数据规模:Notion 的数据倍增率为六个月到一年。这是令人震惊的,特别是考虑到 200 亿区块的起点。表 1 显示了增长率。...新的基础设施将数据从 Postgres 摄取到 Debezium CDC,该数据通过 Kafka 传输,然后馈送到 Hudi 以针对 Hudi 数据集进行批量增量更新,最后推送到下游到 Apache Spark...利用 Notion AI 推动 Hudi 之上的产品创新 Nathan 在 Notion 专注于数据湖生态系统和人工智能基础设施(特别是人工智能嵌入),他解释了通用数据湖架构如何解锁新的创新:问答人工智能...• 在线:这些是通过 Kafka 广播的增量更新,用于处理新的块编辑并在写入时将它们发送到矢量数据库。 然而正如托马斯已经多次提到的那样,Notion 有大量的文档和块,因此也有大量的数据。...这包括从扩展数据库系统和发明(然后重新发明)数据湖架构,到基于这些创新实现新的和以前不可行的产品功能的一切。

    19010

    Apache Hudi - 我们需要的开放数据湖仓一体平台

    • Hudi 是一个开放数据湖仓一体平台。开放表格式是必不可少的,但我们需要开放计算服务来实现无锁定的数据架构。将 Hudi 最小化为表格格式是一种不准确且不公平的表征。...Hudi 如何融入开放数据湖仓一体 最近向互操作性和兼容性的转变只是强调了一种“格式谬误”,即我们在生活中所需要的只是简单地就某些数据格式达成一致。...供应商不应该这样做吗?诚实的回答是,当我们第一次在 Uber 上线时,我不希望我们的工程师手动调整 4000+ 张表。...开放是第一原则,但我们的技术愿景始终是为主流数据仓库和数据湖(现在融合成一个数据湖仓一体)“增量化数据处理”[3],拥有强大的新存储层和内置的数据管理。...这是对数据仓库/数据湖 ETL 的根本性重新思考,可以缓解成本或数据延迟问题。即使你现在不“关心”成本,为什么在“少即是多”的情况下多做? 让我们重新审视增量数据处理的概念。

    28610

    Apache Hudi 背后商业公司Onehouse宣布2500万美元A轮融资

    在此期间,我们还与 100 多家组织就其数据湖和数据仓库挑战进行了接触。在下面的部分中,我们分享了它们如何帮助塑造我们的路线图,以及行业趋势和我们对云数据基础架构的长期愿景。...垂直整合是错误的选择 几乎一致的是,用户对从一个垂直技术堆栈转移到另一个垂直技术堆栈持谨慎态度。这些用户中的许多人在几年前才从本地数据仓库迁移到云数据仓库,现在正面临一些关键的业务问题。...批量数据处理有更好的选择 虽然使用开放表格式来扩展大型不可变表的元数据的想法在去年获得了很多关注,但这仅仅触及了像 Apache Hudi 这样的技术可以带来多大变革的皮毛。...当时由于陷入批处理数据处理,我们 Uber 的梦想是将可变事务数据流近乎实时地增量处理到数据湖。如今,Apache Hudi 用户可以在任何云提供商上使用几条命令轻松完成此操作[6]。...Hudi 通过围绕索引、合并读取存储格式、异步表服务、可扩展元数据、非阻塞并发控制以及对变更数据捕获的内置支持进行创新来实现这一目标,这些问题优化了所有需要可变性的用例。

    59130

    BDCC- 数据湖体系

    ---- 数据湖 vs 数据仓库 vs Lakehouse 数据仓库和数据湖的结合形成了 Lakehouse, 数据仓库和流结合形成了 Streaming Warehouse 数据仓库、数据湖、流三者结合可能是下一个需要进一步延伸和研究的方向...Hudi是一个用于大数据处理的开源库,支持增量数据处理和实时数据流处理。 Iceberg是一个开源表格式,旨在解决Apache Hive表的限制。...⑥ 统一批流处理 数据架构无需在批处理和流式中区分,它们都以相同的表视图对外暴露,复杂性更低,速度更快。无论是从流还是批处理中读取都能获取一致的数据快照。...(2)数据湖表格式-社区活跃度 Delta Lake、Apache Iceberg 和 Apache Hudi 是目前最突出的开源数据湖 Table Format 产品。...---- (3)数据湖表格式-读写特性 数据湖表格式在读写上需要关心的几个点: 一是增量查询(Incremental Query),它在构建流数仓或批数仓时是一个非常重要的特性。

    60630

    抛弃Hadoop,数据湖才能重获新生

    SQL 查询不再是传统数据库或者数据仓库的独门秘籍。 在解决了分布式查询的问题之后,下一个问题是,对于存储于数据湖中的数据,很多是非结构化的和半结构化的,如何对它们进行有效地组织和查询呢?...Databricks 是立足于数据湖,进行了向数据仓库方向的演化,提出了湖仓一体的理念;而 Snowflake 在创建之初就是为了提供现代版的数据仓库,近些年来也开始引入数据湖的概念,但本质上说它提供的还是一个数据仓库...因此,Databricks 通过 Delta Lake 提供的表结构和 Spark 提供的计算引擎,构建了一套完整的基于数据湖的 OLAP 解决方案。...换句话说,Hadoop 和数据湖的关系是互补的,在可预见的未来,随着数据湖继续流行,Hadoop 还将继续存在。 然而,数据湖会抛弃 Hadoop 转而支持其他技术吗?...现阶段比较成熟的在数据湖之上提供表结构的开源产品是 Delta Lake、Iceberg 和 Hudi。对这三款产品 OSA 研发团队做了一些预研和实验。

    1.2K10

    我们为什么在 Databricks 和 Snowflake 间选型前者?

    强大的数据版本控制功能:确保特定文件和表的版本不会在高级建模中发生更改,能记录数据湖中所有的历史交易,可轻松访问和使用历史版本数据。...-- Bill Inmon,“构建湖仓一体” 解决方案:湖仓一体 数据仓库的主要优点在于 ACID、版本管理和优化等,而数据湖的主要优点是存储代价低、支持异构数据格式等。...尽管 Snowflake 这类“云原生”数据仓库支持以数据湖格式(开放数据格式)读取外部表,也实现了湖仓一体方法,但是: Snowflake 数据的主要来源是自身的内部数据,存储成本更高。...图 3 DeNexus 数据平台结构图 Databricks 如何满足需求 支持不同类型用户的数据访问:要使用 SQL 访问数据,必须有人去处理原始数据,并做结构化处理。...强大的数据版本控制:Databricks 原生支持 DELTA 格式。Delta Lake 是完全兼容 ACID 的,这就解决了 Spark 的 不兼容 ACID 这一主要问题。

    1.6K10
    领券