前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Netflix数据管道的变化历程

Netflix数据管道的变化历程

作者头像
大数据文摘
发布于 2018-05-24 02:24:07
发布于 2018-05-24 02:24:07
5920
举报
文章被收录于专栏:大数据文摘大数据文摘

CSDN授权转载 作者:Real-Time Data Infrastructure Team 译者:刘旭坤

去年12月我们的Keystone数据管道正式投入使用,本文我们就来讲讲这些年Netflix数据管道的变化历程。

数据是Netflix的中心,很多的商业决策和产品设计都是依据数据分析而做出的决定。在Netflix,数据管道的目的是对数据进行收集归纳和处理,几乎我们所有的应用都会用到数据管道。下面我们先来看看有关Netflix数据管道的一些统计数据:

  • 每天约5000亿个事件,1.3PB的数据
  • 高峰时段约每秒800万个事件,24GB数据

我们用另外的Atlas系统来管理运营相关的数据所以它并没有出现在上面的列表中。

由于需求的变化和技术的进步,过去几年我们的数据管道发生了很大的改变。下面我们就来介绍一下。

V1.0 Chukwa数据管道

最初数据管道唯一的目的就是把事件信息上传到Hadoop/Hive。如下图中所示,整个架构是比较简单的。Chukwa收集事件信息并将sequencefile写入亚马逊S3,之后大数据平台部门会进一步处理并写入Hive。从事件发生到以Parquet格式写入Hive整个过程不超过十分钟,对于每小时甚至每天才运行一次的batch job来说已经足够了。

V1.5 能够进行实时处理的Chukwa数据管道

随着Kafka和Elasticsearch等技术的发展,公司内部对于实时分析的需求愈加强烈,我们必须保证处理所需时间在一分钟之内。

除了将数据写入S3,Chukwa还可以将数据发送到Kafka,新的实时分支(虚线框住的部分)处理的事件大约占到总事件的30%。处于实时处理分支中心位置的是事件路由模块,它负责将数据从Kafka传递到Elasticsearch和下一级Kafka(进行数据的筛选)。终端用户可以自由选择趁手的工具进行分析,比如Mantis、Spark或其他定制工具。

Elasticsearch在Netflix的应用过去两年经历了爆炸式的发展,现在共有约150个集群和约3500个节点,总数据量约1.3PB,而这其中大部分数据都是通过我们的数据管道采集处理的。

数据路由的部分是由我所在的小组管理的,下面是一些我们碰到过的问题:

  • Kafka high level consumer会丧失消息分区的所有权并停止读取一些分区,唯一的解决办法是重启。
  • 有时部署代码之后high level consumer在rebalance时会出错。
  • 我们有几十个集群用于事件路由,运营上的开销正持续增长,所以对于路由job的管理还要想个更好的办法。

V2.0 Keystone数据管道

我们决心对V1.5的数据管道进行调整是基于下面三个方面的考量。

  • 简化架构。
  • 提升系统可靠性(Chukwa不支持冗余)。
  • Kafka社区较活跃后劲足。

架构中一共有三部分主要的模块:

  • 数据收集-有两种方式。
    1. 直接写入Kafka。
    2. 通过HTTP代理写入Kafka。
  • 数据缓存-使用Kafka来实现持久化消息队列
  • 数据路由-与V1.5中作用相同。

Keystone数据管道已经在生产环境中平稳运行了几个月,不过我们还在进行质量、扩展性、可用性和自动化方面的提升。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【数据架构】Netflix 万亿级实时数据基础架构的四个创新阶段
我叫徐振中。我于 2015 年加入 Netflix,担任实时数据基础架构团队的创始工程师,后来领导了流处理引擎团队。我在 2010 年代初对实时数据产生了兴趣,从那时起我就相信还有很多价值有待发掘。
架构师研究会
2022/05/17
6760
【数据架构】Netflix 万亿级实时数据基础架构的四个创新阶段
大数据采集架构
一般来说,当在Hadoop集群上,有足够数据处理的时候,通常会有很多生产数据的服务器。这些服务器的数量上百甚至成千上万。小的数据还可以直接从应用程序写入HDFS,但庞大数量的服务器试着将海量数据直接写入HDFS或者HBase集群,会因为多种原因导致重大问题。
全栈程序员站长
2022/07/05
8740
大数据采集架构
Apache下流处理项目巡览
我们的产品需要对来自不同数据源的大数据进行采集,从数据源的多样化以及处理数据的低延迟与可伸缩角度考虑,需要选择适合项目的大数据流处理平台。 我最初列出的候选平台包括Flume、Flink、Kafka Streaming以及Spark Streaming。然而对产品架构而言,这个技术选型的决策可谓举足轻重,倘若选择不当,可能会导致较大的修改成本,须得慎之又慎。 我除了在项目中曾经使用过Flume、Kafka以及Spark Streaming之外,对其余平台并不甚了解。即便是用过的这几个平台,也了解得比较
张逸
2018/03/07
2.6K0
Apache下流处理项目巡览
Kafka-简介与入门
作者介绍:简历上没有一个精通的运维工程师,下面的思维导图也是预计更新的内容和当前进度(不定时更新)。
运维小路
2025/06/07
1440
Kafka-简介与入门
07 Confluent_Kafka权威指南 第七章: 构建数据管道
当人们讨论使用apache kafka构建数据管道时,他们通常会应用如下几个示例,第一个就是构建一个数据管道,Apache Kafka是其中的终点。丽日,从kafka获取数据到s3或者从Mongodb获取数据到kafka。第二个用例涉及在两个不同的系统之间构建管道。但是使用kafka做为中介。一个例子就是先从twitter使用kafka发送数据到Elasticsearch,从twitter获取数据到kafka。然后从kafka写入到Elasticsearch。 我们在0.9版本之后在Apache kafka 中增加了kafka connect。是我们看到之后再linkerdin和其他大型公司都使用了kafka。我们注意到,在将kafka集成到数据管道中的时候,每个公司都必须解决的一些特定的挑战,因此我们决定向kafka 添加AP来解决其中的一些特定的挑战。而不是每个公司都需要从头开发。 kafka为数据管道提供的主要价值是它能够在管道的各个阶段之间充当一个非常大的,可靠的缓冲区,有效地解耦管道内数据的生产者和消费者。这种解耦,结合可靠性、安全性和效率,使kafka很适合大多数数据管道。
冬天里的懒猫
2020/08/04
3.7K0
Facebook、亚马逊是如何构建超集群数据库的
我们建立了Keen IO,是为了以让大多数软件工程团队无需从头架设所有内容,就可以利用最新的大型事件数据技术。但是,如果您对如何成为巨头公司感到好奇,那么请从最好的公司中收集一些架构。  Netflix   Netflix拥有9300万用户,没有交互缺陷。正如他们的工程团队在Netflix数据管道的演变中描述的那样,他们每天大约捕获5000亿个事件,每天大约有1.3PB的数据传输。在高峰时段,他们每秒将记录800万次事件。他们雇用了100多个数据工程师或分析师。   以下是上述文章中
BestSDK
2018/02/28
1.4K0
Facebook、亚马逊是如何构建超集群数据库的
全球100款大数据工具汇总
企鹅号小编
2017/12/29
1.5K0
全球100款大数据工具汇总
巨无霸们的数据架构大比拼:Facebook Amazon NetFlix Airbnb的海量数据如何记录分析
大数据文摘作品,转载要求见文末 作者 | Michelle Wetzler 编译 | 璐、颖子 全球最好的数据架构长什么样? 我们认为使用事件数据的公司会有很强的竞争优势。这一点在世界领先的科技公司中似乎都得到了证明。脸书、亚马逊、Airbnb,Pinterest和Netflix公司的数据工程师团队一直令人称奇。他们的工作为软件和商务的认知设定了新准则。 因为他们的产品被广泛的使用,这些团队必须不断重新定义大规模数据分析。他们在数据架构上已经投入数以百万计的资金,并且拥有比大多数公司的整个工程部门人数还多
大数据文摘
2018/05/24
1.1K0
大数据开源框架技术汇总
Hadoop:Apache Hadoop是一个开源的分布式系统基础框架,离线数据的分布式存储和计算的解决方案。Hadoop最早起源于Nutch,Nutch基于2003 年、2004年谷歌发表的两篇论文分布式文件系统GFS和分布式计算框架MapReduce的开源实现HDFS和MapReduce。2005年推出,2008年1月成为Apache顶级项目。Hadoop分布式文件系统(HDFS)是革命性的一大改进,它将服务器与普通硬盘驱动器结合,并将它们转变为能够由Java应用程序兼容并行IO的分布式存储系统。Hadoop作为数据分布式处理系统的典型代表,形了成完整的生态圈,已经成为事实上的大数据标准,开源大数据目前已经成为互联网企业的基础设施。Hadoop主要包含分布式存储HDFS、离线计算引擎MapRduce、资源调度Apache YARN三部分。Hadoop2.0引入了Apache YARN作为资源调度。Hadoop3.0以后的版本对MR做了大量优化,增加了基于内存计算模型,提高了计算效率。比较普及的稳定版本是2.x,目前最新版本为3.2.0。
Spark学习技巧
2021/03/05
2.2K0
Kafka 工作机制
Kafka 是 Apache 的子项目,是一个高性能跨语言的分布式发布/订阅消息队列系统(没有严格实现 JMS 规范的点对点模型,但可以实现其效果),在企业开发中有广泛的应用。高性能是其最大优势,劣势是消息的可靠性(丢失或重复),这个劣势是为了换取高性能,开发者可以以稍降低性能,来换取消息的可靠性。
IT技术小咖
2019/06/26
1.2K0
Kafka 工作机制
Java程序员,你一定需要了解的六款大数据采集平台
随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台:
全栈程序员站长
2022/09/06
1.7K0
Java程序员,你一定需要了解的六款大数据采集平台
在新的一年里,选个关注热度上升的大数据工具学习下吧
本文列举了大数据相关的部分热门项目,盘点了该生态圈目前流行的一些开源产品和工具,并用google热度趋势图体现了它们的受关注程度。从不同的热度趋势,可以了解到每一个产品在近5年来全球受关注的走势,是越来越受重视还是渐渐淡出。
用户5265382
2019/05/10
6560
印尼医疗龙头企业Halodoc的数据平台转型之路:数据平台V1.0
数据是每项技术业务的支柱,作为一个健康医疗技术平台,Halodoc 更是如此,用户可以通过以下方式与 Halodoc 交互:
ApacheHudi
2022/05/18
2.5K0
印尼医疗龙头企业Halodoc的数据平台转型之路:数据平台V1.0
深度好文:Netflix奈飞微服务架构设计解析
数年来,Netflix 一直是全球体验最好的在线订阅制视频流媒体服务,其流量占全球互联网带宽容量的 15%以上。 在过去的2019 年,Netflix 已经有 1.67 亿名订阅用户,平均每个季度新增 500 万订户,服务覆盖全球 200 多个国家 / 地区。
架构师修炼
2020/08/27
2K0
深度好文:Netflix奈飞微服务架构设计解析
大数据开发最火的核心技术-Kafka
大数据时代来临,如果你还不知道Kafka那你就真的out了!据统计,有三分之一的世界财富500强企业正在使用Kafka,包括所有TOP10旅游公司,7家TOP10银行,8家TOP10保险公司,9家TOP10电信公司等等。
加米谷大数据
2018/07/25
1.1K0
eBay是如何进行大数据集元数据发现的
很多大数据系统每天都会收集数PB的数据。这类系统通常主要用于查询给定时间范围内的原始数据记录,并使用了多个数据过滤器。但是,要发现或识别存在于这些大型数据集中的唯一属性可能很困难。
全栈程序员站长
2022/06/30
1.2K0
eBay是如何进行大数据集元数据发现的
大数据组件图谱
      HDFS Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
爱撸猫的杰
2020/03/25
3.8K0
大数据组件图谱
从Netflix到Walmart:开源Kafka的实际应用
以下案例研究展示了 Kafka 在四个关键领域的卓越表现:实时数据处理、消息传递、运营指标和日志聚合。
云云众生s
2025/03/06
1220
果断收藏!六大主流大数据采集平台架构分析
本文转自网络,如涉侵权请及时联系我们 大数据的应用速度超过此前人们的预期,现在新的一轮风口吹向了AI,对于交互设计来说,数据交互才是核心的竞争力,今日头条类型的公司现在招聘都要求熟知各种算法,了解学习数据算法要趁早。——阿西UED 随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台: Apache Flume Fluentd Logstash Chukwa Scribe Splunk Forwarder 大数据平台与数据采集 任何完整的大数据平台,一般包括以下的几个过程:
CDA数据分析师
2018/02/26
7.3K0
果断收藏!六大主流大数据采集平台架构分析
数据湖|Flink + Iceberg 全场景实时数仓的建设实践
摘要:Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构,以 Iceberg、Hudi、Delta 为代表的解决方案应运而生,Iceberg 目前支持 Flink 通过 DataStream API /Table API 将数据写入 Iceberg 的表,并提供对 Apache Flink 1.11.x 的集成支持。
大数据技术架构
2021/08/25
4.6K0
数据湖|Flink + Iceberg  全场景实时数仓的建设实践
推荐阅读
相关推荐
【数据架构】Netflix 万亿级实时数据基础架构的四个创新阶段
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档