首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

学了1年大数据,来测测你大数据技术掌握程度?大数据综合复习之面试题15问(思维导图+问答库)

协处理器指的是Hbase提供了一些开发接口,可以自定义开发一些功能集成到Hbase中 类似于Hive中的UDF 协处理器分为两类 Observer:观察者类,类似于监听器的实现 Endpoint...ack,就使用重试机制,重新发送上一条消息,直到收到ack 问题6:Kafka中生产者的数据分区规则是什么,如何自定义分区规则?...3、Driver启动后向ResourceManager申请Executor内存 4、ResourceManager接到ApplicationMaster的资源申请后会分配container,然后在合适的...以上面试题出自之前发布的Spark专栏 Spark专栏链接 问题11:flink中的水印机制? 1、首先什么是Watermaker?...15:flink on yarn执行任务的两种方式 第一种yarn seesion(Start a long-running Flink cluster on YARN) 这种方式需要先启动集群,然后在提交作业

37530
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    PB级海量数据服务平台架构设计实践

    预计算可以使用Spark计算集群,每天通过控制计算所需资源进行大规模ETL处理。 ETL处理,迫切需要一个简单、轻量的ETL作业调度系统,可以从开源产品中甄选。...消息中间件,我们选择使用RabbitMQ。...被调度运行的任务会发送到RabbitMQ中,然后等待任务协调计算平台消费并运行任务,这时作业调度平台只需要等待任务运行完成的结果消息到达,然后对作业和任务的状态进行更新,根据实际状态确定下一次调度的任务...Master负责控制从RabbitMQ中拉取任务消息,然后根据Worker节点的资源状况进行任务的协调和调度,并将Worker上作业完成的信息发送到RabbitMQ,供上游业务作业调度平台消费从而控制更新作业的运行状态...Spark REST服务网关:对于需要对HDFS上指定数据集处理,生成需要的结果数据,使用Spark开发程序,同时将Spark计算作业封装成REST风格接口调用。

    2.2K60

    Flink Back Pressure

    Backpressure 消息处理速度 消息的发送速度,消息拥堵,系统运行不畅。如何处理这种情况? a. 可以去掉这些元素,但是,对于许多流应用程序来说,数据丢失是不可接受的。 b....如果采样(samples)显示任务线程卡在某个内部方法调用中,则表示该任务存在背压。 默认情况下,JobManager 每50ms为每个任务触发100个堆栈跟踪,来确定背压。...Web 显示 在 Flink WebUI 的作业界面中可以看到 Back Pressure 选项页面。 采样中 表示 JobManager 对正在运行的任务触发堆栈跟踪采样。...而且需要对每个 Spark Streaming 作业进行压测预估,成本比较高。...从1.5版本开始引入了 back pressure,实现自动调节数据的传输速率,其监听所有作业的 onBatchCompleted 事件,并且基于 processingDelay、schedulingDelay

    77110

    Flink Back Pressure(背压)是怎么实现的?有什么绝妙之处?

    如果 Source 发送数据的速度在某个时刻达到了峰值,每秒生成的数据达到了双倍,下游的处理能力不变: ? 消息处理速度 消息的发送速度,消息拥堵,系统运行不畅。如何处理这种情况? a....将拥堵的消息缓存起来,并告知消息发送者减缓消息发送的速度。消息缓存应该是持久的,因为在发生故障的情况下,需要重放这些数据以防止数据丢失。 ?...如果采样(samples)显示任务线程卡在某个内部方法调用中,则表示该任务存在背压。 默认情况下,JobManager 每50ms为每个任务触发100个堆栈跟踪,来确定背压。...Web 显示 在 Flink WebUI 的作业界面中可以看到 Back Pressure 选项页面。 采样中 表示 JobManager 对正在运行的任务触发堆栈跟踪采样。...从1.5版本开始引入了 back pressure,实现自动调节数据的传输速率,其监听所有作业的 onBatchCompleted 事件,并且基于 processingDelay、schedulingDelay

    3.5K20

    Flink Back Pressure

    Backpressure 消息处理速度 消息的发送速度,消息拥堵,系统运行不畅。如何处理这种情况? a. 可以去掉这些元素,但是,对于许多流应用程序来说,数据丢失是不可接受的。 b....如果采样(samples)显示任务线程卡在某个内部方法调用中,则表示该任务存在背压。 默认情况下,JobManager 每50ms为每个任务触发100个堆栈跟踪,来确定背压。...Web 显示 在 Flink WebUI 的作业界面中可以看到 Back Pressure 选项页面。 采样中 表示 JobManager 对正在运行的任务触发堆栈跟踪采样。...而且需要对每个 Spark Streaming 作业进行压测预估,成本比较高。...从1.5版本开始引入了 back pressure,实现自动调节数据的传输速率,其监听所有作业的 onBatchCompleted 事件,并且基于 processingDelay、schedulingDelay

    1.5K20

    「EMR 开发指南」之 Hue 配置工作流

    概述 本文将通过一个简单,并且具有典型代表的例子,描述如何使用EMR产品中的Hue组件创建工作流,并使该工作流每天定时执行。...创建Spark类型作业 在创建Spark作业前,请确认EMR实例中已经部署了Spark组件,否则作业将执行失败; 具体步骤如下: 1)将要执行的Spark作业可执行文件存放至HDFS中;在本例子中,我们将...手动触发Workflow运行 具体步骤如下: 1)选择将运行的Workflow, 点击Submit按钮: 2)配置Workflow中作业需要的参数。...(2)展示了当前正在执行的作业的执行进度;(3)是产科作业执行日志的链接 4)查看作业执行结果: 定时触发Workflow执行 使用Hue控制台,我们很方便配置定时执行的Workflow。...3)配置Workflow中作业需要的参数,通常这些参数包含HDFS上数据路径,以时间作为分区参数: 在我们的工作流的作业中,定义了两个变量,这里需要配置对应的变量值。

    21720

    浅谈RabbitMQ的基石—高级消息队列协议(AMQP)

    前言 自从去年做了不少流式系统(Flink也好,Spark Streaming也好)对接RabbitMQ的实时作业。之前一直都在Kafka的领域里摸爬滚打,对RabbitMQ只是有浅薄的了解而已。...也就是说,搞清楚AMQP是掌握好RabbitMQ哲学的基础。 当前AMQP的最新版本为1.0,而主要使用的(也是RabbitMQ实现的)版本为0-9-1。...交换器 交换器在AMQP实体中负责消息路由。它的路由目的地除了由用户设置的绑定规则来决定之外,还与交换器的类型有关。AMQP定义了几种默认的交换器。...):是否在所有消费者取消订阅之后被删除; 扩展参数(arguments):如队列缓存长度、消息TTL等。...在队列中的消息投递出去之后,消费者需要告诉代理节点自己是否收到了它,因此会涉及消息确认(ack)的问题。

    1.9K30

    腾讯云EMR使用说明: 配置工作流

    概述 本文将通过一个简单,并且具有典型代表的例子,描述如何使用EMR产品中的Hue组件创建工作流,并使该工作流每天定时执行。 2....包的Main Class名称;(3)填写可执行程序所需参数,注意参数顺序与程序参数顺序一致;(4)填写可执行程序在HDFS中的路径;(5)填写Spark任务所需参数,本例中填写的为--master yarn...在我们的例子中,只有MapReduce类型作业需要2个参数。...,通常这些参数包含HDFS上数据路径,以时间作为分区参数; [22.png] 在我们的工作流的作业中,定义了两个变量,这里需要配置对应的变量值。...结束 本文通过一个例子,展现如何使用EMR产品创建工作流。 参考文献: EMR产品说明文档 HUE user guide

    12.3K3624

    EMR入门学习之Hue上创建工作流(十一)

    前言 本文将通过一个简单,并且具有典型代表的例子,描述如何使用EMR产品中的Hue组件创建工作流,并使该工作流每天定时执行。...作为例子,上述四个作业直接并无数据相互依赖。...创建spark类型作业 在创建Spark作业前,请确认EMR实例中已经部署了Spark组件,否则作业将执行失败; 将要执行的Spark作业可执行文件存放至HDFS中;在本例子中,我们将Spark作业可执行文件存放在...中的路径;4处填写Spark任务所需参数 点击右上角保存按钮,保存作业配置,至此,我们为hello-workflow 增加了Spark类型作业。...三、运行Workflow 手动触发Workflow运行 选择将运行的Workflow, 点击Submit按钮 image.png 定时触发Workflow执行 使用Hue控制台,我们很方便配置定时执行的

    1.6K20

    独孤九剑-Spark面试80连击(下)

    以下示例代码使用 SQL 别名为 CTOF 来注册我们的转换 UDF,然后在 SQL 查询使用它来转换每个城市的温度。...如果我们不想修改 Apache Spark 的源代码,对于需要超过22个输出参数的应用程序我们可以使用数组或结构作为参数来解决这个问题,如果你发现自己用了 UDF6 或者更高 UDF 类你可以考虑这样操作...在 Spark Shell 提交计算搜狗日志行数代码的时候,所在机器作为客户端启动应用程序,然后向 Master 注册应用程序,由 Master 通知 Worker 节点启动 Executor,Executor...介绍一下 Spark 通信的启动方式 Spark 启动过程主要是 Master 与 Worker 之间的通信,首先由 Worker 节点向 Master 发送注册消息,然后 Master 处理完毕后,返回注册成功消息或失败消息...未完成作业的重新形成: 由于失败而没有处理完成的批处理,将使用恢复的元数据再次产生 RDD 和对应的作业 读取保存在日志中的块数据: 在这些作业执行的时候,块数据直接从预写日志中读出,这将恢复在日志中可靠地保存所有必要的数据

    1.1K40

    独孤九剑-Spark面试80连击(下)

    以下示例代码使用 SQL 别名为 CTOF 来注册我们的转换 UDF,然后在 SQL 查询使用它来转换每个城市的温度。...如果我们不想修改 Apache Spark 的源代码,对于需要超过22个输出参数的应用程序我们可以使用数组或结构作为参数来解决这个问题,如果你发现自己用了 UDF6 或者更高 UDF 类你可以考虑这样操作...在 Spark Shell 提交计算搜狗日志行数代码的时候,所在机器作为客户端启动应用程序,然后向 Master 注册应用程序,由 Master 通知 Worker 节点启动 Executor,Executor...介绍一下 Spark 通信的启动方式 Spark 启动过程主要是 Master 与 Worker 之间的通信,首先由 Worker 节点向 Master 发送注册消息,然后 Master 处理完毕后,返回注册成功消息或失败消息...未完成作业的重新形成: 由于失败而没有处理完成的批处理,将使用恢复的元数据再次产生 RDD 和对应的作业 读取保存在日志中的块数据: 在这些作业执行的时候,块数据直接从预写日志中读出,这将恢复在日志中可靠地保存所有必要的数据

    88520

    独孤九剑-Spark面试80连击(下)

    以下示例代码使用 SQL 别名为 CTOF 来注册我们的转换 UDF,然后在 SQL 查询使用它来转换每个城市的温度。...如果我们不想修改 Apache Spark 的源代码,对于需要超过22个输出参数的应用程序我们可以使用数组或结构作为参数来解决这个问题,如果你发现自己用了 UDF6 或者更高 UDF 类你可以考虑这样操作...在 Spark Shell 提交计算搜狗日志行数代码的时候,所在机器作为客户端启动应用程序,然后向 Master 注册应用程序,由 Master 通知 Worker 节点启动 Executor,Executor...介绍一下 Spark 通信的启动方式 Spark 启动过程主要是 Master 与 Worker 之间的通信,首先由 Worker 节点向 Master 发送注册消息,然后 Master 处理完毕后,返回注册成功消息或失败消息...未完成作业的重新形成: 由于失败而没有处理完成的批处理,将使用恢复的元数据再次产生 RDD 和对应的作业 读取保存在日志中的块数据: 在这些作业执行的时候,块数据直接从预写日志中读出,这将恢复在日志中可靠地保存所有必要的数据

    1.4K11

    Flink面试题持续更新【2023-07-21】

    Spark Streaming的状态更新通常会有一定的延迟,并且依赖于批处理间隔的触发机制。...这意味着每条消息至少会被处理一次,但可能会被重复处理。 Spark Streaming使用源码日志(WAL)机制来保证消息的可靠性。数据被写入日志中,当任务失败时,可以从日志中恢复丢失的数据批次。...Flink重启策略 Flink提供了多种重启策略,用于控制作业在发生故障时如何重新启动。...Flink中海量key如何去重 在 Flink 中,处理海量 key 的去重可以通过不同的方法实现: 借助 Redis 的 Set: 将 key 作为元素存储在 Redis 的 Set 中,利用...将 key 存储在布隆过滤器中,然后在处理每个 key 时,通过布隆过滤器快速判断是否为重复 key。

    8110

    Yelp 的 Spark 数据血缘建设实践!

    对于每一对这样的对,我们向 Kafka 发送一条消息,包括源和目标的标识符,以及其他必要的元数据。然后这些消息从 Kafka 传输到 Redshift 中的专用表。...另一方面,在 Redshift 中存储数据非常持久且易于查询以用于分析目的。在 Yelp,我们每天大约有数千个批次,平均每个作业发出大约 10 条消息。...Spark-Lineage 然后使用 ETL 工具插件从 Redshift 表中读取并为用户提供服务。...客户端实现 Spark ETL 作业的表示:作为表示 Spark ETL 作业的第一步,创建一个名为“Spark ETL”的新域。...一旦域可用,就会在数据治理平台中创建唯一链接(用于 spark ETL 作业),作业名称作为标识符。

    1.4K20

    Spark系列——作业原理详解

    2.划 分 调 度 阶 段 spark是资源调度是粗粒度的,我们这里不讨论资源申请,当我们提交一个任务之后(此时资源应该都是在集群中申请好了),Spark首先会对我们的作业任务划分调度阶段,而这个调度阶段的划分是由...3.提 交 调 度 阶 段 前面我们提到了JobSubmitted消息,那么这个消息实际上会触发 DAGScheduler 的 handleJobSubmitted 方法,首先该方法会在生成 finalStage...的同时建立起所有调度阶段的依赖关系(至于怎么建立的,我们后面慢慢深入),然后通过 fmalStage 生成一个作业实例ActiveJob,然后在submitStage(finalStage)开始提交作业...在作业提交调度阶段开始时,在 submitStage 方法中调用 getMissingParentStages 方法获取finalStage 父调度阶段,如果不存在父调度阶段,则使用 submitMissingTasks...(2) 如果任务是 ResultTask , 判断该作业是否完成,如果完成,则标记该作业已经完成,清除作业依赖的资源并发送消息给系统监听总线告知作业执行完毕。

    38620

    Spark源码分析-Spark-on-K8S任务调度

    toc 概述 从整个spark作业执行流程来看,作业调度分为: stage划分和调度 stage内的task调度 由于stage的划分和调度是spark作业逻辑层面上的事,不涉及到物理集群资源,我们不需要关心...无论是yarn还是k8s,作为计算资源提供方,我们关注的是对他们提供的底层计算资源的分配(Executor)和使用(Task)。...总结下,spark k8s调度模块要做的事情: 根据作业配置维护一定数量的Executor(Pod) 在Executor资源足够的情况下,发起Task调度 任务调度模块设计 整个调度系统采用"发布-订阅...在onNewSnapshots方法中主要针对deleted、failed、succeeded以及inactive状态的pod进行处理: i. removeExecutorFromSpark:从driver...续:Task调度流程 任务在driver中从诞生到最终发送的过程,主要有一下几个步骤: DAGScheduler对作业计算链按照shuffle依赖划分多个stage,提交一个stage根据个stage的一些信息创建多个

    88440

    订单服务以及优惠券服务及rabbitmq(7)-1024电商平台项目技术选择和创 建聚合工程项目【工业级PaaS云平台+SpringCloudAlibaba+JDK11综合项目实战】

    ,作为容器主机IP的别名,并且将显示在容器的bash中 -e 参数 RABBITMQ_DEFAULT_USER 用户名 RABBITMQ_DEFAULT_PASS 密码 主要端口介绍 4369...消息有哪几种情况成为死信 消费者拒收消息**(basic.reject/ basic.nack)**,并且没有重新入队 requeue=false 消息在队列中未被消费,且超过队列或者消息本身的过期时间...Consumer 进行消费,该消息即定时消息 使用场景 通过消息触发一些定时任务,比如在某一固定时间点向用户发送提醒消息 用户登录之后5分钟给用户做分类推送、用户多少天未登录给用户做召回推送;...消息生产和消费有时间窗口要求:比如在天猫电商交易中超时未支付关闭订单的场景,在订单创建时会发送一条 延时消息。...添加和删除AMQP,因为它可以只针对抽象层来开发 总之就是提高我们的框架整合消息队列的效率,SpringBoot为更方便开发RabbitMQ推出了starter, 我们使用 spring-boot-starter-amqp

    1.6K20

    如何指定Spark1作业中Driver和Executor使用指定范围内端口

    在前面Fayson介绍了《如何指定Spark2作业中Driver和Executor使用指定范围内端口》,本篇文章Fayson主要介绍如何指定Spark1作业中Driver和Executor使用指定范围内的端口进行通讯...这里的10000端口主要是用来监听Executor的请求,在Executor起来的时候需要与Driver通信并获取具体任务信息,是Driver使用的管理段调用端口。...2.查看Spark作业的运行界面查看Driver和Executor使用的端口号 ?...4.总结 ---- 1.spark.driver.port的10000端口是用来监听来自executor的请求,在executor起来的时候需要与driver通信并获取具体的任务信息,是driver使用的管理调度用端口...4.在Spark运行中,blockManager将不会和YARN交互,而driver是会和YARN中运行的Application Master进程交互。

    2.2K60
    领券