首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

教你如何轻松配置Spark历史日志服务器JobHistoryServer?

默认情况下,Spark程序运行完毕关闭窗口之后,就无法再查看运行记录的Web UI(4040)了,但通过 HistoryServer 可以提供一个服务, 通过读取日志文件, 使得我们可以在程序运行结束后...---- 1.进入到spark安装目录下的conf文件夹 cd /export/servers/spark/conf 2.修改配置文件名称 vim spark-defaults.conf spark.eventLog.enabled...spark.history.retainedApplications=30指定保存Application历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数...xsync spark-env.sh 5.重启集群 /export/servers/spark/sbin/stop-all.sh /export/servers/spark/sbin/start-all.sh...6.在master上启动日志服务器 /export/servers/spark/sbin/start-history-server.sh 7.运行一个计算PI的实例程序 bin/spark-submit

2K41

Spark快速入门系列(5) | Spark环境搭建—standalone(2) 配置历史日志服务器

默认情况下,Spark程序运行完毕关闭窗口之后,就无法再查看运行记录的Web UI(4040)了,但通过 HistoryServer 可以提供一个服务, 通过读取日志文件, 使得我们可以在程序运行结束后...在 Spark-shell 没有退出之前, 我们是可以看到正在执行的任务的日志情况:http://hadoop102:4040....但是退出 Spark-shell 之后, 执行的所有任务记录全部丢失. 所以需要配置任务的历史服务器, 方便在任何需要的时候去查看日志. 一....分发配置文件 // 可依次操作 也可分发 xsync spark-defaults.conf xsync spark-env.sh 4. 启动历史服务 // 1....启动任务, 查看历史服务器 bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://hadoop002

1.2K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    助人就是助己:IBM宣布大规模资助开源大数据项目Spark

    Spark同样也提供大数据处理与分析能力。如果说Hadoop胜在规模的话,那么Spark就胜在速度。...与Hadoop获得的资助相比,对Spark的支持还很不够。 正是在此背景下IBM宣布了对Spark的大规模资助。...蓝色巨人将投入超过3500名开发者到Spark相关项目,为项目提供机器学习技术,并将Spark嵌入到IBM的数据分析和商用软件中,同时还会把Spark作为服务在它的Bluemix开发平台上提供出来。...为了鼓励基于Spark的创新,IBM还将在旧金山设立一个Spark技术中心。IBM还将把自己的一个研究项目SystemML开源。...回顾过去,正是由于IBM的出手才让若干关键技术得到了普及,比如说1980年代IBM对PC的投入,2000年代对Linux的投入均加速了相关技术成为主流的进程

    65740

    大数据基础系列之spark的监控体系介绍

    2,spark的historyServer 只要应用程序的事件日志存在,仍然可以通过Spark历史记录服务器构建应用程序的UI。通过执行下面的命令,启动历史服务器: ....当使用文件系统提供程序类(请参见下面的spark.history.provider)时,基本日志记录目录必须在spark.history.fs.logDirectory配置选项中提供,并且应包含每个表示应用程序事件日志的子目录...目前仅仅只有当前一个实现,spark默认自带的,会从系统文件中查找程序日志 spark.history.fs.logDirectory file:/tmp/spark-events 应用日志存储的位置,...spark.history.ui.port 18080 历史服务器端口。 这里只配置了常用的,还有更多配置请参考官网。...3),worker:Standalone模式下的worker进程。 4),executor:spark的Executor。 5),driver:spark的diver进程

    2.5K50

    Python大数据之PySpark(四)SparkBase&Core

    spark-env.sh中增加YARN_CONF_DIR的配置目录 2-修改Yan-site.xml配置,管理内存检查,历史日志服务器等其他操作 修改配置文件 3-需要配置历史日志服务器 需要实现功能...:提交到Yarn的Job可以查看19888的历史日志服务器可以跳转到18080的日志服务器上 因为19888端口无法查看具体spark的executor后driver的信息,所以搭建历史日志服务器跳转...知道yarn的位置 2-更改yarn的配置,这里需要开启历史日志服务器和管理内存检查 3-整合Spark历史日志服务器和Hadoop的历史日志服务器,效果:通过8088的yarn的http://node1...需要在日志服务器上查看,演示 实验: SPARK_HOME=/export/server/spark {SPARK_HOME}/bin/spark-submit –master spark://node1...端运行用户定义的Python函数或Lambda表达****式,则需要为每个Task单独启一个Python进程,通过socket通信方式将Python函数或Lambda表达式发给Python进程执行。

    49240

    解决spark日志清理问题

    spark日志分类 spark日志都有那些: 1.event(history) 2.work 3.executor 解决方法 方案1 一开始为了快速实现日志清理,选择了脚本自动清理,写了shell脚本便于清理历史文件...,但是会有很多细节甚至有些文件不能删除(由于进程占用),这里不做详细介绍了。...方案2 spark配置来解决这几个问题 conf文件下面的两个文件中修改配置: 1.解决executor(work目录) 日志太大的问题,修改spark-defaut.conf # 日志循环复写的策略(...hourly 2.解决历史日志问题spark-env.sh 文件添加 历史日志清洗参数配置 export SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory...比如spark3.0 才支持history日志循环写。另外yarn模式和standalone 也有很多不同,需要区别处理。

    2.1K20

    Python大数据之PySpark(二)PySpark安装

    中或pyspark中,会开启4040的端口webui展示,但是一旦交互式命令行退出了,wenui无法访问了,需要具备Spark历史日志服务器可以查看历史提交的任务 角色分析 Master角色,管理节点..., 启动一个名为Master的进程, *Master进程有且仅有1个*(HA模式除外) Worker角色, 干活节点,启动一个名为 Worker的进程., Worker进程****最少1个, 最多不限制...配置主节点和从节点和历史日志服务器 workers 从节点列表 spark-default.conf spark框架启动默认的配置,这里可以将历史日志服务器是否开启,是否有压缩等写入该配置文件 2...配置文件 2-4 配置日志显示级别(省略) 测试 WebUi (1)Spark-shell bin/spark-shell --master spark://node1:7077 (2)pyspark...中,一个worker有很多executor(进程),一个executor下面有很多task(线程) bin/spark-submit \ --master spark://node1:7077 \ --

    2.2K30

    在 K8S 部署一个 Spark History Server - 篇1

    https://spark.apache.org/docs/2.3.0/monitoring.html 总体来说 start-history-server.sh,可以启动 HS 的进程。 ?...默认通过访问 18080 端口,就可以将 job 的历史信息(注意还包括 on-going,也就是正在运行的 job)。 Spark Job 需要打开两个配置。...spark.eventLog.enabled true spark.eventLog.dir hdfs://namenode/shared/spark-logs 为了在本地起一个 HS 的后台进程,我们可以下载.../examples/jars/spark-examples_2.11-2.2.0-k8s-0.5.0.jar \ 只要配置了 event log 的位置,日志就能看到以下信息。 ?...因为启动 HS 的进程需要 event log,现在有了,所以就能启动了。查看 18080 默认端口的页面。 ? 刚刚运行的 SparkPi 程序的 Job 在这里。 ?

    66941

    Dr.Elephant实战常见问题及解决方法

    启动失败并出现这个报错,一般是play框架的evolution问题,解决方法如下: 停止dr.elephant并确保进程已kill 删除原来的数据库并重新建库 配置app-conf/elephant.conf...MapReduceFSFetcherHadoop2:通过读取HDFS和YARN的配置文件,读取mapreduce.jobhistory.done-dir等相关配置,直接读取HDFS上YARN的历史作业信息日志...的历史日志 SparkFetcher:通过SHS REST API拉取spark的eventlogs,需要spark版本在 1.5.0 以上。...dr.elephant,则还需要注意spark是否开启了spark.eventLog.compress,导致产生的spark日志为snappy格式,使得dr.elephant无法识别。...同上Hadoop问题点,可能出现了延迟问题 SHS可能没有配好spark日志聚合,解决办法另行找SHS日志聚合资料,这里不再多说 以上是个人在实战中遇到的一些问题及解决方法,后续如果还有其他问题我也会及时更新

    1.9K30

    Spark Sreaming实战(二)-小试流式处理

    (Spark/MapReduce )的方式进行统计 1.2 实现步骤 课程编号、ip信息、useragent 进行相应的统计分析操作: MapReduce/Spark 1.3 项目架构 日志收集: Flume...离线分析: MapReduce/Spark 统计结果图形化展示 看起来很简单,没什么高深的,但是现在需求改了嘛,很正常的骚操作对不对!...实时流式计算:在不断产生的数据流上,进行实时计算 4 离线计算与实时计算对比 4.1 数据来源 离线:HDFS历史数据,数据量较大。...4.2 处理过程 离线:Map + Reduce 实时:Spark(DStream/SS) 4.3 处理速度 离线:速度慢 实时:快速拿到结果 4.4 进程角度 离线:启动 + 销毁进程 实时:...7 * 24小时进行统计,线程不停止 5 实时流处理架构与技术选型 Flume实时收集WebServer产生的日志 添加Kafka消息队列,进行流量消峰,防止Spark/Storm崩掉 处理完数据,持久化到

    32820

    2021年大数据Spark(六):环境搭建集群模式 Standalone

    :将Master进程和Worker进程在一台机器内运行。...2.完全分布式(测试开发用):将Master进程和Worker进程分开在不同的机器上运行,比如机器1运行Master进程,机器2机器3机器4运行Worker进程 3.高可用的完全分布式模式(企业生产环境有可能用...分配资源给每个应用,运行Task任务 从节点Workers: 管理每个机器的资源,分配对应的资源来运行Task; 每个从节点分配资源信息给Worker管理,资源信息包含内存Memory和CPU Cores核数 历史服务器...HistoryServer(可选): Spark Application运行完成以后,保存事件日志数据至HDFS,启动HistoryServer可以查看应用运行相关信息。 ​​​​​​​...-2.4.5-bin-hadoop2.7 /export/server/spark 启动服务进程 集群启动和停止 在主节点上启动spark集群 /export/server/spark/sbin/start-all.sh

    3.3K21

    一文读懂Hadoop、HBase、Hive、Spark分布式系统架构

    /sbin/hadoop-daemon.sh --script hdfs start namenode 如果正常启动,可以看到启动了相应的进程,并且logs目录下生成了相应的日志 然后启动datanode.../sbin/yarn-daemon.sh start resourcemanager 如果正常启动,可以看到启动了相应的进程,并且logs目录下生成了相应的日志 然后启动nodemanager,执行:.../sbin/yarn-daemon.sh start nodemanager 如果正常启动,可以看到启动了相应的进程,并且logs目录下生成了相应的日志 然后启动MapReduce JobHistory.../sbin/mr-jobhistory-daemon.sh start historyserver 如果正常启动,可以看到启动了相应的进程,并且logs目录下生成了相应的日志 下面我们看下web界面 打开...: 也可以通过 http://127.0.0.1:8088/cluster 看到任务历史 为什么两处都有历史呢?

    3K110

    从零开始 Spark 性能调优

    看了下任务的历史运行情况,平均时间 3h 左右,而且极其不稳定,偶尔还会报错: 1、优化思路 任务的运行时间跟什么有关?...一般不超过总队列 cores 的 25%,比如队列总 cores 400,最大不要超过100,最小不建议低于 40,除非日志量很小。 2) executor_cores 不宜为1!...否则 work 进程中线程数过少,一般 2~4 为宜。 3) executor_memory 一般 6~10g 为宜,最大不超过 20G,否则会导致 GC 代价过高,或资源浪费严重。...最终优化后的参数如下: 效果如下: (4)通过执行日志分析性能瓶颈 最后的任务还需要一个小时,那这一个小时究竟耗在哪了?...由于集群的 Spark History Server 还没安装调试好,没法通过 spark web UI 查看历史任务的可视化执行细节,所以我写了个小脚本分析了下前后具体的计算耗时信息,可以一目了然的看到是哪个

    51530

    【推荐系统】推荐业务架构介绍(一)

    通过flume将业务数据服务器A的日志收集到hadoop服务器hdfs的hive中 2.3.3 Supervisor进程管理 很方便的监听、启动、停止、重启一个或多个进程 使用 1、配置 supervisor...2.3.4 supervisor 启动监听flume收集日志程序 2.3.6 总结 用户行为日志收集的相关工作流程 flume收集到hive配置 supervisor进程管理工具使用 2.1 离线画像业务介绍...Spark初始化相关配置 合并三张表内容,到一张表当中,写入到HIVE中 article数据库:存放文章计算结果 article_data 建议初始化spark , SparkSessionBase...,temp合并文章频道名称 2.4.2 Tfidf计算 article_data 2.4.2.1 目的 2、所有历史文章Tfidf计算 2.4.2.2TFIDF模型的训练步骤 读取N篇文章数据...TFIDF值 tfidf_keywords_values:结果结果 用到idf_keywords_values这个表: 词以索引的对应关系 对于每篇文章的每个词的权重做排序筛选 3、所有历史文章

    1K20
    领券