Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >玄武(Xuanwu)给 白泽(Byzer) 插上云原生的翅膀

玄武(Xuanwu)给 白泽(Byzer) 插上云原生的翅膀

作者头像
用户2936994
发布于 2023-03-01 09:01:05
发布于 2023-03-01 09:01:05
33500
代码可运行
举报
文章被收录于专栏:祝威廉祝威廉
运行总次数:0
代码可运行

前言

之前我开发 Byzer-helm 的项目就觉得,要是 Kubernetes 上也有个类似 CDH 的管理工具就好了, 我可以通过界面的方式安装大数据/AI 类的应用。现在,这个产品有了,就是云原生数据底座玄武里的 Xuanwu Manager 。该工具未来会内置主流的大数据应用,用户也可以根据 Xuanwu Manager 的标准发布自己的应用。这样上面的租户/用户就可以一键启动已经发布的大数据应用了。

项目地址: GitHub - kyligence-xuanwu/document

接下来我们以 Byzer 为例,看看 Xuanwu 如何给 Byzer 插上云原生的翅膀。

玄武如何解决大数据在 Kubernetes 上的挑战

大数据体系的应用大部分都是分布式的,而且几乎必须支持的,然而分布式应用在 Kubernetes 上运行其实也面临挺多的问题。我们掰着手指一个一个来说说。

资源Gap计算

Kubernetes 因为良好的资源隔离能力,可以让分布式应用的运行性能更加稳定,加上 Remote Shuffle Service 加持,性能可以比在 Hadoop 里好个 20%,当然了,整体IT资源利用率也能得到 20% - 50% 的提升。不过这里面其实有个小细节,就是很多大数据应用都是基于 Java 开发的,声明的 JVM 内存(-Xmx)和实际容器限制的内存会有个Gap, 因为 JVM 以及应用都可能会用一些非堆内存,所以很容易被突然Killed掉。 Byzer 集成到玄武之后,其实就考虑了这个问题,默认给了一个较大的 Overhead, 通过玄武方便的模板能力,用户也可以在启动的时候按 instance 进行调整。

比如这里作为一个普通用户,我可以选择一个已经运行的应用,选择侧边的编辑按钮:

然后进行编辑,默认 Overhead 都设置为 0.4, 你根据实际需求修改:

保存后点击重启即可生效。该配置仅影响该租户下的应用。

Remote Shuffle Service 支持

以 Byzer 为例(基于Spark的应用),分布式计算最大的IO瓶颈其实是 Shuffle,如果不使用 Remote Shuffle Service, 那么会使用 Kubernetes 本地盘,但是直接使用Kubernetes 本地盘,不经过一些特殊的配置,无论存储大小,还是性能可能都是不匹配的,第二是如果在云上,还会因为IO太高导致应用被杀死。在 Xuanwu Manager 中,你可以在发布平台应用的时候直接配置 Remote Shuffle Service 地址,实现所有租户都默认支持 RSS。

当然,如果平台应用发布的时候默认不使用RSS, 你也可以在租户层面使用玄武生成的配置添加到自己的应用的启动参数里:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
spark:
  rss.master.address: 10.1.2.146:9097
  serializer: org.apache.spark.serializer.KryoSerializer
  rss.shuffle.writer.mode: hash
  rss.push.data.replicate: true
  shuffle.service.enabled: false
  sql.adaptive.localShuffleReader.enabled: false
  sql.adaptive.enabled: true
  sql.adaptive.skewJoin.enabled: true

这样就让 Byzer 集成了RSS 的能力。

监控/日志查看能力

Byzer-lang 运行起来其实仅仅是万里长征第一步。最重要的是,我们需要能够监控和查看 Byzer 的日志,指标等信息。 在 Xuanwu Manager 中,一旦某个租户把 Byzer-lang(各类Spark应用都是一样的) 运行起来后,你就可以在 任务管理 中看到对应的 Spark UI, 日志,指标监控。

通过这个页面你可以查看应用的大部分信息,帮助你排查和监控应用。比如Spark UI, Pod 信息,Log信息, Promethus信息等。传统如果用户自己搭建会其实是蛮有工作量的一件事情。

调度能力

我们知道 Kubernetes 其实主要是面向服务化应用。而传统大数据体系里,尽管现在也在越来越多的转型成服务,但依然有非常多的任务型的作业。这对 Kubernetes 的应用调度能力有较大的挑战,在吞吐,调度速度等方面都存在制约,此外,传统大数据还有租户的概念,方便按部门,组织进行资源的切分,而Kubernetes 原生的调度的控制是针对应用的,所以这里其实有蛮多不match的地方。 玄武为此开发了单独的调度器去满足这些大数据体系相关的需求,配合原生的 Kubernetes,真正能够覆盖Web服务和大数据作业的需求。

比如在玄武中可以看到资源池和租户概念:

价值

用户安装完 Xuanwu Manager,就相当于有个 大数据应用的 App Store。 可以很轻松组件起一个服务于用户场景的大数据应用 Pipeline。 比如通过三次点击分别安装Apache Kylin, Byzer-lang, Byzer Notebook 用户其实就已经可以打开 Web 就开始 ETL/AI, 数据分析和BI相关的工作了,极致的简单高效。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-02-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
腾讯云大数据 X Uniffle:重新定义Data+AI效能
海量数据的分布式处理与高效训练已成为企业构建竞争力的关键。传统大数据架构在应对超过一般数仓体量的数据处理和机器学习(ML)任务时,常因数据Shuffle性能瓶颈、资源利用率低、扩展性不足等问题,导致训练周期长、成本高、迭代效率低下,成为企业智能化升级的瓶颈。
腾讯QQ大数据
2025/04/13
1150
腾讯云大数据 X Uniffle:重新定义Data+AI效能
批流统一计算引擎的动力源泉—Flink Shuffle机制的重构与优化
本文讲述的shuffle概念范围如下图虚线框所示,从上游算子产出数据到下游算子消费数据的全部流程,基本可以划分成三个子模块:
王知无-import_bigdata
2019/06/02
4.4K0
Firestorm - 腾讯自研Remote Shuffle Service在Spark云原生场景的实践
图片来源:pexels 背景 Firestorm Shuffle是分布式计算框架用来衔接上下游任务的数据重分布过程,在分布式计算中所有涉及到数据上下游衔接的过程都可以理解为shuffle。针对不同的分布式框架,shuffle有几种实现形态: 基于文件的pull based shuffle,如MapReduce、Spark。这种shuffle方式多用于类MR的框架,比如MapReduce、Spark,它的特点是具有较高的容错性,适合较大规模的批处理作业。由于实现的是基于文件的shuffle方案,因此失败
腾讯大数据
2021/11/19
3.3K0
腾讯云大数据 TBDS 在私有化场景万节点集群的实践
作者 | 杨鹏程 策划 | 凌敏 4 月 15 日 -16 日,由 InfoQ 主办的 DIVE 全球基础软件创新大会 通过云上展厅的形式成功召开。在 腾讯云基础软件创新实践专场,来自腾讯云的 TBDS 大数据引擎研发负责人杨鹏程带来了主题为《腾讯云⼤数据 TBDS 在私有化场景万节点集群的实践》的演讲,以下为主要内容。 本次分享主要分为三个部分展开:第一部分是 Hadoop 体系下存算⼀体存在的问题;第二部分是 TBDS 存算分离架构和三层优化;第三部分是云原⽣环境下计算引擎优化和最佳实践,最后是对本次分
深度学习与Python
2023/03/29
1.1K0
腾讯云大数据 TBDS 在私有化场景万节点集群的实践
解构吞噬世界的云原生:概念、炒作背后的理念与技术
MegaEase创始人、酷壳博主陈皓老师高屋建瓴地解释了云原生产生、发展的历史背景,他指出,企业平台化(云原生)架构具备以下几个优势:
TVP官方团队
2020/03/23
2.5K0
Apache Kyuubi & Celeborn (Incubating) 助力 Spark 拥抱云原生
在过去数年中,网易在大数据云原生领域进行了长足的探索。本文围绕如何基于 Apache Kyuubi & Celeborn 等开源技术,构建企业级 Spark on Kubernetes 云原生离线计算平台展开,包含技术选型、架构设计、经验教训、缺陷改进、降本增效等内容,深入剖析网易在该领域的探索成果。
-穆-
2023/10/12
9530
Apache Kyuubi & Celeborn (Incubating) 助力 Spark 拥抱云原生
揭秘| 大数据计算引擎性能及稳定性提升神器!
本文讨论了京东Spark计算引擎研发团队关于自主研发并落地Remote Shuffle Service,助力京东大促场景的探索和实践。近年来,大数据技术在各行业的应用越来越广泛,Spark自UCBerkeley的AMP实验室诞生到如今3.0版本的发布,已有十年之久,俨然已经成为大数据计算领域名副其实的老将。虽然经过不断的迭代和优化,Spark功能日趋成熟与完善,但在性能及稳定性方面,仍然还有很多可以提升的地方。Shuffle过程作为MapReduce编程模型的性能瓶颈,就是其中的重点。我们希望在京东超大规模数据体量及复杂业务场景的背景下,通过自研并落地Remote Shuffle Service服务,解决External Shuffle Service中存在的现有问题,打造稳定高效的JDSpark计算引擎,助力京东大促过程中的一些应用实践,能够给大家提供一些思路和启发,同时也欢迎大家多多交流,给我们提出宝贵建议。
京东技术
2021/02/25
1.2K0
揭秘| 大数据计算引擎性能及稳定性提升神器!
Zeppelin: 让大数据插上机器学习的翅膀
导语:在数字化、智能化的时代,通过机器学习(Machine Learning)能够强有力的补充 Hadoop 大数据系统的数据处理能力,充分挖掘大数据的核心价值,一款好的算法开发平台能够让企业事半功倍,快速的进行算法实验和生产使用,Apache Zeppelin 就是这样一个兼具了 Hadoop 大数据处理和 机器学习/深度学习算法交互式开发的开源系统。
Fayson
2019/06/28
2.5K0
Zeppelin: 让大数据插上机器学习的翅膀
轻量级云原生大数据平台"CloudEon"正式开源
随着云原生技术的发展,越来越多的业务场景需要使用容器来部署和管理应用程序,而Kubernetes作为容器编排平台的事实标准,自然也受到了越来越多的关注和使用。
CloudEon开源
2023/04/30
1.3K0
轻量级云原生大数据平台"CloudEon"正式开源
云原生架构下复杂工作负载混合调度的思考与实践
10月25日,第一届中国云计算基础架构开发者大会在长沙召开,星环科技与众多国内外厂商共同就“云原生”、“安全与容错”和“管理与优化”等云计算领域话题进行了深入交流和探讨。星环科技容器云研发工程师关于"基于Kubernetes的复杂工作负载混合调度器思考与实践"相关内容进行了分享,本文是对会议上内容的整理。
CNCF
2020/11/09
1.2K0
云原生架构下复杂工作负载混合调度的思考与实践
SparkSQL执行时参数优化
近期接手了不少大数据表任务调度补数据的工作,补数时发现资源消耗异常的大且运行速度却不怎么给力.
星哥玩云
2022/08/17
1.5K0
Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望
简介: 阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析,为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展,同时预测了Spark 3.0即将重磅发布的新功能。
王知无-import_bigdata
2019/08/09
1.4K0
Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望
如何使用开源 Byzer 和 JuiceFS 做实时Nginx日志分析
运维领域常见的方案是使用 ELK 全家桶, 通过 Logstash 收集,直接写入 ElasticSearch, 配合web插件 Kibana 完成交互分析部分。
用户2936994
2022/07/21
6440
如何使用开源 Byzer 和 JuiceFS 做实时Nginx日志分析
Flink Remote Shuffle 开源:面向流批一体与云原生的 Shuffle 服务
Flink Remote Shuffle 的提出与实现,源自我们观察到的用户对流批一体与云原生日益增加的需求。
857技术社区
2022/05/17
6980
Flink Remote Shuffle 开源:面向流批一体与云原生的 Shuffle 服务
理想汽车 x JuiceFS:从 Hadoop 到云原生的演进与思考
第一个时期: 2006 年到 2008 年。2008 年左右,Hadoop 成为了 Apache 顶级项目,并正式发布了 1.0 版本,它的基础主要是基于谷歌的三驾马车,GFS、MapReduce、BigTable 去定义的。
Juicedata
2022/09/23
1.1K0
理想汽车 x JuiceFS:从 Hadoop 到云原生的演进与思考
Apache Kyuubi(Incubating):网易对Serverless Spark的探索与实践
在 Apache 首次亚洲线上技术峰会 --ApacheCon Asia 大会上,网易数帆大数据专家,Apache Kyuubi PPMC,Apache Spark / Submarine Committer 燕青(Kent Yao)分享了 Apache Kyuubi 孵化器项目(注:下文中出现的 Apache Kyuubi/Kyuubi 等缩写均指代 Apache Kyuubi 孵化器项目)以及 Serverless Spark 在网易的实践和探索。Kyuubi 是网易数帆大数据团队开源的项目,在各位导师
深度学习与Python
2023/04/01
5580
Apache Kyuubi(Incubating):网易对Serverless Spark的探索与实践
Spark+Celeborn:更快,更稳,更弹性
Apache Spark 是广为流行的大数据处理引擎,它有很多使用场景: Spark SQL、批处理、流处理、MLLIB、GraphX 等。在所有组件下是统一的 RDD 抽象,RDD 血缘通过两种依赖关系描述,窄依赖和宽依赖。其中宽依赖是支撑复杂算子(Join, Agg 等)的关键,而宽依赖实现机制就是 Shuffle。
Spark学习技巧
2024/01/22
1.2K0
Spark+Celeborn:更快,更稳,更弹性
QCon大会实录:PB级数据秒级分析-腾讯云原生湖仓DLC架构揭秘
导语 ‍‍‍‍文章整理了全球软件开发大会QCon《PB级数据秒级分析-腾讯云原生湖仓DLC架构揭秘》。大数据基于海量数据的分析,硬件、存储、计算资源尽量都可以用廉价的资源完成,如何在廉价资源上进行性能优化尤为重要。大数据是一种IO密集型负载,性能优化也首先着眼于IO优化。 ‍‍‍‍ 开篇:云提供了便利的按需使用方式,最佳实践非常重要 主持人:过去几年,数据湖能力已经在腾讯内部包括微信视频号、小程序等多个业务大规模落地,数据规模达到 PB 至 EB 级别,在此基础上,腾讯自研业务也启动了云原生湖仓能力建设
腾讯云大数据
2022/08/26
7670
QCon大会实录:PB级数据秒级分析-腾讯云原生湖仓DLC架构揭秘
传统大数据平台如何进行云原生化改造
作者 | 宋文欣   以 Hadoop 为中心的大数据生态系统从 2006 年开源以来,一直是大部分公司构建大数据平台的选择,但这种传统选择随着人们的深入使用,出现的问题也越来越多,比如:数据开发迭代速度不够快、集群资源利用效率过低、新的开发工具集成非常复杂等。这些问题已经成为困扰企业数字化转型加速迭代和升级的主要障碍。 而传统大数据平台通常是以 Hadoop 为中心的大数据生态技术。一个 Hadoop 集群包含 HDFS 分布式文件系统和以 Yarn 为调度系统的 MapReduce 计算框架。围绕 H
深度学习与Python
2023/03/29
1.1K0
传统大数据平台如何进行云原生化改造
Firestorm 0.2.0发布:首个支持混合存储的开源Remote Shuffle Service
01 背景 Firestorm自2021年11月上线开源 0.1.0 版本后,该项目受到了业界的广泛关注。 Firestorm是为了加速分布式计算引擎能上云的重要组件,同时也能解决在大Shuffle场景下,计算任务由于Shuffle过程异常而导致的任务失败。(更详细的背景可以参考此文[Firestorm - 腾讯自研Remote Shuffle Service在Spark云原生场景的实践]) 目前Firestorm迎来了0.2.0 版本的正式发布,而Firestorm也成为了第一个支持混合存储的开源Re
腾讯大数据
2022/02/15
1.4K0
推荐阅读
相关推荐
腾讯云大数据 X Uniffle:重新定义Data+AI效能
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验