首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >使用 Shell Operator + CRD 恢复被暂停的 Argo Workflow

使用 Shell Operator + CRD 恢复被暂停的 Argo Workflow

作者头像
崔秀龙
发布于 2024-07-26 10:57:40
发布于 2024-07-26 10:57:40
26900
代码可运行
举报
文章被收录于专栏:伪架构师伪架构师
运行总次数:0
代码可运行

上一篇讲到,使用 Kyverno 通过对特定标签的识别,让每个步骤进入自动暂停的状态,实现逐步骤运行。留了个尾巴,怎样才能快速的恢复被暂停步骤的运行?

TL;DR;

随便搞个 CRD,用 Shell Operator 监听,自动执行 kubectl exec 恢复目标步骤的运行。

Shell Operator 简介

简单来说,Shell Operator 是一个让用户能够使用脚本语言快速建立 Operator 的框架,能够非常方便的完成定时运行、启动运行、监听并响应 Kubernetes 对象和 CRD 等能力。

这篇文章会使用这一框架,从 CR 资源获取用户恢复运行指定步骤的意图,并完成恢复运行的操作。整个操作分为如下步骤:

  • 创建 CRD
  • 编写 Shell Operator
  • 运行测试

创建 CRD

要恢复一个被暂停的工作流步骤,其输入只需要工作流 ID 和被暂停步骤(Template)名称即可,制定如下 CRD:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
apiVersion: apiextensions.k8s.io/v1
kind: CustomResourceDefinition
metadata:
  name: resumes.argocontroller.io
spec:
  conversion:
    strategy: None
  group: argocontroller.io
  names:
    kind: Resume
    listKind: ResumeList
    plural: resumes
    singular: resume
  scope: Namespaced
  versions:
  - name: v1alpha1
    schema:
      openAPIV3Schema:
        properties:
          apiVersion:
            type: string
          kind:
            type: string
          metadata:
            type: object
          spec:
            properties:
              TemplateName:
                type: string
              Workflow-ID:
                type: string
            type: object
        type: object
    served: true
    storage: true

命名有点草率。

这个 CRD 中使用了 Workflow-IDTemplateName 两个字段,分别用来查找流程实例和被暂停的步骤。

编写 Shell Operator

一个 Shell Operator 通常分为几个部分:

  • 配置文件,用来指定触发时机,例如定时执行、启动执行和被 Kubenetes 对象操作触发。
  • Hook 脚本: 主体,用来执行指定功能。
  • Dockerfile: 继承 Flant 的 Shell Operator,用来构建运行镜像。
  • Kubernetes YML: 用来在 Kubernetes 中运行 Shell Operator。

配置文件

我们这里设置,监听前面的 CR argocontroller.io/resume 的创建动作,因此配置文件这样编写:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
configVersion: v1
kubernetes:
- apiVersion: argocontroller.io/v1alpha1
  kind: Resume
  executeHookOnEvent: ["Added"]

使用命令 kubectl create configmap hook-conf --from-file=config.yml 创建 Configmap 供后续脚本加载。

脚本

符合触发条件的 CR 一旦创建,就会被 Shell Operator 捕获,并保存到对应 Pod 的文件系统中,临时文件名保存在环境变量 BINDING_CONTEXT_PATH 里。

这里我们使用 Shell 脚本,处理环临时文件内容,查找 CR 包含的流程实例和模板名称。查找到流程实例之后,在其 status 节点查找 Pod 名称,最后执行恢复操作。脚本内容如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#!/bin/bashif [[ $1 == "--config" ]] ; then
  cat /conf/config.ymlelse
    jq -c '.[]' "$BINDING_CONTEXT_PATH" | while read -r item; do
        type=$(echo "$item" | jq -r '.type')        # 跳过无用元素
        if [ "$type" != "Event" ]; then
            continue
        fi
        # 查找流程 ID 和模板名称
        TEMPLATE_NAME=$(echo "$item" | jq -r '.object.spec.TemplateName')
        WORKFLOW_ID=$(echo "$item" | jq -r '.object.spec["Workflow-ID"]')        echo "tmpl=${TEMPLATE_NAME}  wfid=${WORKFLOW_ID}"
        FILENAME=/tmp/wf.json        # 获取工作流实例的 YAML
        kubectl get workflow ${WORKFLOW_ID} -o json > "${FILENAME}"
        # 查找 Pod 名称
        POD=$(jq -r ".status.nodes[] | select(.templateName == \"${TEMPLATE_NAME}\" and .type == "Pod") | .id" "${FILENAME}")        echo "pod=${POD}"
        kubectl exec -it ${POD} -- touch /proc/1/root/var/run/argo/ctr/main/after    donefi

Dockerfile

Dockerfile 很简单,只要把脚本设置为可执行,并加入到 /hooks 文件夹即可:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
FROM  ghcr.io/flant/shell-operator:latest
ADD wf-resume.sh /hooks

编写好之后,使用 Docker 构建镜像并推送:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
docker buildx build --platform linux/amd64,linux/arm64 --push \
    -t [image-name:image-tag] .

YAML

这里我们用一个 Pod YAML 来运行 Shell Operator:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
apiVersion: v1
kind: Pod
metadata:
  name: shell-operator-observe
spec:
  serviceAccountName: shell-operator
  containers:
    - name: shell-operator-observe
      image: [image-name:image-tag]
      volumeMounts:
        - name: config-volume
          mountPath: /conf
  volumes:
    - name: config-volume
      configMap:
        name: hook-conf

这里有两个需要注意的点:

  1. 监听或者修改 Kubernetes 对象是需要授权的,要针对 shell-operator 这个 Service Account 进行 RBAC 授权。
  2. 使用 Configmap 加载到镜像的 /conf 目录。

使用 kubectl 提交运行。

运行测试

运行前一片文章中使用的工作流,暂停之后,使用 kubectl get workflow,例如 pause-3141592654ft97,就可以创建如下 CR:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
{
  "apiVersion": "argocontroller.io/v1alpha1",
  "kind": "Resume",
  "metadata": {
    "name": "example-resume",
    "namespace": "default"
  },
  "spec": {
    "Workflow-ID": "pause-3141592654ft97",
    "TemplateName": "whalesay"
  }
}

提交集群后,可以看到,暂停状态取消,流程变为 Succeeded 状态。

调试

Shell Operator 在工作过程中难免会出现问题,我主要依赖的三板斧:

  1. 使用 kubectl logs 查看 Pod 日志。
  2. 进入 Operator Pod,修改脚本,重复触发
  3. 脚本中加入 echo 语句,或者保存 BINDING_CONTEXT_PATH 文件。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 伪架构师 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
介绍一个不太小的工具:Shell Operator
Shell Operator 是个冷僻又有点用的东西。这个工具的角度比较刁钻——使用的特定事件来触发 Shell 脚本。
崔秀龙
2020/11/10
8010
巧用 shell-operator 配置 K8s Pod 保护策略
本篇主要介绍第四点:巧用 Shell-operator 配置 K8s Pod 保护策略
SRE运维进阶之路
2024/04/23
1980
巧用 shell-operator 配置 K8s Pod 保护策略
使用 Argo Workflow 组织跨云运维的可能性
在微服务、容器化和 IaC 等概念普及之前,自动化通常是使用过程性操作进行的,例如摘流——升级——恢复的过程。为了运维方便,通常这些操作序列会由所谓的运维流程编排工具完成,例如 AWS 的 SSM Automation,或者阿里云的 OOS 等。随着运维自动化的要求逐步提高,这些工具的编排能力也逐步扩展,出现了插件扩展、循环、跳转等更复杂的行为,甚至还出现了人工审批等蜜汁操作。自动化的编排复杂度也不断延伸——AWS 公开的作业脚本中已经出现了超过 3000 行 50 个步骤的庞然大物。
崔秀龙
2024/05/06
8090
使用 Argo Workflow 组织跨云运维的可能性
Argo Workflows 中文快速指南·
Argo Workflows 是一个云原生的通用的工作流引擎。本教程主要介绍如何用其完成持续集成(Continous Integration, CI)任务。
LinuxSuRen
2023/02/27
6.8K0
Argo Workflows 中文快速指南·
Operator示例:通过Operator+CRD实现部署自动化
在上一篇通过Operator自动暴露集群内部服务中,遗留了一个问题:开发人员or业务上游是需要关注k8s内建资源,例如deployment如何定义,这和K8S自动化的目标背道而驰。 本篇文章将采用CRD(CustomResourceDefinition)来屏蔽底层K8S资源,让开发人员只需要按照我们制定的规则来定义CR即可。至于创建deployment,service,ingress等操作就可以交给Operator来完成,从而实现部署自动化。 而自动化就可以对接业务系统,使其实现业务价值。例如根据授权信息,创建租户购买的产品服务,当授权到期时,自动删除对应资源。
Yuyy
2024/01/22
1K0
Operator示例:通过Operator+CRD实现部署自动化
Argo Workflows-Kubernetes的工作流引擎
Argo Workflows是一个开源项目,为Kubernetes提供container-native工作流程,其主要通过Kubernetes CRD实现的。
YP小站
2021/04/07
4.3K1
Argo Workflows-Kubernetes的工作流引擎
Argo Workflows v3.3 发布 支持插件、多租户、调试模式
Argo Workflows v3.3 发布,支持插件、调试模式、多租户,修改默认执行器,引入新 Python SDK
我的小碗汤
2023/03/19
1.1K0
Argo Workflows v3.3 发布 支持插件、多租户、调试模式
使用argo构建云原生workflow
Argo Workflows是一个开源的容器本机工作流引擎,用于在Kubernetes上协调并行作业。Argo Workflows通过Kubernetes CRD(自定义资源定义)实现。
有点技术
2020/07/13
5.3K0
使用argo构建云原生workflow
在 Kubernetes 上使用 Argo 实现 CI/CD
持续集成和持续交付是一些人努力的目标。它让一切事物变得更简单。市面上有许多 CI/CD 工具,但是随着 Kubernetes 的日渐盛行,所有这些工具都需要做相应的调整。比如说Jenkins,这款非常成熟的 CI/CD 工具在全球范围内被广泛使用,但是这款工具缺乏创新并且感觉有点笨重。同样的话也适用于 Spinnaker。一款出色的企业解决方案拥有让工作深入开展下去的资源,但是让 CI/CD 工具以一种快速、整洁的方式升级不是一个理想的选择。还有其他的一些工具可以为更简单的工作流提供更多的支持。其中一个就是我们本文中将要介绍的 Argo。
LinuxSuRen
2020/08/11
4.2K0
利用 CRD 实现一个 mini-k8s-proxy
实现一个可以通过配置 host 拦截到匹配的请求域名,将流量代理转发到具体的 service 中(通过配置 serviceName,namespace,port,scheme)的极简网络代理工具。其中,配置通过 CRD 创建,代理程序可以通过控制器监听配置变化,动态更新,无需重启。(PS:其实就是简单模拟了 Traefik IngressRoute 的实现)
gopher云原生
2021/10/18
6580
使用 Argo Rollouts 实现应用渐进式发布
Argo Rollouts 是一个 Kubernetes Operator 实现,它为 Kubernetes 提供更加高级的部署能力,如蓝绿、金丝雀、金丝雀分析、实验和渐进式交付功能,为云原生应用和服务实现自动化、基于 GitOps 的逐步交付。
我是阳明
2023/09/25
1.9K0
使用 Argo Rollouts 实现应用渐进式发布
使用shell-operator实现Operator
在本文我们(Flant)将介绍简化 Kubernetes Operator 创建的方法,并展示如何使用 shell-operator 轻松实现自己的 Operator。本文基于我们在 KubeCon Europe 2020上的最新演讲,这是此演讲的完整视频[1]
CNCF
2020/09/22
4.4K0
使用shell-operator实现Operator
使用 Kyverno 定义 Kubernetes 策略
Kubernetes 的日常使用过程中,在对象提交给集群之前,我们会有很多机会,很多方法对资源的 Yaml 定义进行检查和处理。很多读者应该也会知道,资源提交之后,还有机会使用 Admission Controller 对资源动动手脚,这其中其实有很多可以提炼出来的标准动作,可以用统一的控制器来进行处理,Kyverno 就是这样一个工具。有了 Kyverno 的帮助,YAML 程序员可以根据条件对资源进行筛选,符合条件的资源可以:
崔秀龙
2019/07/22
1.2K0
使用 Shell-Operator,让 Pod 继承节点标签
前一段时间发了一篇 Shell Operator 的介绍,搓例子的时候,就想起个需求,我想把 Pod 所在节点上的特定标签复制给 Pod,例如机架、虚拟机节点所在的物理机等,都可以用标签的形式来表达,并可以用这些标签进行选择和统计等。
崔秀龙
2021/01/28
8290
Crossplane 实战:构建统一的云原生控制平面
Crossplane 是一个开源的 Kubernetes 扩展,其核心目标是将 Kubernetes 转化为一个通用的控制平面,使其能够管理和编排分布于 Kubernetes 集群内外的各种资源。通过扩展 Kubernetes 的功能,Crossplane 对 Kubernetes 集群外部的资源进行了抽象,允许用户使用 Kubernetes 的 API 来统一管理云服务(例如 AWS EC2, S3 等等)以及基础设施等资源。
Se7en258
2025/05/20
2320
Crossplane 实战:构建统一的云原生控制平面
CloudTTY:下一代云原生开源 Cloud Shell
大部分上了私有容器云的企业,开发人员希望能有执行 kubectl 命令的能力,但出于运维安全性的考虑,他们不能随意 SSH 登陆集群节点来执行命令行。
我的小碗汤
2023/03/19
4770
CloudTTY:下一代云原生开源 Cloud Shell
在K8s上弹性深度学习训练利器|Elastic Training Operator
由于云计算在资源成本和弹性扩容方面的天然优势,越来越多客户愿意在云上构建 AI 系统,而以容器、Kubernetes 为代表的云原生技术,已经成为释放云价值的最短路径, 在云上基于 Kubernetes 构建 AI 平台已经成为趋势。
CNCF
2021/03/15
1.6K0
在K8s上弹性深度学习训练利器|Elastic Training Operator
Kubernetes container-native workflow engine: Argo
Argo 是一个基于 Kubernetes CRD 实现的工作流引擎,为 Kubernetes 提供了 container-native 工作流,即每个工作流节点都是以容器为单位,跑一个任务。
CS实验室
2021/03/22
1.2K0
Kubernetes container-native workflow engine: Argo
kubernetes自定义资源对象高级功能
kubernetes自定义资源对象再极大程度提高了API Server的可扩展性,让企业能够根据业务需求通过CRD编写controller或者operator来实现生产中各种特殊场景。随着k8s的版本升级,CRD的功能也越来越完善,下面对其中几点进行说明。
我的小碗汤
2019/05/28
1.3K0
深入探究一下Kubernetes Operator Pattern,为CustomResourceDefinition使用贡献有效经验
Kubernetes让部署和无感知扩容变的异常简单。如果实操,基本上只需要在YAML文件中把相关联的应用的参数做下指定即可,然后提交给Kubernetes系统识别你的声明式指令,Kubernetes内建的状态循环机制就会自动的创建或者销毁相应资源,来把集群调整到我预设的状态上来,一切都如此轻松!
用户1413827
2024/03/13
1980
深入探究一下Kubernetes Operator Pattern,为CustomResourceDefinition使用贡献有效经验
相关推荐
介绍一个不太小的工具:Shell Operator
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档