Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Airflow Dag可视化管理编辑工具Airflow Console

Airflow Dag可视化管理编辑工具Airflow Console

作者头像
Ryan-Miao
发布于 2020-07-30 07:10:23
发布于 2020-07-30 07:10:23
4.3K10
代码可运行
举报
文章被收录于专栏:Ryan MiaoRyan Miao
运行总次数:0
代码可运行

Airflow Console: https://github.com/Ryan-Miao/airflow-console

Apache Airflow扩展组件, 可以辅助生成dag, 并存储到git仓库.

Airflow提供了基于python语法的dag任务管理,我们可以定制任务内容 和任务依赖. 但对于很多数据分析人员来说,操作还是过于复杂. 期望可以 通过简单的页面配置去管理dag. 即本项目提供了一个dag可视化配置管理方案.

如何使用

一些概念

DAG: Airflow原生的dag, 多个任务依赖组成的有向无环图, 一个任务依赖链。

Ext Dag: DAG扩展, DAG生成模板,通过页面配置Ext Dag可以一键生成DAG python配置。

Ext Dag Category: Airflow原生不提供分类的概念,但Console我们扩展了分类功能, 我们创建不同Dag模板可以分属于不同的DAG分类。

Ext Dag Task: Ext Dag的任务,真正任务的封装体,分为Operator和Sensor, 可以组装成Ext Dag.

1.创建业务分类.

我们的调度任务可以根据业务进行分类. 首先创建我们的业务类型.

2.创建dag

3.创建任务

点击task按钮进入task列表, 再点击add添加一个任务.

添加bash任务

添加hive sql任务

添加hive出库到mysql任务, 对应的插件为hive_to_rdbms_operator

4.配置任务依赖关系

Airflow提供了任务上下游依赖的管理方案,具体就是使用python的 >> 语法

a >> b 表示a的{{ds}}的任务执行完毕才可以执行b.

点击更新按钮保存依赖关系.

5.生成dag.py脚本

点击提交按钮, 生成python脚本预览.

确认没有问题后, 提交就可以将dag保存的git仓库. Airflow那边定时拉取git更新即可.

本地启动

通过docker-airflow

启动airflow, 暴露pg端口和webserver端口, docker-compose.yml

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
cd doc
docker-compose up

启动后访问localhost:8090即airflow初始化完成.

  1. 修改本项目db

修改application-dev.yml中DataSource的url host为localhost.

  1. 导入db

schema.sql导入pg.

  1. 启动本项目

访问localhost:8081/api 即swagger地址.

  1. 启动web
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-07-29 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
1 条评论
热度
最新
这个还能用吗? 我怎么看不懂这个安装流程。。。
这个还能用吗? 我怎么看不懂这个安装流程。。。
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
Airflow 实践笔记-从入门到精通一
数据处理逻辑多,脚本相互依赖强,运维管理监测难,怎么办?!为了解决这些问题,最近比较深入研究Airflow的使用方法,重点参考了官方文档和Data Pipelines with Apache Airflow,特此笔记,跟大家分享共勉。
大数据技术架构
2022/06/14
5.9K0
Airflow 实践笔记-从入门到精通一
大数据调度平台Airflow(五):Airflow使用
以上python文件就是Airflow python脚本,使用代码方式指定DAG的结构
Lansonli
2022/03/29
12.2K2
大数据调度平台Airflow(五):Airflow使用
你不可不知的任务调度神器-AirFlow
Airflow 是一个编排、调度和监控workflow的平台,由Airbnb开源,现在在Apache Software Foundation 孵化。AirFlow 将workflow编排为tasks组成的DAGs,调度器在一组workers上按照指定的依赖关系执行tasks。同时,Airflow 提供了丰富的命令行工具和简单易用的用户界面以便用户查看和操作,并且Airflow提供了监控和报警系统。
王知无-import_bigdata
2021/01/06
4K0
你不可不知的任务调度神器-AirFlow
大数据调度平台分类大对比(Oozie/Azkaban/AirFlow/XXL-Job/DolphinScheduler)
大数据调度系统,是整个离线批处理任务和准实时计算计算任务的驱动器。这里我把几个常见的调度系统做了一下分类总结和对比。
王知无-import_bigdata
2022/04/13
10.7K0
Airflow自定义插件, 使用datax抽数
Airflow之所以受欢迎的一个重要因素就是它的插件机制。Python成熟类库可以很方便的引入各种插件。在我们实际工作中,必然会遇到官方的一些插件不足够满足需求的时候。这时候,我们可以编写自己的插件。不需要你了解内部原理,甚至不需要很熟悉Python, 反正我连蒙带猜写的。
Ryan-Miao
2019/10/01
3.3K0
Apache Airflow-编写第一个DAG
Apache Airflow: Write your first DAG in Apache Airflow
DevOps云学堂
2022/12/29
1.9K0
Apache Airflow-编写第一个DAG
大数据调度平台Airflow(六):Airflow Operators及案例
Airflow中最重要的还是各种Operator,其允许生成特定类型的任务,这个任务在实例化时称为DAG中的任务节点,所有的Operator均派生自BaseOparator,并且继承了许多属性和方法。关于BaseOperator的参数可以参照:
Lansonli
2022/03/29
8.5K2
大数据调度平台Airflow(六):Airflow Operators及案例
【 airflow 实战系列】 基于 python 的调度和监控工作流的平台
本文介绍了 Airflow 这款开源的 DAG 流程编排框架,从架构、原理、优点、使用场景、实现细节、扩展、ETL、数据依赖、资源依赖、任务依赖、安全、Hook、日志、任务定义、执行、调度、监控、运维、社区、文档等方面进行了详细的介绍。Airflow 旨在解决 Celery 和 Kubernetes 等工具无法解决的问题,通过实践证明了 DAG 流程编排的价值。Airflow 的架构设计巧妙,实现了分布式、高可用的 DAG 执行引擎。Airflow 使用 Python 实现,支持多种 DAG 定义格式,可与主流的分布式数据存储系统无缝集成。Airflow 还支持云原生技术,可以轻松地在 Kubernetes 上运行。通过本文的讲解,读者可以了解到 Airflow 的设计理念、架构、使用方式和实现细节,掌握如何在分布式环境下实现 DAG 流程编排。同时,本文还提供了实际案例,帮助读者更好地理解 Airflow 的使用方式。
刘远
2017/04/27
6.2K0
【 airflow 实战系列】 基于  python  的调度和监控工作流的平台
Apache AirFlow 入门
Airflow 于 2014 年 10 月由 Airbnb 的 Maxime Beauchemin 开始。它是第一次提交的开源,并在 2015 年 6 月宣布正式加入 Airbnb Github。
HLee
2021/06/04
2.8K0
Apache AirFlow 入门
调度系统Airflow的第一个DAG
Airflow的第一个DAG 考虑了很久,要不要记录airflow相关的东西, 应该怎么记录. 官方文档已经有比较详细的介绍了,还有各种博客,我需要有一份自己的笔记吗? 答案就从本文开始了. 本文将从
Ryan-Miao
2019/09/10
2.7K0
调度系统Airflow的第一个DAG
0613-Airflow集成自动生成DAG插件
Airflow的DAG是通过python脚本来定义的,原生的Airflow无法通过UI界面来编辑DAG文件,这里介绍一个插件,通过该插件可在UI界面上通过拖放的方式设计工作流,最后自动生成DAG定义文件。
Fayson
2019/05/13
6.1K2
0613-Airflow集成自动生成DAG插件
Apache Airflow单机/分布式环境搭建
Apache Airflow是一个提供基于DAG(有向无环图)来编排工作流的、可视化的分布式任务调度平台(也可单机),与Oozie、Azkaban等调度平台类似。Airflow在2014年由Airbnb发起,2016年3月进入Apache基金会,在2019年1月成为顶级项目。Airflow采用Python语言编写,并提供可编程方式定义DAG工作流(编写Python代码)。当工作流通过代码来定义时,它们变得更加可维护、可版本化、可测试和协作。
端碗吹水
2022/01/12
4.9K0
Apache Airflow单机/分布式环境搭建
认识Airflow的DAG
前文Airflow的第一个DAG已经跑起来了我们的第一个任务. 本文就来丰富这个任务.
Ryan-Miao
2019/09/30
2.5K0
认识Airflow的DAG
Centos7安装部署Airflow详解
——————————————————————————————————————————————
待你如初见
2019/10/31
6.3K0
大数据调度平台Airflow(二):Airflow架构及原理
Airflow我们可以构建Workflow工作流,工作流使用DAG有向无环图来表示,DAG指定了任务之间的关系,如下图:
Lansonli
2022/03/29
6.8K1
大数据调度平台Airflow(二):Airflow架构及原理
Airflow2.2.3 + Celery + MYSQL 8构建一个健壮的分布式调度集群
前面聊了Airflow基础架构🔗,以及又讲了如何在容器化内部署Airflow🔗,今天我们就再来看看如何通过Airflow和celery构建一个健壮的分布式调度集群。 1集群环境 同样是在Ubuntu 20.04.3 LTS机器上安装Airflow集群,这次我们准备三台同等配置服务器,进行测试,前篇文章🔗[1]中,我们已经在Bigdata1服务器上安装了airflow的所有组件,没看过的可以点击链接先看下之前的文章,现在只需要在其他两个节点安装worker组件即可。 Bigdata1(A) Bigdata2
公众号: 云原生生态圈
2022/02/16
2K0
Airflow2.2.3 + Celery + MYSQL 8构建一个健壮的分布式调度集群
实用调度工具Airflow
引言 前面写过一篇文章《端午搬砖:聊聊调度云服务》,主要讲云服务的。如果企业也业务上云,可以优先选用这些服务,减少工作量。 而在传统企业内部,数据集成是基础,更是每个企业里面都至少有一个ETL工具或者
大数据和云计算技术
2018/03/08
3.9K0
实用调度工具Airflow
Airflow速用
Airflow是Apache用python编写的,用到了 flask框架及相关插件,rabbitmq,celery等(windows不兼容);、
用户1558882
2019/10/31
5.8K0
用 Kafka、Spark、Airflow 和 Docker 构建数据流管道指南
在本指南中,我们将深入探讨构建强大的数据管道,用 Kafka 进行数据流处理、Spark 进行处理、Airflow 进行编排、Docker 进行容器化、S3 进行存储,Python 作为主要脚本语言。
大数据杂货铺
2023/11/27
1.6K0
用 Kafka、Spark、Airflow 和 Docker 构建数据流管道指南
Airflow 实践笔记-从入门到精通二
数据处理逻辑多,脚本相互依赖强,运维管理监测难,怎么办?!为了解决这些问题,最近比较深入研究Airflow的使用方法,重点参考了官方文档和Data Pipelines with Apache Airflow,特此笔记,跟大家分享共勉。
大数据技术架构
2022/06/14
3K0
Airflow 实践笔记-从入门到精通二
相关推荐
Airflow 实践笔记-从入门到精通一
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验