配置 Apache Airflow 的主节点(通常称为Web服务器和调度器)涉及几个关键步骤。这些步骤确保 Airflow 的核心组件能够正确运行,以便管理和调度工作流。以下是配置 Airflow 主节点的基本步骤:
首先,你需要在你的系统上安装 Apache Airflow。推荐使用 Python 的 pip 包管理器进行安装。你可以选择安装 Airflow 的稳定版本,也可以安装特定的提供者包,根据你的需求选择。
# 安装 Airflow
pip install apache-airflow
# 初始化数据库
airflow db init
Airflow 通常使用环境变量来配置其运行环境。你需要设置 AIRFLOW_HOME
环境变量,指向你的 Airflow 安装目录。
export AIRFLOW_HOME=~/airflow
Airflow 的配置文件是 airflow.cfg
,位于 $AIRFLOW_HOME
目录下。你需要编辑这个文件来调整各种设置,如数据库连接、执行器(Executor)类型、并行任务数等。
sql_alchemy_conn
)。LocalExecutor
、CeleryExecutor
或 KubernetesExecutor
。[core]
executor = LocalExecutor
sql_alchemy_conn = postgresql+psycopg2://username:password@localhost:5432/airflow
Airflow 的 Web 服务器提供了一个用户友好的界面,用于监控和管理工作流。使用以下命令启动 Web 服务器:
airflow webserver -p 8080
调度器是 Airflow 的核心组件,负责调度工作流的执行。在另一个终端或后台进程中启动调度器:
airflow scheduler
打开浏览器,访问 http://localhost:8080
,登录 Airflow 的 Web 界面。检查是否能看到默认的示例工作流,并尝试运行它们以验证系统配置正确。
CeleryExecutor
或 KubernetesExecutor
。领取专属 10元无门槛券
手把手带您无忧上云