我一直在尝试SparkSubmit程序的气流,但火花文件在一个不同的集群(1**.1*.0.21)和气流在(1**.1*.0.35)。我正在寻找一个详细的解释这个主题的例子。我不能复制或下载任何xml文件或其他文件到我的气流集群。
当我试着使用SSH钩子时,上面写着。尽管我对使用SSH运算符和BashOperator有很多疑问。Broken DAG: [/opt/airflow/dags/s.py] No module named paramiko
对星火中的action and transformation有一些疑问。 我使用的是过去几个月的spark API。(Learned) Spark api有一个强大的功能,在采取任何操作将最终转换后的数据存储到某个地方之前,它不会将任何数据加载到内存中。这是正确的理解吗?更精确的定义: Spark将使用applied operation, source RDD and function used f