我使用Glue Studio创建了一个AWS胶水作业。它从Glue data Catalog中获取数据,执行一些转换,然后写入不同的Data Catalog。在配置目标节点时,我启用了在运行以下命令后创建新分区的选项:作业成功运行,数据以正确的分区文件夹结构写入S3,但没有在实际的数据目录表中创建新分区-我仍然需要运行胶水爬虫来创建它们。生成的脚本中负责创建分区的代码如下(作业<
我有一个用于这些分区的粘合表,可以使用Athena查看数据。运行胶水作业并尝试访问Catalog时,我收到以下错误:
HadoopDataSource: Skipping Partition {} as no new files detected @ s3:..,因为它是定期更新的。我认为问题出在胶水作业书签没有检测到新文件,但这并不是直接作为作业的一部分运行,而是作为作业使用的库的一部分运行。删除"transformati