我有一个由爬虫创建的表,指向存储在s3中的一些拼图文件。从Glue data catalogue GUI中,我可以看到许多字段(53)。当我打开一个ETL dev端点并连接到一个sagemaker笔记本,加载相同的表并运行printSchema时,我看到使用以下代码的字段(36)要少得多。编辑:亚马逊网络服务论坛上的似乎是由于同样的问题-显然PySpark试图推断自己的模式,而不是使用爬虫找到的模式。
我正在AWS Glue中创建一个ETL作业,该作业将从S3位置获取存储库中每个实体的最新编辑或当前数据。存储库中的数据是对实体的所有编辑的历史记录。每天我运行ETL,它会写出到另一个S3位置,即Bucket/path/ to /files/current_date/...其中,当前日期是动态的,并且与ETL运行的日期一致。我创建的爬虫和ETL作业通过CloudForm