粘合etl作业-使用create_dynamic_frame.from_options获取s3子文件夹

、、、、

我正在创建一个AWS Glue ETL作业，但在文件检索方面遇到了一些障碍。 's3', 's3://

浏览 13提问于2020-03-10得票数 4

1回答

AWS Glue:连接VPC以使用VPC端点访问S3

、

AWS Glue是无服务器的，但当Glue ETL作业使用DB连接(关系数据库、JDBC或RedShift)时，有一种方法可以将VPC和子网分配给该作业。这部分很好。我们面临的问题是，胶水作业只在S3存储桶上操作，而不使用任何其他DB。如何确保胶水通过VPC端点访问这些S3存储桶？即使我们为VPC定义了VPC端点，如何确保ETL作业在同一VPC中运行？当粘合作业在VPC源和

浏览 12提问于2020-02-06得票数 0

3回答

使用亚马逊网络服务胶水将红移文件转换为S3镶木地板文件

、

但是我想在S3中创建这些表的备份，这样我就可以使用频谱来查询这些表。为了将表从Redshift移动到S3，我使用了一个Glue ETL。我已经为AWS Redshift创建了一个爬虫。粘合作业将数据转换为地块，并将其存储在按日期分区的S3中。然后，另一个爬虫程序爬行S3文件以再次编目数据。如何消除第二个爬虫并在作业本身中执行此操作？

浏览 28提问于2019-04-23得票数 2

回答已采纳

1回答

我可以在Google BigQuery连接器中为AWS编写自定义查询吗？

、、、

我正在创建一个Glue ETL作业，它将数据从BigQuery传输到S3。类似于这个，但使用我自己的数据集。同样在生成的脚本中，它使用create_dynamic_fram

浏览 4提问于2022-03-22得票数 1

回答已采纳

1回答

HadoopDataSource:正在跳过分区{}，因为未检测到@ s3：

、、、

因此，我有一个S3文件夹，其中有几个子文件夹作为分区(基于创建日期)。我有一个用于这些分区的粘合表，可以使用Athena查看数据。运行胶水作业并尝试访问Catalog时，我收到以下错误： HadoopDataSource: Skipping Partition {} as no new files detected @ s3:..redshiftTmpDir = "", transformationContext = "datasource

浏览 39提问于2021-05-19得票数 0

3回答

AWS Glue ETL作业缺少crawler可见的字段

、、、

我有一个由爬虫创建的表，指向存储在s3中的一些拼图文件。从Glue data catalogue GUI中，我可以看到许多字段(53)。当我打开一个ETL dev端点并连接到一个sagemaker笔记本，加载相同的表并运行printSchema时，我看到使用以下代码的字段(36)要少得多。编辑:亚马逊网络服务论坛上的似乎是由于同样的问题-显然PySpark试图推断自己的模式，而不是使用爬虫找到的模式。

浏览 15提问于2018-12-12得票数 2

2回答

有没有办法在AWS glue上使用Apache Hudi？

、、、

尝试探索使用S3作为源进行增量加载的apach hudi，然后通过AWS glue job将输出保存到S3中的不同位置。作为起点，有没有什么博客/文章可以帮助我们呢？

浏览 30提问于2021-04-28得票数 1

1回答

有没有一种方法可以使用AWS胶水作业将“好”记录仅写入SQL Server表并返回“坏”记录？

、、、、

我正在尝试编写一个粘合(PySpark)作业，执行一些ETL，并最终将数据写入SQL Server中的一个表(在AWS Glue Catalog中定义)。发生这种情况时，Glue作业会抛出一个错误，并且作业会失败。有没有一种方法可以防止整个作业失败？相反，是否可以只写入“好”记录，并将违反SQL Server的“坏”记录返回到Glue作业(以便可以将它们上载到S3)？我使用write_dynamic_frame_from_catalo

浏览 9提问于2019-04-10得票数 0

1回答

AWS Glue - Pick动态文件

、、、

有人知道如何从S3存储桶中获取动态文件吗？我在S3存储桶上设置了一个爬虫，然而，我的问题是，每天都会有后缀为YYYY-MM-DD-HH-MM-SS的新文件到来。

浏览 1提问于2018-09-29得票数 1

1回答

数据湖亚马逊无服务器亚马逊S3

、、、

我试图使用亚马逊简单存储服务(Amazon S3)作为主要数据存储来构建一个无服务器数据湖。被摄取的数据落入亚马逊S3存储桶中，我们称之为原始区。我使用Amazon S3触发器调用的AWS Lambda函数来启动对数据进行编目的AWS Glue爬虫。此步骤启动AWS Glue ETL作业，以处理数据并将其输出到另一个亚马逊S3存储桶中，我们称之为已处理区域。AWS Glue ETL作业将数据转换为Apache Par

浏览 1提问于2019-10-04得票数 0

1回答

如何使用glue将存储在s3中的json文件转换为csv？

、、

有没有可能使用Glue作业来做到这一点？我试图了解粘合作业是否可以爬行到我的s3文件夹目录中，将找到的所有json文件转换为csv (作为新文件)。= {"path": "s3://agco-sa-dfs-dv/dealer-data"}, format = "csv") 作业运行时没有错误，但s3文件夹上似乎没有发生任何事情

浏览 11提问于2019-05-22得票数 1

2回答

未创建AWS CloudWatch日志

、

我试图使用AWS运行一个ETL作业，从Redshift到S3获取数据。当我运行一个爬虫时，它成功地连接到Redshift并获取模式信息。相关日志是在日志组aws-胶水/爬行器下创建的。当我运行ETL作业时，它应该在日志组( aws-glue/jobs/output和aws-glue/jobs/error )下创建一个日志流，但它无法创建这样的日志流，最终作业也会失败。(对于Glu

浏览 1提问于2017-08-24得票数 4

1回答

如何为raw区内的所有表执行Glue ETL作业(从我的raw区转换到parquet以进行处理)？

、、、

我有数据进入我的原始区域(S3存储桶)。在存储桶中，我有27个文件夹，每个文件夹对应一个数据库--每个文件夹有x个csv文件，每个文件夹对应一个表。我有一个S3事件(所有对象创建事件)，它会触发一个lambda函数来爬行我的原始专区。我能够成功地看到每一张桌子。完成后，我想创建一个ETL作业，将处理区域中的数据转换为拼花，但是考虑到我拥有的表的数量，我不想手动创建一个作业，将每个表指定为“源”。我演示了我的自动化服务，将一个csv文件

浏览 20提问于2019-05-09得票数 0

回答已采纳

3回答

从aws Glue脚本调用存储过程

、、、、

完成ETL作业后，在AWS Glue脚本中调用存储过程的最佳方法是什么？我使用PySpark从S3中获取数据并存储在暂存表中。在这个过程之后，需要调用一个存储过程。如果我必须在ETL作业完成后调用一个存储过程，那么最好的方法是什么？如果我考虑AWS，在ETL之后是否可以通知lambda。

浏览 0提问于2017-10-22得票数 4

回答已采纳

2回答

AWS Glue ETL作业失败，返回AnalysisException: U‘’Unable to推断拼花面板的架构。必须手动指定。；‘

、、、

我正在尝试创建AWS Glue ETL Job，将数据从存储在S3中的拼图文件加载到红移表中。拼图文件是使用带有‘简单’文件模式选项的pandas编写到一个S3 bucked中的多个文件夹中的。02/file_2.PARGET我可以使用AWS Glue Crawler在AWS Glue Catalog中创建一个表，并且可以从

浏览 1提问于2017-11-14得票数 3

1回答

AWS胶水爬行动态S3路径位置

、、、

我正在AWS Glue中创建一个ETL作业，该作业将从S3位置获取存储库中每个实体的最新编辑或当前数据。存储库中的数据是对实体的所有编辑的历史记录。每天我运行ETL，它会写出到另一个S3位置，即Bucket/path/ to /files/current_date/...其中，当前日期是动态的，并且与ETL运行的日期一致。我创建的爬虫和ETL作业通过CloudForm

浏览 13提问于2019-04-05得票数 0

回答已采纳

2回答

AWS Glue作业抛出java.lang.OutOfMemoryError: Java堆空间

、

我正在运行glue ETL转换作业。此作业用于从s3读取数据并将其转换为parquet。下面是胶水的来源...sourcePath是s3文件的位置。在这个位置，我们有大约1亿个json文件。所有这些文件都嵌套在子文件夹中。因此，这就是我应用exclusionPattern来排除以a开头的文件(大约有270万个文件)的原因，我相信只有以a开头的文件才会被处理。在cloudwatch中，我可以看到驱动内存使用率达到100%，但执行器内存使用<

浏览 28提问于2020-04-29得票数 0

1回答

Apache Spark/AWS EMR和处理文件的跟踪

、、

我有一个AWS S3文件夹，其中存储了大量的JSON文件。我需要ETL这些文件与AWS EMR通过星火和存储转换为AWS RDS。为此，我在Scala上实现了Spark作业，一切都很好。外部逻辑有时可以向AWS S3文件夹中添加一个新文件，因此下次当我的火花作业开始时，我只想处理新的(未处理的) JSON文件。现在，我不知道在哪里存储有关已处理的JSON文件的信息，以便Spark作业可以决定要处理哪些文件/文件夹。请您告诉

浏览 0提问于2018-10-15得票数 1

回答已采纳

2回答

在VPC中访问红移的AWS

、、、

我正在尝试使用AWS从Redshift实例(在VPC中)到S3桶中的ETL数据。为此，我使用Redshift创建了一个JDBC连接。我是否需要为Glue配置NAT以连接到Redshift？

浏览 4提问于2017-08-23得票数 1

1回答

写入parquet而不是CSV时，数据链路写入失败

、、、

我有下面这行代码 val datasink3 = glueContext connectionType = "s3", optionscom.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception : Access Denied (Service: Amazon S3bSx0pwcybYDSuZYXXJN0pF1pWHiziuAI=) 但是，如果我将写入切换到 val

浏览 9提问于2021-07-07得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

AWS Glue:连接VPC以使用VPC端点访问S3

使用亚马逊网络服务胶水将红移文件转换为S3镶木地板文件

我可以在Google BigQuery连接器中为AWS编写自定义查询吗？

HadoopDataSource:正在跳过分区{}，因为未检测到@ s3：

AWS Glue ETL作业缺少crawler可见的字段

有没有办法在AWS glue上使用Apache Hudi？

有没有一种方法可以使用AWS胶水作业将“好”记录仅写入SQL Server表并返回“坏”记录？

AWS Glue - Pick动态文件

数据湖亚马逊无服务器亚马逊S3

如何使用glue将存储在s3中的json文件转换为csv？

未创建AWS CloudWatch日志

如何为raw区内的所有表执行Glue ETL作业(从我的raw区转换到parquet以进行处理)？

从aws Glue脚本调用存储过程

AWS Glue ETL作业失败，返回AnalysisException: U‘’Unable to推断拼花面板的架构。必须手动指定。；‘

AWS胶水爬行动态S3路径位置

AWS Glue作业抛出java.lang.OutOfMemoryError: Java堆空间

Apache Spark/AWS EMR和处理文件的跟踪

在VPC中访问红移的AWS

写入parquet而不是CSV时，数据链路写入失败

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐