我有大量不同模式的PostgreSQL表,以及其中的大量数据。
我现在无法进行数据分析,因为数据量相当大--一些TB的数据和PostgreSQL无法在合理的时间内处理查询。
我正在考虑以下方法--我将使用Apache处理我的所有PostgreSQL表,加载DataFrames并将它们存储为AWS S3中的Parquet文件。然后,我将使用RedShift谱来查询存储在这些拼花文件中的信息。
首先,我想问一问-这个解决方案会起作用吗?
第二个- RedShift谱是否能够在不需要额外模式规范的情况下自动从这些PostgreSQL文件创建外部表(即使原始PostgreSQL表包含AWS RedShift不支持的数据类型)?
发布于 2018-11-06 09:31:08
发布于 2018-11-05 15:53:26
AWS胶作为您的一种选择可能会很有趣。它是Spark的托管版本,带有一些AWS特定的加载项和一个Data +数据目录。
它可以抓取非结构化数据,如Parquet文件,并确定结构。然后,如果需要,可以以结构化的形式将其导出到AWS RedShift。
有关如何使用JDBC将其连接到postgres数据库以将数据从Postgres移动到S3,请参见S3。
https://stackoverflow.com/questions/53157597
复制相似问题