红移谱基本上支持与红移本身相同的数据类型。
红移谱在幕后创建计算节点簇。集群的大小取决于实际红移群集节点的数量，所以如果您计划创建一个节点红移群集，频谱运行将非常慢。
正如您在注释中所指出的，您可以使用雅典娜查询数据，在您的情况下，这将是更好的选择，而不是频谱。但是雅典娜有一些限制，比如30分钟的运行时间，内存消耗等等，所以如果你计划用几个连接来做复杂的查询，它就不能工作。
没有提供的结构，红移谱不能创建外部表。
在您的情况下，最好的解决方案是使用Spark (关于EMR，或Glue)转换数据，使用雅典娜查询数据，如果雅典娜不能执行特定的查询--对相同的数据使用SparkSQL。您可以使用Glue，但是在EMR现场实例上运行作业将更加灵活和廉价。EMR集群附带了EMRFS，它使您能够几乎透明地使用S3，而不是HDFS。

票数 1

发布于 2018-11-05 15:53:26

AWS胶作为您的一种选择可能会很有趣。它是Spark的托管版本，带有一些AWS特定的加载项和一个Data +数据目录。

它可以抓取非结构化数据，如Parquet文件，并确定结构。然后，如果需要，可以以结构化的形式将其导出到AWS RedShift。

有关如何使用JDBC将其连接到postgres数据库以将数据从Postgres移动到S3，请参见S3。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53157597

复制

相似问题

问从PostgreSQL到AWS S3的数据移动和RedShift频谱分析
EN

问从PostgreSQL到AWS S3的数据移动和RedShift频谱分析EN