我想使用PySpark从一个包含UINT64列的拼图文件中提取数据,该列当前映射到Spark中的typeNotSupported()。我不需要这些列,所以我希望可以使用以下命令使用谓词pushdown来拉取其他列: spark.read.parquet('path/to/dir/').select('legalcol1', 'legalcol2An error was encountered:
An error occurred while c
在AWS的EMR 5.20上运行Spark 2.4时遇到问题。 我有一个字符串列作为分区,它有日期值。我的目标是将该列的最大值作为筛选器引用。这些值类似于2019年1月1日的2019-01-01。在这个查询中,我试图过滤到某个日期值(这是一个字符串数据类型),而Spark最终读取所有目录,而不仅仅是结果max(value)。= (select max(mypartitioncolumn) from myothertable) group by 1,2,
我正在尝试以嵌套的方式在拼图中存储我的数据,并使用映射类型列将复杂的对象存储为值。如果有人能告诉我过滤器下推是否适用于列或not.For的映射类型,下面的示例是我的sql查询-
`select measureMap['CR01'].tenorMap['1M'] from RiskFactorwhere businessDate='2016-03-14' and bookId='FI-UK'`