在Scala中,有几种方法可以导致数据分区/重新分区。其中包括partitionBy, coalesce, repartition, and textFile和其他以分区计数作为参数的函数。下面,我使用至少8个分区的规范的textFile。我不希望转换撤消这些分区。要保留分区,需要对分区结果进行persist。但是,像map和flatMap这样的函数并不保留分区。PairRDDS有维护分区
我计划按日期列每月划分我的表,并且在少数地方读过,建议(实际上是一个最佳做法)将空分区保持在范围的“末尾”。premier-field-engineering/oops-i-forgot-to-leave-an-empty-sql-table-partition-how-can-i/ba-p/370563ALL TO (MySingleFileGroup)
我可以保证不会将任何早于2019-10-01的数据插入到表中,并且我计划在到
从文档中可以看到,我们可以使用partitioning_func定义自定义空间分区函数。但是,我没有找到任何关于如何定义分区函数以及它应该返回什么的实际例子。我所读到的是,默认情况下,它使用INT32_MAX (哈希表中的键范围),例如,如果我们给出number_partitions=2,那么数值< into 32_MAX/2将落入第一个分区,其余值将落入第二个分区在我的例子中,假设我在空间分区列中没有多少不同的值,然后根据默认的散列函数</em