发布于 2019-02-11 13:40:18
我认为,当它们描述有关清除/重新索引的问题时,可能已经解释过了:
在最初加载表时,Amazon分析排序键列中值的分布,并使用这些信息对排序键列进行最佳交织。随着表的增长,排序键列中的值的分布可能会改变或扭曲,特别是日期或时间戳列。如果倾斜变得太大,性能可能会受到影响。
因此,如果这是唯一的原因,那么这只是意味着您将增加对索引的维护。
发布于 2019-02-13 09:40:35
当您将行添加到已包含数据的排序表时,未排序区域将增长,这对性能有重大影响。当表使用交错排序时,效果更大,特别是当排序列包含单调增加的数据时,例如日期或时间戳列。
最初引号中的关键点不是数据是日期或时间戳,而是“单调地”增加,在这种情况下,这可能意味着按顺序增加,例如事件时间戳或Id号。
发布于 2019-02-13 05:41:29
日期(而不是时间戳)列作为交错的排序键是有意义的,因为您知道每天平均处理X行数,并且您将根据它进行筛选,如果您不打算使用它,那么就忽略它。还有一个关于真空的注意事项--当真空过程正在进行时,它需要临时空间来完成任务,方法是对数据进行排序,然后合并成块的数据。取消真空过程中的飞行将导致额外的空间无法回收,因此,如果由于某种原因,任何真空已经取消在您的集群,这可以归因于空间的增加。参见链接备注和第3点,最后一点是特别感兴趣的。在我的例子中,与插入的行数量相比,表的增长速度非常快,必须使用深度复制构建一个自动表创建。
https://stackoverflow.com/questions/54631257
复制相似问题