我正在尝试对从RDS迁移到Redshift的数据使用Glue for ETL。 据我所知,胶水书签只查找使用指定主键的新行,而不跟踪更新的行。 但是,我正在处理的数据往往有频繁更新的行,我正在寻找可能的解决方案。我对pyspark还是个新手,所以如果可以在pyspark中做到这一点,我将非常感谢一些指导或正确方向的观点。如果在Spark之外还有可能的解决方案,我也很乐意听到。
如果这个问题不清楚,很抱歉。简短的故事是,我们有人犯了一些错误,导致了一个相当糟糕的数据损坏问题。最终的结果是,我们最终得到了一堆t-sql条目,它们看起来类似于:“value,value,value”和“this,is a value,this is a value”,它们有几千种不同(超过110k条记录受到影响)。DECLARE @Ttests Table (
toMatch