我们在中创建了一些视图。我们需要基于一个水标列来递增地查询这些数据,并且它必须被加载到Azure数据湖容器中,进入原始层,然后再加载到管理层。在原始层中,文件应该包含整个数据(满载数据).So,基本上我们需要附加这些数据并作为一个满载导出。我们是否应该使用Databricks Delta湖表来处理这个需求。如何将数据插入到达美湖表。此外,如果记录已从source.What中删除,则需要删除该记录,应将其用作此分区列。
发布于 2022-10-25 07:52:14
请看增量表的语法- UPSERT。在增量文件格式之前,必须读取旧文件,读取新文件,并对dataframes进行设置操作以获得结果。
三角洲的好处是酸的性质。我喜欢使用数据帧,因为语法可能更小。这是一篇供你阅读的文章。
https://www.databricks.com/blog/2019/03/19/efficient-upserts-into-data-lakes-databricks-delta.html
https://stackoverflow.com/questions/74196194
复制相似问题