我希望保留一个非常宽的(cost 100‘000列),它是稀疏填充的(>99%的值为空),同时只保留非空值(以避免存储成本):
这种用例的最佳格式是什么(HBase,Avro,Parquet,.)?当写入时,应该指定什么来忽略空值?请注意,我已经用简单的df.write statement尝试过Parquet和Avro,因为大小约为100x130k的df表现最差(约55 is ),而Avro (约15 is
在第二个表中,我为每个项目的开始时间和结束时间之间的每分钟设置了值和时间戳。11:00 AM x789 three 11:30 AM 11:30 AM x
我想用非空的先行词行中的值替换这些null值.我发现UniqueID是不一致的,这就是为什么我的输出中有这些空值。因此,验证的答案是一个很好的选项,可以在连接两个表时填充空<e