我在hdfs上有一个CSV格式的输入文件,有以下几种格式:date, time, public_ip 使用它,我需要从一个相当大的表中过滤出数据(每天大约1亿行)。我试着用不同的joins来使用spark SQL,但没有成功。无论我做什么,spark都不够“聪明”,无法限制每个分区的大表。我也尝试过使用WHERE PARTITION_DATE IN (SELECT DISTINCT date FROM csv_file,但速度也很慢。 CSV应该有最多20个不同的天数。big_table wher
我让sql查询按字面顺序选择如下SELECT idpresen, presenloc.satkerid, lat, lng, LATITUDE as lat_kantorCROSS JOIN koordinat ON presenloc.satkerid LIKE CONCAT(koordinat.satkerid, '%')inner join (
SELECT
如何避免在此查询中使用NOT子选择,同时也避免使用子选择?select idTipoDocumento,idDocumentoTareainner join Tarea as b on a.idEstadoTarea=b.idTareaand idDocumentoTarea not in (select idDocumentoTarea
from ArchivosTa