我现在有一个困扰我很长时间的问题--是否使用DISTINCT或GROUP BY (没有任何聚合),以更好的查询性能有效地从表中删除重复项。对于DISTINCT,我会使用以下方法- id, lname, from emp_tablelname,from emp_table我在某个地方读到过Spark-SQL,只有当数据集的cardinalit
此select可以工作,但对于16k记录,性能较慢。当我删除第二个distinct关键字时,性能得到了极大的提高,并且得到了相同的结果,但我仍然需要这个select更快一些。大约需要25秒。select distinct(market) where date_added > '2012-05-17'
and market not in (select distinct
select distinct a from table;
select distinct b from table; 有没有办法在一个查询中做到这一点。单个查询是否会比这两个单独的查询性能更高。我正在使用postgresDB。 我提出了以下单个查询,但我认为这不是很好的性能。select e1.a,e2.b from table t join (select distinct a,id from table)e1 on e1.id=t.id join (select distinct