我学的是火种。例如,我正在尝试从sql构建DataFrame
DF=spark.sql("with a as (select ....) select ...")
我的sql有点复杂,所以要执行20分钟。我觉得DF是对我的SQL的引用,它意味着当我执行DF.head(10)需要20分钟,下一步DF.count()也需要20分钟等等。
我想让DataFrame像熊猫一样在内存中有价值,其中DF.head(10),DF.count()需要几秒钟。
我唯一能想到的方法是使用"create“,例如:
xx=spark.sql("create table yyy as w
我正在尝试为Peewee for SQL Server构建一个数据库驱动程序(通过SQL Relay)。因为SQL Server不像其他数据库那样支持LIMIT语法,所以我需要覆盖它。我相信SQL Server的正确语法是这样的:
SELECT TOP(1) FROM users
对于只需要返回所找到结果的子集的查询,TOP将替换LIMIT。
另一方面,在SQL Server中,对结果分页的支持是通过如下方式实现的:
SELECT email FROM emailTable
WHERE id=3
ORDER BY Id
OFFSET 10 ROWS
FETCH NEXT 10 ROWS O