1, 20).registerTempTable("test")
%sql select id, squaredWithPython(id) as id_squared from test 那么,如果数据分布在工作节点的内存上UDF和vectorized UDF的区别是什么? 同样,在DataFrames中使用UDF也是如此。
我经常需要交叉表来预先分析我的数据。我可以用pd.crosstab(df['column'], df['column'])生成一个基本的交叉表,但无法添加一个评论(逻辑表达式),将这个交叉表只过滤到我的数据帧的一个子集。我已经尝试了pd.crosstab(df['health'], df['money']) if df['year']==1988和几个if的位置。我希望这