我无法从pyspark数据帧列表创建RDD,如下所示:df = sqlContext.createDataFrame(l)df2Trace: py4j.Py4JException: Method __getnewargs__([]) does not exist
在parallelize调用中。它适用于像[1,2,3]这样的简单列表,但是当列表的元素变成一个数据帧时,它似乎
我是通过从RDD中的文本文件加载数据来创建PySpark的。现在,我想将这个RDD转换成一个dataframe,但是我不知道RDD中有多少列和列。我试图了解如何创建schema,但大多数示例都显示了一个硬编码模式创建示例。现在,由于我不知道列是什么,所以如何将rdd转换为dataframe?到目前为止,我的代码如下:
from pyspa