我试图在PySpark中使用CSV文件中的数据。我发现了一个叫做PySpark的模块,它完全可以满足我的需要。根据的说法,“不需要安装”,所以我想我可以将源代码解压缩到我的Python中的一个名为'pyspark_csv‘的目录中,然后运行他们网站上列出的命令:
import pyspark_csv as pycsvsc.addPyFile('pyspark_<
我如何将一个.csv文件导入?我甚至尝试在Pandas中读取csv文件,然后使用createDataFrame将其转换为createDataFrame,但它仍然显示出一些错误。有人能指引我渡过难关吗?另外,请告诉我如何导入xlsx文件?我试图将csv内容导入熊猫数据格式,然后将其转换为spark数据帧,但它显示了错误:
"Py4JJavaError" An error occurred while calling o28.apply