我使用Kaggle从Kaggle下载了数据集。数据存储在/databricks/driver目录下。
%sh pip install kaggle
%sh
export KAGGLE_USERNAME=my_name
export KAGGLE_KEY=my_key
kaggle competitions download -c ncaaw-march-mania-2021
%sh unzip ncaaw-march-mania-2021.zip
问题是:如何在DBFS中使用它们?下面是我读取数据的方式,以及当我试图使用pyspark读取csv文件时遇到的错误:
spark.read.csv('/databricks/driver/WDataFiles_Stage1/Cities.csv')
AnalysisException: Path does not exist: dbfs:/databricks/driver/WDataFiles_Stage1/Cities.csv
发布于 2021-08-07 07:08:24
默认情况下,spark.read...
使用DBFS路径,因此您有两个选择:
file:/databricks/driver/...
强制从本地文件系统读取-它将在社区版本上工作,因为它是单个节点集群。它不能在分布式集群上工作dbutils.fs.cp
命令(文档)将文件复制到DBFS,并从DBFS读取:dbutils.fs.cp("file:/databricks/driver/WDataFiles_Stage1/Cities.csv",
"/FileStore/Cities.csv")
df = spark.read.csv("/FileStore/Cities.csv")
....
https://stackoverflow.com/questions/68693087
复制相似问题