首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何使用Databricks Community将从Kaggle下载的数据导入DBFS?

如何使用Databricks Community将从Kaggle下载的数据导入DBFS?
EN

Stack Overflow用户
提问于 2021-08-07 06:07:00
回答 1查看 1.2K关注 0票数 4

我使用Kaggle从Kaggle下载了数据集。数据存储在/databricks/driver目录下。

代码语言:javascript
运行
AI代码解释
复制
%sh pip install kaggle
%sh
export KAGGLE_USERNAME=my_name
export KAGGLE_KEY=my_key
kaggle competitions download -c ncaaw-march-mania-2021
%sh unzip ncaaw-march-mania-2021.zip

问题是:如何在DBFS中使用它们?下面是我读取数据的方式,以及当我试图使用pyspark读取csv文件时遇到的错误:

代码语言:javascript
运行
AI代码解释
复制
spark.read.csv('/databricks/driver/WDataFiles_Stage1/Cities.csv')
AnalysisException: Path does not exist: dbfs:/databricks/driver/WDataFiles_Stage1/Cities.csv
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-08-07 07:08:24

默认情况下,spark.read...使用DBFS路径,因此您有两个选择:

  • 使用file:/databricks/driver/...强制从本地文件系统读取-它将在社区版本上工作,因为它是单个节点集群。它不能在分布式集群上工作
  • 使用dbutils.fs.cp命令(文档)将文件复制到DBFS,并从DBFS读取:
代码语言:javascript
运行
AI代码解释
复制
dbutils.fs.cp("file:/databricks/driver/WDataFiles_Stage1/Cities.csv", 
   "/FileStore/Cities.csv")
df = spark.read.csv("/FileStore/Cities.csv")
....
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68693087

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档