腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
Databricks
中
读取
/
加载
本地
文件
?
、
、
、
、
除了导航到
Databricks
上的“Data”>“Add Data”之外,是否还可以
读取
位于
本地
计算机
中
的
文件
。在我过去使用Databrick的经验
中
,当使用s3存储桶时,我能够通过如下方式指定路径来
读取
和
加载
数据帧: df = spark.read.format('delta').load('<path>')有没有办法使用
databricks
读取
本地
浏览 132
提问于2020-10-30
得票数 2
2
回答
为什么电火花不能
读取
这个csv
文件
?
、
、
、
在众多的堆栈溢出类似的问题“如何将csv
读取
到?”
中
我找不到这个问题。(见最后类似的但不同的问题清单)。问题中的CSV
文件
驻留在集群驱动程序的tmp目录
中
,请注意,这个csv
文件
是有意不在
Databricks
DBFS云存储
中
的。对于导致此问题的用例,使用DBFS将不起作用。:list(filter(lambda f: f == 'test.csv',os.listdir('/tmp/')
浏览 9
提问于2022-03-24
得票数 1
回答已采纳
1
回答
不能直接从GCP数据库
中
读取
熊猫
、
、
、
、
通常在Azure/AWS上的
Databricks
上,要
读取
存储在Azure Blob/S3上的
文件
,我需要挂载存储桶或blob存储,然后执行以下操作:df = spark.read.format('csv').load('/mnt/my_bucket/my_file.csv', header="true")df = pd.read_csv(&
浏览 1
提问于2021-06-22
得票数 3
回答已采纳
1
回答
使用自定义模式创建一个拼花
文件
、
、
我有这样的要求:我们有一个API,它将给我们列的模式。我必须使用来自API的模式创建一个parquet
文件
。 我们如
何在
使用PySpark的
Databricks
中</e
浏览 4
提问于2022-07-30
得票数 -1
回答已采纳
2
回答
数据库上的火花-缓存Hive表
、
、
、
我们将事实表(30列)存储在S3上的拼花
文件
中
,并在此
文件
上创建表并随后缓存它。factTraffic.write.mode(SaveMode.Overwrite).saveAsTable("f_traffic")我们在这个表(
文件
)上运行许多不同的计算,并且正在寻找缓存数据的最佳方法,以便在随后的计算
中
更快地访问数据。问题是,由于某种原因,从拼板
读取
数据并进行计算,然后从内存
中
访问数据会更快。
浏览 0
提问于2018-03-19
得票数 2
回答已采纳
3
回答
从
Databricks
Autoloader获取已
加载
文件
的列表
、
我们可以使用跟踪已从S3桶
加载
的
文件
。我关于Autoloader的问题:是否有方法
读取
Autoloader数据库以获取已
加载
的
文件
列表?我可以在AWS Glue作业书签
中
轻松地做到这一点,但我不知道如
何在
Databricks
Autoloader
中
这样做。
浏览 23
提问于2021-12-06
得票数 3
1
回答
加载
到
Databricks
的泡菜
文件
、
、
我正在尝试将一些大型.pk
文件
(2Gb)
加载
到
Databricks
中
以运行实验。我将这些
文件
加载
到
本地
驱动器
中
(没有云)。当我试图在Repos中直接导入它们时,我会收到
文件
太大的错误消息。我也试图在google中
加载
文件
,但我必须是管理员才能在平台之间建立连接。 如
何在
数据库中
加载
和访问这些
文件
?
浏览 10
提问于2022-11-21
得票数 2
1
回答
在数据库
中
找不到config.yml
、
现在,我正试图在
databricks
上托管它,这样我就可以将它作为笔记本运行。我已经将所有python
文件
导入到
databricks
工作区。但是,在执行主.py
文件
时,我得到以下错误因为
Databricks
不允许我将.yml
文件
导入工作空间。如何运行这个python项目,以便它能够正确地
读取
.yml
文件
浏览 2
提问于2021-02-12
得票数 0
回答已采纳
3
回答
单元测试: NameError:未定义名称'dbutils‘
、
、
、
如
何在
不导入.ipynb
文件
的情况下从
Databricks
.ipynb
中
测试python
文件
? 例如,我试图在桌面上使用VS代码
中
的unittest,在那里我从实例
中
克隆了.ipynb
文件
。一旦我在
本地
运行这个程序,我就有一个简单的单元测试来
读取
CSV。问题是,当我尝试从我正在测试的
文件
(csv_to_parquet)
加载
一个--单个函数--时,测试尝试
加载
整个
浏览 7
提问于2020-04-15
得票数 1
1
回答
酸洗
文件
、
、
、
、
我使用kedro与
databricks
-连接来运行我的机器学习模型。我使用
databricks
笔记本对模型进行了培训和测试,并保存了模型的泡菜
文件
以存储蓝色的blob。为了在
本地
测试管道,我下载了泡菜
文件
并在
本地
存储它。kedro在
本地
存储时可以很好地
读取
文件
,但是问题是当我尝试从azure直接将
文件
读入kedro时,我得到了以下错误:“无效
加载
键?”我的想法是,泡菜
文件
在天蓝色时
浏览 2
提问于2022-04-01
得票数 -1
1
回答
无法通过spark
读取
VCF
文件
、
、
、
我正在尝试使用spark
读取
vcf
文件
。Spark 3.0 spark.read.format("com.
databricks
.vcf").load("vcfFilePath") 错误: java.lang.ClassNotFoundException: Failed to find data source: com.
databricks
.vcf.org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSour
浏览 44
提问于2021-01-03
得票数 0
回答已采纳
1
回答
我们能否在没有spark.sql的情况下将数据从熊猫数据
加载
到
databricks
表
、
、
、
我使用
databricks
python连接器从
databricks
表中选择数据。选择是有效的。但我无法从csv或熊猫的数据
加载
到数据库。我是否可以使用
databricks
python连接器将csv/pandas数据
中
的大量数据
加载
到
databricks
表
中
?cursor.fetchall_arrow().to_pandas() print("Exception Occurre
浏览 5
提问于2022-08-19
得票数 0
1
回答
从
文件
系统
中
填充Properties对象
、
、
、
、
TL:DR或者,是否有一种方法可以将星火数据帧行转换为一组文本键/值对( Scala会理解)?全面问题: 属性
文件
不是
本地
的,它位于
Databricks
集群上。尝试从"dbfs:/“或"/dbfs”
读取
文件
时,在使用scala.io.Source库时找不到
文件
。我猜Source无法识
浏览 4
提问于2020-12-29
得票数 1
回答已采纳
1
回答
Azure数据库与Unix
文件
系统的集成
、
、
、
、
我正在寻找帮助了解Unix
文件
系统与Azure
DataBricks
的集成。我想连接到on
文件
系统,并通过
DataBricks
访问相关
文件
和进程,并
加载
到ADLS Gen2
中
。我知道,如果这些
文件
在DBFS
中
可用,我们应该能够处理。但我的要求是针对使用Azure技术(
如
Azure
DataBricks
或Azure DataFactory )的requirement
文件
系统上可用的<
浏览 1
提问于2022-06-10
得票数 1
2
回答
列出位于数据湖
中
的
文件
夹
中
的所有
文件
、
、
、
、
我正在尝试获取一个
文件
夹中所有
文件
的清单,该
文件
夹有几个子
文件
夹,所有这些子
文件
夹都位于一个数据湖
中
。下面是我正在测试的代码。files: print(df) 我在Azure
Databricks
工作。
浏览 0
提问于2019-11-07
得票数 5
2
回答
在
Databricks
中将Azure Data Lake存储为外部表
、
、
、
如
何在
Azure
Databricks
中
创建从Azure Data Lake Store
读取
的外部表?如果可能的话,我在文档中看到了一些问题。我在Azure Data lake Store
中
的特定
文件
夹中有一组CSV
文件
,我想在Azure
Databricks
中
创建一个指向CSV
文件
的外部表。
浏览 3
提问于2018-03-29
得票数 2
1
回答
连接
本地
木星集线器到Azure数据库星团
、
、
、
虽然
databricks
允许使用远程内核访问它- ,但它不能
读取
木星实验室上的
本地
文件
。 有没有任何方法可以使用星火集群与
本地
的jupyter实验室,
如
?非常感谢
浏览 5
提问于2022-04-06
得票数 0
1
回答
使用Pyspark从
文件
夹中
加载
XML
文件
、
我想要从一个特定的
文件
夹
加载
XML
文件
。但我不想使用com.
databricks
.spark.xml包。在每个示例
中
,我都使用了com.
databricks
.spark.xml包。在没有此包的情况下,是否有
读取
XML
文件
的方法?
浏览 0
提问于2019-04-24
得票数 0
2
回答
使用SparkR 1.5从RStudio
中
的hdfs
读取
大
文件
(纯文本、xml、json、csv)的选项
、
、
我是Spark的新手,我想知道除了下面这些选项之外,是否还有其他选项可以使用SparkR从RStudio
中
读取
存储在hdfs
中
的数据,或者我是否正确使用它们。我知道不应该再使用textFile(sc,path)了,但是除了read.df函数之外,还有其他方法可以
读取
这类数据吗?SparkR) sc <- sparkR.init(master="local", sparkPackages="com.<e
浏览 6
提问于2015-09-15
得票数 5
1
回答
带有多字符分隔符的Apache火花数据
文件
、
、
、
我有一个使用多字符分隔符的"CSV“
文件
,因此数据看起来类似于在
Databricks
内部的笔记本
中
,下面的代码会在第二行抛出错误错误:更新:我的错,
浏览 1
提问于2022-05-12
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
iOS开发:通过UIWebView加载读取本地文件
如何在 Python 程序中读取和写入文件
如何在 Rust 中读取和写入文件|Linux 中国
如何在Spark中处理结构化流式数据,如日志文件或传感器数据?
在首次发布三周之后,MLflow迎来了0.2版本
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券