如何在Databricks中读取/加载本地文件？

、、、、

除了导航到Databricks上的“Data”>“Add Data”之外，是否还可以读取位于本地计算机中的文件。在我过去使用Databrick的经验中，当使用s3存储桶时，我能够通过如下方式指定路径来读取和加载数据帧： df = spark.read.format('delta').load('<path>')有没有办法使用databricks读取本地

浏览 132提问于2020-10-30得票数 2

2回答

为什么电火花不能读取这个csv文件？

、、、

在众多的堆栈溢出类似的问题“如何将csv读取到？”中我找不到这个问题。(见最后类似的但不同的问题清单)。问题中的CSV文件驻留在集群驱动程序的tmp目录中，请注意，这个csv文件是有意不在Databricks DBFS云存储中的。对于导致此问题的用例，使用DBFS将不起作用。：list(filter(lambda f: f == 'test.csv',os.listdir('/tmp/')

浏览 9提问于2022-03-24得票数 1

回答已采纳

1回答

不能直接从GCP数据库中读取熊猫

、、、、

通常在Azure/AWS上的Databricks上，要读取存储在Azure Blob/S3上的文件，我需要挂载存储桶或blob存储，然后执行以下操作：df = spark.read.format('csv').load('/mnt/my_bucket/my_file.csv', header="true")df = pd.read_csv(&

浏览 1提问于2021-06-22得票数 3

回答已采纳

1回答

使用自定义模式创建一个拼花文件

、、

我有这样的要求：我们有一个API，它将给我们列的模式。我必须使用来自API的模式创建一个parquet文件。我们如何在使用PySpark的Databricks中</e

浏览 4提问于2022-07-30得票数 -1

回答已采纳

2回答

数据库上的火花-缓存Hive表

、、、

我们将事实表(30列)存储在S3上的拼花文件中，并在此文件上创建表并随后缓存它。factTraffic.write.mode(SaveMode.Overwrite).saveAsTable("f_traffic")我们在这个表(文件)上运行许多不同的计算，并且正在寻找缓存数据的最佳方法，以便在随后的计算中更快地访问数据。问题是，由于某种原因，从拼板读取数据并进行计算，然后从内存中访问数据会更快。

浏览 0提问于2018-03-19得票数 2

回答已采纳

3回答

从Databricks* Autoloader获取已加载文件的列表*

、

我们可以使用跟踪已从S3桶加载的文件。我关于Autoloader的问题：是否有方法读取Autoloader数据库以获取已加载的文件列表？我可以在AWS Glue作业书签中轻松地做到这一点，但我不知道如何在Databricks Autoloader中这样做。

浏览 23提问于2021-12-06得票数 3

1回答

加载到Databricks的泡菜文件

、、

我正在尝试将一些大型.pk文件(2Gb)加载到Databricks中以运行实验。我将这些文件加载到本地驱动器中(没有云)。当我试图在Repos中直接导入它们时，我会收到文件太大的错误消息。我也试图在google中加载文件，但我必须是管理员才能在平台之间建立连接。如何在数据库中加载和访问这些文件？

浏览 10提问于2022-11-21得票数 2

1回答

在数据库中找不到config.yml

、

现在，我正试图在databricks上托管它，这样我就可以将它作为笔记本运行。我已经将所有python文件导入到databricks工作区。但是，在执行主.py文件时，我得到以下错误因为Databricks不允许我将.yml文件导入工作空间。如何运行这个python项目，以便它能够正确地读取.yml文件

浏览 2提问于2021-02-12得票数 0

回答已采纳

3回答

单元测试: NameError:未定义名称'dbutils‘

、、、

如何在不导入.ipynb文件的情况下从Databricks .ipynb中测试python文件？例如，我试图在桌面上使用VS代码中的unittest，在那里我从实例中克隆了.ipynb文件。一旦我在本地运行这个程序，我就有一个简单的单元测试来读取CSV。问题是，当我尝试从我正在测试的文件(csv_to_parquet)加载一个--单个函数--时，测试尝试加载整个

浏览 7提问于2020-04-15得票数 1

1回答

酸洗文件

、、、、

我使用kedro与databricks-连接来运行我的机器学习模型。我使用databricks笔记本对模型进行了培训和测试，并保存了模型的泡菜文件以存储蓝色的blob。为了在本地测试管道，我下载了泡菜文件并在本地存储它。kedro在本地存储时可以很好地读取文件，但是问题是当我尝试从azure直接将文件读入kedro时，我得到了以下错误：“无效加载键？”我的想法是，泡菜文件在天蓝色时

浏览 2提问于2022-04-01得票数 -1

1回答

我正在尝试使用spark读取vcf文件。Spark 3.0 spark.read.format("com.databricks.vcf").load("vcfFilePath") 错误： java.lang.ClassNotFoundException: Failed to find data source: com.databricks.vcf.org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSour

浏览 44提问于2021-01-03得票数 0

回答已采纳

1回答

我们能否在没有spark.sql的情况下将数据从熊猫数据加载到databricks表

、、、

我使用databricks python连接器从databricks表中选择数据。选择是有效的。但我无法从csv或熊猫的数据加载到数据库。我是否可以使用databricks python连接器将csv/pandas数据中的大量数据加载到databricks表中？cursor.fetchall_arrow().to_pandas() print("Exception Occurre

浏览 5提问于2022-08-19得票数 0

1回答

从文件系统中填充Properties对象

、、、、

TL:DR或者，是否有一种方法可以将星火数据帧行转换为一组文本键/值对( Scala会理解)？全面问题：属性文件不是本地的，它位于Databricks集群上。尝试从"dbfs:/“或"/dbfs”读取文件时，在使用scala.io.Source库时找不到文件。我猜Source无法识

浏览 4提问于2020-12-29得票数 1

回答已采纳

1回答

Azure数据库与Unix文件系统的集成

、、、、

我正在寻找帮助了解Unix文件系统与Azure DataBricks的集成。我想连接到on文件系统，并通过DataBricks访问相关文件和进程，并加载到ADLS Gen2中。我知道，如果这些文件在DBFS中可用，我们应该能够处理。但我的要求是针对使用Azure技术(如Azure DataBricks或Azure DataFactory )的requirement文件系统上可用的<

浏览 1提问于2022-06-10得票数 1

2回答

列出位于数据湖中的文件夹中的所有文件

、、、、

我正在尝试获取一个文件夹中所有文件的清单，该文件夹有几个子文件夹，所有这些子文件夹都位于一个数据湖中。下面是我正在测试的代码。files: print(df) 我在Azure Databricks工作。

浏览 0提问于2019-11-07得票数 5

2回答

在Databricks中将Azure Data Lake存储为外部表

、、、

如何在Azure Databricks中创建从Azure Data Lake Store读取的外部表？如果可能的话，我在文档中看到了一些问题。我在Azure Data lake Store中的特定文件夹中有一组CSV文件，我想在Azure Databricks中创建一个指向CSV文件的外部表。

浏览 3提问于2018-03-29得票数 2

1回答

连接本地木星集线器到Azure数据库星团

、、、

虽然databricks允许使用远程内核访问它- ，但它不能读取木星实验室上的本地文件。有没有任何方法可以使用星火集群与本地的jupyter实验室，如？非常感谢

浏览 5提问于2022-04-06得票数 0

1回答

使用Pyspark从文件夹中加载XML文件

、

我想要从一个特定的文件夹加载XML文件。但我不想使用com.databricks.spark.xml包。在每个示例中，我都使用了com.databricks.spark.xml包。在没有此包的情况下，是否有读取XML文件的方法？

浏览 0提问于2019-04-24得票数 0

2回答

使用SparkR 1.5从RStudio中的hdfs读取大文件(纯文本、xml、json、csv)的选项

、、

我是Spark的新手，我想知道除了下面这些选项之外，是否还有其他选项可以使用SparkR从RStudio中读取存储在hdfs中的数据，或者我是否正确使用它们。我知道不应该再使用textFile(sc，path)了，但是除了read.df函数之外，还有其他方法可以读取这类数据吗？SparkR) sc <- sparkR.init(master="local", sparkPackages="com.<e

浏览 6提问于2015-09-15得票数 5

1回答

带有多字符分隔符的Apache火花数据文件

、、、

我有一个使用多字符分隔符的"CSV“文件，因此数据看起来类似于在Databricks内部的笔记本中，下面的代码会在第二行抛出错误错误：更新：我的错，

浏览 1提问于2022-05-12得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么电火花不能读取这个csv文件？

不能直接从GCP数据库中读取熊猫

使用自定义模式创建一个拼花文件

数据库上的火花-缓存Hive表

从Databricks* Autoloader获取已加载文件的列表*

加载到Databricks的泡菜文件

在数据库中找不到config.yml

单元测试: NameError:未定义名称'dbutils‘

酸洗文件

无法通过spark读取VCF文件

我们能否在没有spark.sql的情况下将数据从熊猫数据加载到databricks表

从文件系统中填充Properties对象

Azure数据库与Unix文件系统的集成

列出位于数据湖中的文件夹中的所有文件

在Databricks中将Azure Data Lake存储为外部表

连接本地木星集线器到Azure数据库星团

使用Pyspark从文件夹中加载XML文件

使用SparkR 1.5从RStudio中的hdfs读取大文件(纯文本、xml、json、csv)的选项

带有多字符分隔符的Apache火花数据文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐