将txt文件作为PySpark数据帧读取

、

我想将txt读取为PySpark数据帧，它由不均匀的空格分隔。我试着用一个空格分隔，但没有正确对齐。示例TXT输入： id daily_date day_of_week fiscal_week fiscal_month fiscal_year yearweek 1 2010-01-03

浏览 8提问于2021-01-18得票数 0

回答已采纳

1回答

使用配置单元元数据读取HDFS文件- Pyspark

、、、、

我是PySpark新手，正在尝试读取HDFS文件(上面创建了hive表)并创建PySpark数据帧。通过PySpark读取配置单元表非常耗时。我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数，以便从配置单元元数据(可能是元数据xml)中获取模式/列名称，并作为dataframe返回。请指教

浏览 15提问于2019-03-06得票数 0

回答已采纳

1回答

以第三行为标题读取pyspark中的excel文件

、、

我想读取excel文件作为spark数据帧，第3行作为header.The synatax，读取excel文件作为spark数据帧，第1行作为标题是： s_df = spark.read.format.option("inferSchema", "true") \ .load(path

浏览 86提问于2021-04-07得票数 2

回答已采纳

1回答

使用pyspark从S3读取csv作为spark数据帧(Spark2.4)

、、、、

我想从s3 (s3://test-bucket/testkey.csv)读取一个csv文件，作为使用pyspark的spark数据帧。我的集群运行在spark 2.4上。并且csv文件不会作为粘合表被爬行。你可以粘贴你的pyspark代码，这是基于spark会话，并转换为csv到spark数据帧在这里？在此先致谢并致以最良好的问候

浏览 16提问于2019-10-07得票数 3

2回答

如何在pyspark中导入以‘to’分隔的.txt文件

、、

我在亚马逊网络服务s3中有一个分隔的.txt文件。虽然databricks方法运行时没有抛出错误，但数据帧中没有数据。spark上下文只是抛出了一个错误- Cannot run multiple SparkContexts at once.from pyspark.sql.functions import * df = sqlContext.read.format("com.databr

浏览 4提问于2017-09-01得票数 0

1回答

我们导入一个具有地理列的数据集。这个geo-column表示一条线。当我将数据导入到数据帧中时，geo-column中的数据如下所示： LINESTRING (155337.4045392797 368804.3359240878,155355.9229438164 368779.3184124769,155373.0222553128368596.075214043,155466.4756062801 368586.0079242395,155491.8449842462 368569

浏览 44提问于2021-08-09得票数 0

回答已采纳

1回答

如何使用Pyspark从xml文件创建子数据帧？

我在pyspark中有所有这些支持库，并且我能够为parent创建数据帧- def xmlReader(root, row, filename): return xref df1.head() 我无法创建子<em

浏览 11提问于2019-03-15得票数 0

5回答

如何将xlsx或xls文件作为spark dataframe读取

、、

有没有人可以在不转换xlsx或xls文件的情况下让我知道，我们如何才能将它们作为spark数据帧读取？我已经尝试使用pandas读取数据，然后尝试转换为spark dataframe，但得到错误，错误是Cannot merge type <class 'pyspark.sql.types.DoubleType'> and <class 'pyspark.sql.types.St

浏览 25提问于2019-06-03得票数 8

1回答

PySpark使用自定义记录分隔符读取CSV文件

、、、

在pyspark中读取csv文件时，有没有办法使用自定义记录分隔符？在我的文件中，记录用**分隔，而不是换行符。在将csv读入PySpark数据帧时，有没有办法使用这个自定义的行/记录分隔符？

浏览 15提问于2021-05-26得票数 0

1回答

将pandas数据帧转换为spark数据帧时收到错误

、、

由于在spark中没有对读取excel文件的开箱即用的支持，所以我首先将excel文件读取到pandas数据帧中，然后尝试将pandas数据帧转换为spark数据帧，但我得到了以下错误(我使用spark1.5.1)from pandas import ExcelFilefr

浏览 0提问于2016-01-15得票数 2

1回答

Py4JJavaError:调用o389.csv时出错

、、

我正在使用databricks运行pyspark。我的数据存储在Azure数据湖服务中。我正在尝试将csv文件从ADLS读取到pyspark数据帧。所以我写了下面的代码 import pysparkfrom pyspark import SparkFiles df = sqlContext.read.csv

浏览 27提问于2020-10-05得票数 2

1回答

如何从多个目录中读取多个.parquet文件到单个pandas数据帧中？

、

我需要从多个目录中读取拼图文件。.parquet .parquet 有没有办法将这些文件读取到单个pandas数据帧中？注意:所有的拼图文件都是使用pyspark生成的。

浏览 87提问于2020-01-15得票数 3

回答已采纳

1回答

在pyspark中连接同名的Dataframe

、、、、

我有两个数据帧，它们是从两个csv文件中读取的。代码dfFinal = dfFinal.join(df2, on=['NUMBER'], how='inner')连接这两个使用NUMBER coumn的数据，生成的新数据帧如下。30| 4| 70|但我无法将此数据<em

浏览 1提问于2018-10-03得票数 1

1回答

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

、、、、

我有220 GB的数据。我已经将其作为两列读取到spark dataframe中: JournalID和Text。现在，我的数据帧中缺少27行。然后，我使用一元和二元语法列上的pyspark的TF和IDF类计算TFIDF，并将其作为另一列添加到dataframe中。我想将支持向量机应用于所有类型的核，以TFIDF向量作为特征，以JournalID作为标签。由于多类支持向量机不存在于pyspark的ML包中，我将不得不

浏览 1提问于2018-12-17得票数 0

1回答

快速拼接:如何禁用rle编码

、、、

我正在使用files parquet将pandas数据帧转换为parquet文件。这比我之前使用pyspark的方法要快得多。Unsupported encoding: RLE 有没有办法在使用快速拼接write方法时禁用RLE？

浏览 4提问于2017-05-11得票数 1

2回答

Pyspark发出将tsv文件加载为数据文件的问题。

、

下面的数据作为标签分隔格式的.txt文件存储在blob存储中。我使用pyspark.sql将数据作为pyspark.sql.df加载到databricks中。from pyspark.sql.types import * StructField('LU', StringType(), True),Str

浏览 8提问于2020-04-11得票数 1

1回答

使用PySpark从Blob存储容器加载CSV文件

、、、

我无法使用Jupyter Notebook中的PySpark将CSV文件从Azure Blob Storage直接加载到RDD中。我知道我也可以使用Pandas将数据加载到Notebook中，但之后我需要将Panda DF转换为RDD。我理想的解决方案应该是这样的，但是这个特定的代码给我的错误是它不能推断出CSV的模式。inferSchema", "true").option("url",source).load() 我也看过这个答案：reading a

浏览 21提问于2019-04-28得票数 0

1回答

将ArrayType中的值解压缩为df中的列

、、、

我有下面的pyspark dataframe，它是我通过读取一个JSON文件创建的，我想解压列内容中的值，并使用键作为新列，值作为同一数据帧中的值。我怎么能这么做呢？在将JSON文件作为数据帧读取之前，我必须修改它吗?或者我可以在数据帧上执行操作吗？json文件结构： {"account_id&quo

浏览 2提问于2020-04-18得票数 0

1回答

Azure权限中的Databricks notebooks沿袭

、、

如果我将文件从ADLS读取到PySpark数据帧中，并以不同文件格式写回另一个ADLS文件夹，那么在配置单元中捕获的谱系是否会显示为这种操作的谱系？

浏览 24提问于2021-09-28得票数 0

1回答

Avro schema ( .avsc )在Pyspark中的实施

、、

有人可以帮助我通过Pyspark读取avro schema (.avsc )，并在将数据帧写入目标存储时强制执行它吗？我所有的targetr表模式都是以.avsc文件的形式提供的，在Pyspark中保存我的数据框架时，我需要提供这个自定义模式。我知道有像databricks的spark-avro这样的库。

浏览 19提问于2021-03-23得票数 1

点击加载更多