腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
将
txt
文件
作为
PySpark
数据
帧
读取
、
我想将
txt
读取
为
PySpark
数据
帧
,它由不均匀的空格分隔。我试着用一个空格分隔,但没有正确对齐。示例
TXT
输入: id daily_date day_of_week fiscal_week fiscal_month fiscal_year yearweek 1 2010-01-03
浏览 8
提问于2021-01-18
得票数 0
回答已采纳
1
回答
使用配置单元元
数据
读取
HDFS
文件
-
Pyspark
、
、
、
、
我是
PySpark
新手,正在尝试
读取
HDFS
文件
(上面创建了hive表)并创建
PySpark
数据
帧
。通过
PySpark
读取
配置单元表非常耗时。我希望
将
文件
位置、表名和
数据
库名
作为
输入传递给aa程序/函数,以便从配置单元元
数据
(可能是元
数据
xml)中获取模式/列名称,并
作为
dataframe返回。 请指教
浏览 15
提问于2019-03-06
得票数 0
回答已采纳
1
回答
以第三行为标题
读取
pyspark
中的excel
文件
、
、
我想
读取
excel
文件
作为
spark
数据
帧
,第3行
作为
header.The synatax,
读取
excel
文件
作为
spark
数据
帧
,第1行
作为
标题是: s_df = spark.read.format.option("inferSchema", "true") \ .load(path
浏览 86
提问于2021-04-07
得票数 2
回答已采纳
1
回答
使用
pyspark
从S3
读取
csv
作为
spark
数据
帧
(Spark2.4)
、
、
、
、
我想从s3 (s3://test-bucket/testkey.csv)
读取
一个csv
文件
,
作为
使用
pyspark
的spark
数据
帧
。我的集群运行在spark 2.4上。并且csv
文件
不会
作为
粘合表被爬行。 你可以粘贴你的
pyspark
代码,这是基于spark会话,并转换为csv到spark
数据
帧
在这里? 在此先致谢并致以最良好的问候
浏览 16
提问于2019-10-07
得票数 3
2
回答
如何在
pyspark
中导入以‘to’分隔的.
txt
文件
、
、
我在亚马逊网络服务s3中有一个分隔的.
txt
文件
。虽然databricks方法运行时没有抛出错误,但
数据
帧
中没有
数据
。spark上下文只是抛出了一个错误- Cannot run multiple SparkContexts at once.from
pyspark
.sql.functions import * df = sqlContext.read.format("com.databr
浏览 4
提问于2017-09-01
得票数 0
1
回答
计算databricks中线串(geo)的长度
、
、
、
我们导入一个具有地理列的
数据
集。这个geo-column表示一条线。当我
将
数据
导入到
数据
帧
中时,geo-column中的
数据
如下所示: LINESTRING (155337.4045392797 368804.3359240878,155355.9229438164 368779.3184124769,155373.0222553128368596.075214043,155466.4756062801 368586.0079242395,155491.8449842462 368569
浏览 44
提问于2021-08-09
得票数 0
回答已采纳
1
回答
如何使用
Pyspark
从xml
文件
创建子
数据
帧
?
我在
pyspark
中有所有这些支持库,并且我能够为parent创建
数据
帧
- def xmlReader(root, row, filename): return xref df1.head() 我无法创建子<em
浏览 11
提问于2019-03-15
得票数 0
5
回答
如何
将
xlsx或xls
文件
作为
spark dataframe
读取
、
、
有没有人可以在不转换xlsx或xls
文件
的情况下让我知道,我们如何才能将它们
作为
spark
数据
帧
读取
?我已经尝试使用pandas
读取
数据
,然后尝试转换为spark dataframe,但得到错误,错误是Cannot merge type <class '
pyspark
.sql.types.DoubleType'> and <class '
pyspark
.sql.types.St
浏览 25
提问于2019-06-03
得票数 8
1
回答
PySpark
使用自定义记录分隔符
读取
CSV
文件
、
、
、
在
pyspark
中
读取
csv
文件
时,有没有办法使用自定义记录分隔符?在我的
文件
中,记录用**分隔,而不是换行符。在
将
csv读入
PySpark
数据
帧
时,有没有办法使用这个自定义的行/记录分隔符?
浏览 15
提问于2021-05-26
得票数 0
1
回答
将
pandas
数据
帧
转换为spark
数据
帧
时收到错误
、
、
由于在spark中没有对
读取
excel
文件
的开箱即用的支持,所以我首先将excel
文件
读取
到pandas
数据
帧
中,然后尝试
将
pandas
数据
帧
转换为spark
数据
帧
,但我得到了以下错误(我使用spark1.5.1)from pandas import ExcelFilefr
浏览 0
提问于2016-01-15
得票数 2
1
回答
Py4JJavaError:调用o389.csv时出错
、
、
我正在使用databricks运行
pyspark
。我的
数据
存储在Azure
数据
湖服务中。我正在尝试
将
csv
文件
从ADLS
读取
到
pyspark
数据
帧
。所以我写了下面的代码 import
pyspark
from
pyspark
import SparkFiles df = sqlContext.read.csv
浏览 27
提问于2020-10-05
得票数 2
1
回答
如何从多个目录中
读取
多个.parquet
文件
到单个pandas
数据
帧
中?
、
我需要从多个目录中
读取
拼图
文件
。.parquet .parquet 有没有办法
将
这些
文件
读取
到单个pandas
数据
帧
中?注意:所有的拼图
文件
都是使用
pyspark
生成的。
浏览 87
提问于2020-01-15
得票数 3
回答已采纳
1
回答
在
pyspark
中连接同名的Dataframe
、
、
、
、
我有两个
数据
帧
,它们是从两个csv
文件
中
读取
的。代码dfFinal = dfFinal.join(df2, on=['NUMBER'], how='inner')连接这两个使用NUMBER coumn的
数据
,生成的新
数据
帧
如下。30| 4| 70|但我无法将此
数据
<em
浏览 1
提问于2018-10-03
得票数 1
1
回答
如何
将
Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )
、
、
、
、
我有220 GB的
数据
。我已经将其
作为
两列
读取
到spark dataframe中: JournalID和Text。现在,我的
数据
帧
中缺少27行。然后,我使用一元和二元语法列上的
pyspark
的TF和IDF类计算TFIDF,并将其
作为
另一列添加到dataframe中。我想将支持向量机应用于所有类型的核,以TFIDF向量
作为
特征,以JournalID
作为
标签。由于多类支持向量机不存在于
pyspark
的ML包中,我将不得不
浏览 1
提问于2018-12-17
得票数 0
1
回答
快速拼接:如何禁用rle编码
、
、
、
我正在使用files parquet
将
pandas
数据
帧
转换为parquet
文件
。这比我之前使用
pyspark
的方法要快得多。Unsupported encoding: RLE 有没有办法在使用快速拼接write方法时禁用RLE?
浏览 4
提问于2017-05-11
得票数 1
2
回答
Pyspark
发出
将
tsv
文件
加载为
数据
文件
的问题。
、
下面的
数据
作为
标签分隔格式的.
txt
文件
存储在blob存储中。我使用
pyspark
.sql
将
数据
作为
pyspark
.sql.df加载到databricks中。from
pyspark
.sql.types import * StructField('LU', StringType(), True),Str
浏览 8
提问于2020-04-11
得票数 1
1
回答
使用
PySpark
从Blob存储容器加载CSV
文件
、
、
、
我无法使用Jupyter Notebook中的
PySpark
将
CSV
文件
从Azure Blob Storage直接加载到RDD中。我知道我也可以使用Pandas
将
数据
加载到Notebook中,但之后我需要将Panda DF转换为RDD。 我理想的解决方案应该是这样的,但是这个特定的代码给我的错误是它不能推断出CSV的模式。inferSchema", "true").option("url",source).load() 我也看过这个答案:reading a
浏览 21
提问于2019-04-28
得票数 0
1
回答
将
ArrayType中的值解压缩为df中的列
、
、
、
我有下面的
pyspark
dataframe,它是我通过
读取
一个JSON
文件
创建的,我想解压列内容中的值,并使用键
作为
新列,值
作为
同一
数据
帧
中的值。我怎么能这么做呢?在
将
JSON
文件
作为
数据
帧
读取
之前,我必须修改它吗?或者我可以在
数据
帧
上执行操作吗?json
文件
结构: {"account_id&quo
浏览 2
提问于2020-04-18
得票数 0
1
回答
Azure权限中的Databricks notebooks沿袭
、
、
如果我
将
文件
从ADLS
读取
到
PySpark
数据
帧
中,并以不同
文件
格式写回另一个ADLS
文件
夹,那么在配置单元中捕获的谱系是否会显示为这种操作的谱系?
浏览 24
提问于2021-09-28
得票数 0
1
回答
Avro schema ( .avsc )在
Pyspark
中的实施
、
、
有人可以帮助我通过
Pyspark
读取
avro schema (.avsc ),并在
将
数据
帧
写入目标存储时强制执行它吗?我所有的targetr表模式都是以.avsc
文件
的形式提供的,在
Pyspark
中保存我的
数据
框架时,我需要提供这个自定义模式。我知道有像databricks的spark-avro这样的库。
浏览 19
提问于2021-03-23
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在CDH集群上部署Python3运行环境及运行Python作业
人生苦短,我用python之入门篇-3
python基础必知必会:将字符串、列表等数据保存为txt文本文件的方法
遇见YI算法之初识Pyspark(二)
Python Spark安装及配置步骤
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券