腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
PySpark
将
大量
数据
帧
记录
发送到
API
、
如何
批量发送
数据
帧
元组到
API
。*'r = requests.post('https://
api
.somewhere/batch', params={}, headers=headers, json=data) 如果JSON有效
浏览 15
提问于2019-09-24
得票数 0
回答已采纳
1
回答
在
PySpark
(本地)上编程与在Jupyter Notebook上
使用
Python编程
、
、
最近我一直在
使用
pySpark
,所以我已经习惯了它的语法、不同的
API
和HiveContext函数。很多时候,当我开始处理一个项目时,我并不完全知道它的范围是什么,或者输入
数据
的大小,所以有时我最终需要分布式计算的全部功能,而在另一些情况下,我最终得到了一些在我的本地计算机上运行良好的脚本。我的问题是,与常规的Python/Pandas相比,
将
pySpark
作为我的主要语言进行编码是否存在劣势,即使只是进行一些探索性分析?我这么问主要是因为在不同语言之间切换的认知工作,以及如果
浏览 0
提问于2016-07-27
得票数 1
1
回答
如何
从
pyspark
dataframe中更快地保存csv文件?
、
、
、
我目前在本地的windows10系统上
使用
pyspark
。
pyspark
代码运行得相当快,但
将
pyspark
数据
帧
保存为csv格式需要花费
大量
时间。我正在
将
pyspark
数据
帧
转换为pandas,然后将其保存到csv文件中。我还尝试
使用
write方法来保存csv文件。有没有更快的方法来保存来自
pyspark
dataframe的csv文件?
浏览 126
提问于2019-08-01
得票数 5
1
回答
将
文件从S3存储桶读取到
PySpark
数据
帧
Boto3
、
、
、
如何
将
S3存储桶中的
大量
文件加载到单个
PySpark
数据
帧
中?我在一个EMR实例上运行。如果文件是本地的,我可以
使用
SparkContext textFile方法。但是当文件在S3上时,我
如何
使用
boto3加载多个不同类型的文件(CSV,JSON,...)转换成一个单独的
数据
帧
进行处理?
浏览 0
提问于2018-05-29
得票数 3
回答已采纳
1
回答
PySpark
使用
自定义
记录
分隔符读取CSV文件
、
、
、
在
pyspark
中读取csv文件时,有没有办法
使用
自定义
记录
分隔符?在我的文件中,
记录
用**分隔,而不是换行符。在
将
csv读入
PySpark
数据
帧
时,有没有办法
使用
这个自定义的行/
记录
分隔符?
浏览 15
提问于2021-05-26
得票数 0
1
回答
windowPartitionBy和
pyspark
中的重新分区
、
、
、
我在SparkR中有一个小代码,我想把它转换成
pyspark
。我对这个windowPartitionBy并不熟悉,并且重新分区。你能帮我了解一下这段代码是做什么的吗?
浏览 34
提问于2020-12-18
得票数 0
回答已采纳
1
回答
Pyspark
使用
窗口函数和我自己的函数
、
、
、
我希望用
pyspark
和spark dataframe做同样的事情。我知道我必须
使用
窗口函数,但它比熊猫更难理解,所以我迷路了…… 我有这个,但我不知道
如何
让它工作。
浏览 29
提问于2020-06-26
得票数 0
回答已采纳
2
回答
使用
Python
将
Dask Dataframe转换为Spark dataframe
、
、
、
、
我想将Dask Dataframe转换为Spark Dataframe。import dask.dataframe as ddspark_df = spark_session.createDataFrame(dask_df)
浏览 18
提问于2021-02-25
得票数 0
1
回答
Pyspark
管道在pandas
数据
帧
上的应用
、
、
、
我有一个
pyspark
管道(包含估算和一个机器学习模型)和一个pandas
数据
帧
。我是否可以在不将其转换为
Pyspark
dataframe的情况下
将
管道应用于此pandas
数据
帧
?如果不可能,我
如何
有效地
使用
pyspark
管道来生成对pandas
数据
帧
的预测?
浏览 3
提问于2021-09-13
得票数 1
1
回答
使用
自定义列和
记录
删除器读取
pyspark
中的文件
、
、
、
在
pyspark
中读取csv文件时,有没有办法
使用
自定义
记录
分隔符?在我的文件中,
记录
用**分隔,而不是换行符。在
将
csv读入
PySpark
数据
帧
时,有没有办法
使用
这个自定义的行/
记录
分隔符?我的列分隔符也是';‘下面的代码正确地获取了列,但它只计为一行sc = SparkSession.builder.ap
浏览 11
提问于2021-05-26
得票数 0
2
回答
从RDD中的Pandas DataFrames创建Spark DataFrame
、
、
我正在尝试
将
每个worker节点(每个元素都是Pandas DataFrame的RDD )上的Pandas DataFrame转换为跨所有worker节点的Spark DataFrame。在完成熊猫处理后,我
如何
将其转换为Spark DataFrame?py4j.GatewayConnection.run(GatewayConnection.java:214) at java.lang.Thread.run(Thread.java:748) 有没有办法
将
每个
浏览 31
提问于2019-06-05
得票数 0
回答已采纳
1
回答
如何
在
PySpark
中对Spark大
数据
框中的每个行子集执行映射操作
、
、
、
我
使用
的是
PySpark
,我想做的事情如下:) df_agg.rdd.map(my_func) 其中"my_func“是一些主要做Spark
数据
帧
计算的函数,我遇到了一些问题,不知道<em
浏览 2
提问于2017-10-30
得票数 1
1
回答
如何
使用
PySpark
更新hive表中的
记录
?
、
我们正在
使用
spark来处理大型
数据
,并且最近获得了新的用例,我们需要
使用
spark更新Hive表中的
数据
。下面是一个简单的例子:
数据
驻留在Hive表中,应用程序
使用
PySpark
读取
数据
帧
(比如
PySpark
)。例句:
数据
帧
在列下面。EmpNo名称年龄工资2 bbbb 38 200004dd 30 32000 需
浏览 1
提问于2019-03-29
得票数 2
1
回答
在spark
数据
帧
中插入
记录
、
我在
pyspark
有一个
数据
帧
。||670098933| 53 |+---------+---------+ 最后,我希望
将
这个新的
数据
帧
保存在磁盘上我
如何
在
pyspark
中做到这一点?(为了简单起见,我只保留了2列。在填补空白之前,我的实际
数据
帧
有89列,大约有6.7亿条
记录
。)
浏览 4
提问于2016-08-18
得票数 2
2
回答
如何
将
大的json
数据
发送到
spring控制器
、
、
、
如何
将
大量
json
数据
发送到
spring控制器。比方说,我有大约100k或1000k
记录
的大型json
数据
,我需要在spring或springboot中
发送到
我的rest控制器,那么解决这个问题的最佳/最有效的方法是什么?我知道可以
使用
request body发送
数据
,但我认为在REST
api
的请求body中发送如此
大量
的
数据
效率不高。我可能错了,如果
浏览 1
提问于2019-07-13
得票数 1
2
回答
pyspark
.pandas和熊猫有什么区别?
、
开始在Databricks上
使用
PySpark
,我看到我可以在pandas的同时导入
pyspark
.pandas。有什么不同吗?我想这不像koalas,对吧?
浏览 13
提问于2022-09-20
得票数 0
1
回答
通过gspread_dataframe
将
数据
框值写入google sheet
、
、
我在一个自动化系统中工作,它包括
将
数据
帧
的值
发送到
google工作表,以下是我的示例
数据
帧
代码,它与我正在处理的
数据
帧
类似: #Creates a dictionary containing values我只需要
发送到
google sheet的
数据
框值,没有标题,这只是我正在处理的
数据
的一个样本,当然我需要
数据
帧
中的标题,因为在
发送到
sheets
浏览 101
提问于2021-10-12
得票数 0
1
回答
pyspark
在所有执行器上均匀地拆分负载
、
、
、
、
我有一个5节点集群,我正在
使用
pyspark
将
一个100k的csv文件加载到一个dataframe中,并执行一些etl操作,并将输出写入到一个parquet文件中。当我加载
数据
帧
时,
如何
在每个执行器处理20k
记录
的所有执行器0上均匀地划分
数据
集。
浏览 2
提问于2017-10-06
得票数 1
1
回答
给定一个类似csv的字符串,
如何
加载到Spark dataframe中?
、
我有一个字符串,格式与csv相同,第一行为列名,其余
记录
为
数据
。
如何
使用
pyspark
将此字符串加载到
数据
帧
中。
浏览 0
提问于2021-03-07
得票数 0
2
回答
在Bigquery中
使用
pyspark
将
数据
编码为ISO_8859_1
、
、
我的
pyspark
数据
帧
中有多语言字符。在
将
数据
写入bigquery之后,它向我显示了奇怪的字符,因为它的默认编码方案(utf-8)。
如何
使用
pyspark
/ dataproc
将
Bigquery中的编码更改为ISO_8859_1?
浏览 0
提问于2020-05-06
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券