如何使用PySpark将大量数据帧记录发送到API

文章/答案/技术大牛

发布

1回答

、

如何批量发送数据帧元组到API。*'r = requests.post('https://api.somewhere/batch', params={}, headers=headers, json=data) 如果JSON有效

浏览 15提问于2019-09-24得票数 0

回答已采纳

1回答

在PySpark (本地)上编程与在Jupyter Notebook上使用Python编程

、、

最近我一直在使用pySpark，所以我已经习惯了它的语法、不同的API和HiveContext函数。很多时候，当我开始处理一个项目时，我并不完全知道它的范围是什么，或者输入数据的大小，所以有时我最终需要分布式计算的全部功能，而在另一些情况下，我最终得到了一些在我的本地计算机上运行良好的脚本。我的问题是，与常规的Python/Pandas相比，将pySpark作为我的主要语言进行编码是否存在劣势，即使只是进行一些探索性分析？我这么问主要是因为在不同语言之间切换的认知工作，以及如果

浏览 0提问于2016-07-27得票数 1

1回答

如何从pyspark dataframe中更快地保存csv文件？

、、、

我目前在本地的windows10系统上使用pyspark。pyspark代码运行得相当快，但将pyspark数据帧保存为csv格式需要花费大量时间。我正在将pyspark数据帧转换为pandas，然后将其保存到csv文件中。我还尝试使用write方法来保存csv文件。有没有更快的方法来保存来自pyspark dataframe的csv文件？

浏览 126提问于2019-08-01得票数 5

1回答

将文件从S3存储桶读取到PySpark数据帧Boto3

、、、

如何将S3存储桶中的大量文件加载到单个PySpark数据帧中？我在一个EMR实例上运行。如果文件是本地的，我可以使用SparkContext textFile方法。但是当文件在S3上时，我如何使用boto3加载多个不同类型的文件(CSV，JSON，...)转换成一个单独的数据帧进行处理？

浏览 0提问于2018-05-29得票数 3

回答已采纳

1回答

PySpark使用自定义记录分隔符读取CSV文件

、、、

在pyspark中读取csv文件时，有没有办法使用自定义记录分隔符？在我的文件中，记录用**分隔，而不是换行符。在将csv读入PySpark数据帧时，有没有办法使用这个自定义的行/记录分隔符？

浏览 15提问于2021-05-26得票数 0

1回答

windowPartitionBy和pyspark中的重新分区

、、、

我在SparkR中有一个小代码，我想把它转换成pyspark。我对这个windowPartitionBy并不熟悉，并且重新分区。你能帮我了解一下这段代码是做什么的吗？

浏览 34提问于2020-12-18得票数 0

回答已采纳

1回答

Pyspark使用窗口函数和我自己的函数

、、、

我希望用pyspark和spark dataframe做同样的事情。我知道我必须使用窗口函数，但它比熊猫更难理解，所以我迷路了…… 我有这个，但我不知道如何让它工作。

浏览 29提问于2020-06-26得票数 0

回答已采纳

2回答

使用Python将Dask Dataframe转换为Spark dataframe

、、、、

我想将Dask Dataframe转换为Spark Dataframe。import dask.dataframe as ddspark_df = spark_session.createDataFrame(dask_df)

浏览 18提问于2021-02-25得票数 0

1回答

Pyspark管道在pandas数据帧上的应用

、、、

我有一个pyspark管道(包含估算和一个机器学习模型)和一个pandas数据帧。我是否可以在不将其转换为Pyspark dataframe的情况下将管道应用于此pandas数据帧？如果不可能，我如何有效地使用pyspark管道来生成对pandas数据帧的预测？

浏览 3提问于2021-09-13得票数 1

1回答

使用自定义列和记录删除器读取pyspark中的文件

、、、

在pyspark中读取csv文件时，有没有办法使用自定义记录分隔符？在我的文件中，记录用**分隔，而不是换行符。在将csv读入PySpark数据帧时，有没有办法使用这个自定义的行/记录分隔符？我的列分隔符也是';‘下面的代码正确地获取了列，但它只计为一行sc = SparkSession.builder.ap

浏览 11提问于2021-05-26得票数 0

2回答

从RDD中的Pandas DataFrames创建Spark DataFrame

、、

我正在尝试将每个worker节点(每个元素都是Pandas DataFrame的RDD )上的Pandas DataFrame转换为跨所有worker节点的Spark DataFrame。在完成熊猫处理后，我如何将其转换为Spark DataFrame？py4j.GatewayConnection.run(GatewayConnection.java:214) at java.lang.Thread.run(Thread.java:748) 有没有办法将每个

浏览 31提问于2019-06-05得票数 0

回答已采纳

1回答

如何在PySpark中对Spark大数据框中的每个行子集执行映射操作

、、、

我使用的是PySpark，我想做的事情如下：) df_agg.rdd.map(my_func) 其中"my_func“是一些主要做Spark数据帧计算的函数，我遇到了一些问题，不知道<em

浏览 2提问于2017-10-30得票数 1

1回答

如何使用PySpark更新hive表中的记录？

、

我们正在使用spark来处理大型数据，并且最近获得了新的用例，我们需要使用spark更新Hive表中的数据。下面是一个简单的例子:数据驻留在Hive表中，应用程序使用PySpark读取数据帧(比如PySpark)。例句:数据帧在列下面。EmpNo名称年龄工资2 bbbb 38 200004dd 30 32000 需

浏览 1提问于2019-03-29得票数 2

1回答

在spark数据帧中插入记录

、

我在pyspark有一个数据帧。||670098933| 53 |+---------+---------+ 最后，我希望将这个新的数据帧保存在磁盘上我如何在pyspark中做到这一点？(为了简单起见，我只保留了2列。在填补空白之前，我的实际数据帧有89列，大约有6.7亿条记录。)

浏览 4提问于2016-08-18得票数 2

2回答

如何将大的json数据发送到spring控制器

、、、

如何将大量json数据发送到spring控制器。比方说，我有大约100k或1000k记录的大型json数据，我需要在spring或springboot中发送到我的rest控制器，那么解决这个问题的最佳/最有效的方法是什么？我知道可以使用request body发送数据，但我认为在REST api的请求body中发送如此大量的数据效率不高。我可能错了，如果

浏览 1提问于2019-07-13得票数 1

2回答

pyspark.pandas和熊猫有什么区别？

、

开始在Databricks上使用PySpark，我看到我可以在pandas的同时导入pyspark.pandas。有什么不同吗？我想这不像koalas，对吧？

浏览 13提问于2022-09-20得票数 0

1回答

通过gspread_dataframe将数据框值写入google sheet

、、

我在一个自动化系统中工作，它包括将数据帧的值发送到google工作表，以下是我的示例数据帧代码，它与我正在处理的数据帧类似： #Creates a dictionary containing values我只需要发送到google sheet的数据框值，没有标题，这只是我正在处理的数据的一个样本，当然我需要数据帧中的标题，因为在发送到sheets

浏览 101提问于2021-10-12得票数 0

1回答