如何将用户定义函数应用于读取pyspark数据块中的流数据

、、、、

我使用以下代码将事件中心数据读取到数据块中。 ? 问:在read_df数据帧中，我的主体是加密的json。我想要应用一个用户定义的函数，它返回一个包含解码后的正文值的datafarme。假设函数名为decode(encoded_body_value)。如何将其应用于<em

浏览 10提问于2021-03-18得票数 0

回答已采纳

1回答

如何使用pyspark和自定义python函数处理均匀的to流

、、

我当前的设置是：我使用作为如何读取数据的示例，但是：不能使用writeStream.start()"接收器，因为它在python中没有实现。当我尝试调用.rdd、.map或.flatMap时，我得到了一个

浏览 52提问于2018-03-19得票数 3

2回答

我的spark代码没有使用Yarn aws EMR中所有可用的执行器

、、、、

我已经编写了在本地运行的Spark代码。我已经创建了一个用户定义的函数，该函数需要应用于通过交叉连接从本地文件读取的两个表创建的数据帧。df3 = spark.sql("select * from hello")

浏览 2提问于2018-01-09得票数 1

1回答

Apache Spark使用SQL函数nTile对数据进行分区

、、

我正在尝试多种方法来使用分区来优化大型数据集的执行。具体地说，我使用的是一个通常用于传统SQL数据库的函数，称为nTile。目标是使用buckettind和重新分区的组合将一定数量的行放入一个存储桶中。这使得Apache Spark在处理分区数据集或存储桶数据集时能够更高效地处理数据。下面是两个例子。第一个示例展示了我如何使用ntile将一个数据集拆分为两个存储

浏览 33提问于2020-11-14得票数 0

回答已采纳

1回答

火花流DStream元素与RDD

、、、

我正在使用Spark的流API，我只是想更好地了解如何最好地设计代码。我目前正在使用pyspark.streaming.kafka.createDirectStream的卡夫卡消费者(用火药厂) 火花流提供了一种称为离散流或DStream的高级抽象，它表示连续的数据流DStreams可以从卡夫卡、弗卢姆和动态等源的输入数据流中创建，也可以通过在其他DStr

浏览 4提问于2016-02-29得票数 0

8回答

图形化数据流组合框架

、、、、

我有兴趣将一个类似的文字工具嵌入到我的应用程序中。在这种情况下，嵌入式工具单元被表示为块，每个块的输入和输出端口以及参数使用我的块定义文件，以工具想要的任何方式编写。我希望框架是通用的，并从某个地方读取块定义，然后允许用户根据其定义组成给定块的数据流(最好附

浏览 6提问于2013-01-31得票数 11

2回答

Java流读取实际上是如何工作的？

、、

java输入流实际上是如何工作的？例如，当您调用inputstream.read()时，Java如何将文件分解为数据包？java是否关心文件是否是.mp3、.doc、.txt、.mov？java实际上是如何将所有这些不同的文件类型分解成可以流的数据包呢？我非常感谢对这个问题的任何回答。

浏览 4提问于2015-03-02得票数 0

2回答

Spark流处理二进制数据文件

、

我使用的是pyspark 1.6.0。我有现有的pyspark代码从亚马逊网络服务的S3桶读取二进制数据文件。其他Spark/Python代码将解析数据中的位，将其转换为int、string、boolean等。每个二进制文件都有一条数据记录。在PYSPARK中，我使用: sc.binaryFiles("s3n://......."

浏览 3提问于2016-06-29得票数 6

1回答

使用PySpark并行化自定义函数

、

我熟悉使用UDF将自定义函数逐行应用于DataFrame。但是，我想知道如何将自定义函数并行应用于我的DataFrame的不同子集。下面是一个简化的例子：import pandas as pd dummy_data = pd.DataFrame({'id':np.random.choice(['a','b',

浏览 1提问于2018-07-20得票数 2

1回答

如何从二进制原型中提取JSON？

、、、

将ApacheSpark2.2.0结构化流考虑为：root正文中的数据类型为协议缓冲区、v2和嵌套的JSON。message Data {} repeated Data entry = 1;如何提取星火内部的数据以我查看了，但是当我在木星中运行我<

浏览 2提问于2018-03-05得票数 1

回答已采纳

1回答

使用pyspark从s3读取流数据

、、、、

我想利用python的极其简单的文本解析和函数式编程能力，并利用丰富的科学计算库，如numpy和scipy，因此我想使用pyspark来完成一项任务。我一开始要执行的任务是从一个存储桶中读取数据，其中有文本文件作为流的一部分被写入。有人可以粘贴一个代码片段，说明如何使用pyspark从s3路径中读取流数据吗？直

浏览 1提问于2015-04-11得票数 2

3回答

在Linux (ioctl)中，可以从内核空间调用用户空间回调函数吗？

、、、

是否可以在Linux中扩展ioctl接口，以便用户空间应用程序可以将指向函数的指针发送到内核空间驱动程序？更具体地说，这将是一个过程：数据由这些用户定义的<

浏览 3提问于2010-04-22得票数 8

回答已采纳

1回答

运行spark.read.json时在json中找到重复列，即使没有重复列

、、、

在PySpark和Synapse数据流中，我遇到了非常奇怪的错误。 AnalysisException:在数据模式中找到重复列：amendationcomm

浏览 3提问于2021-11-25得票数 0

1回答

如何将星火流与Tensorflow集成？

、、、、

目标：不断地将嗅探的网络包提供给卡夫卡生产商，将其与星火流连接起来，以便能够处理包数据，然后使用Tensorflow或Keras中的预处理数据。我正在处理来自卡夫卡的火花流(PySpark)中的连续数据，现在我想将处理过的数据发送到Tensorflow。如何用Python在Tensorflow中使用这些转换后的DStreams？谢谢。目前没有任何

浏览 0提问于2018-12-18得票数 3

2回答

从二进制文件读取字节到长int

我有两个问题：如果流是；is.open ("test.txt"，ios：：二进制)；字符串str；is。读取( str.c_str，40 )；// 40字节应读取</

浏览 2提问于2011-11-05得票数 4

回答已采纳

1回答

如何在PySpark* 2.1.0中定义事件时间窗口上的UDAF*

、、、、

我发现Apache Spark 2.0附带了结构化流，它支持事件时间的窗口操作。如果您希望从.csv文件中读取有限的记录序列，并希望对这种滑动窗口中的记录进行计数，则可以在PySpark中使用以下代码： .format('console') \ query

浏览 21提问于2017-03-12得票数 2

回答已采纳

2回答

将MinMaxScaler应用于PySpark中的多列

、、

我想将MinMaxScalar of PySpark应用于PySpark数据帧df的多列。到目前为止，我只知道如何将其应用于单个列，例如x。from pyspark.ml.feature import MinMaxScaler pdf = pd.DataFrame({'x':range(3), 'y':[1,2,5], 'z':[100,200,1000对于PySpark<

浏览 0提问于2020-02-18得票数 17

回答已采纳

1回答

将用户定义的聚合函数应用于pyspark中的替代方法

、、、

我试图将用户定义的聚合函数应用于星火数据，以应用加性平滑，请参见下面的代码：findspark.init()from pyspark.sqlimport SQLContext try:据我理解，这不是很好<em

浏览 1提问于2018-01-29得票数 3

回答已采纳

3回答

到达定义数据流问题的特例

、

定义问题是数据流分析中最基本的问题之一。给定一个包含变量定义和使用的控制流图，问题会导致计算哪些变量定义可以达到特定的使用。. <- x |在块3中变量x的使用可以从块1或块2中的定义中得到。计算哪

浏览 2提问于2011-04-15得票数 3

2回答

第三方物流DataFlow对BlockingCollection

、、、

但是，何时使用来自ActionBlock库的？我最初的理解是对于IO操作，保留BlockingCollection，而CPU密集型操作则优于ActionBlock。但我觉得这不是整个故事..。还有其他的见解吗？

浏览 5提问于2014-01-16得票数 7

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用pyspark和自定义python函数处理均匀的to流

我的spark代码没有使用Yarn aws EMR中所有可用的执行器

Apache Spark使用SQL函数nTile对数据进行分区

火花流DStream元素与RDD

图形化数据流组合框架

Java流读取实际上是如何工作的？

Spark流处理二进制数据文件

使用PySpark并行化自定义函数

如何从二进制原型中提取JSON？

使用pyspark从s3读取流数据

在Linux (ioctl)中，可以从内核空间调用用户空间回调函数吗？

运行spark.read.json时在json中找到重复列，即使没有重复列

如何将星火流与Tensorflow集成？

从二进制文件读取字节到长int

如何在PySpark* 2.1.0中定义事件时间窗口上的UDAF*

将MinMaxScaler应用于PySpark中的多列

将用户定义的聚合函数应用于pyspark中的替代方法

到达定义数据流问题的特例

第三方物流DataFlow对BlockingCollection

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐