腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何将
用户
定义
函数
应用于
读取
pyspark
数据
块
中
的
流
数据
、
、
、
、
我使用以下代码将事件中心
数据
读取
到
数据
块
中
。 ? 问:在read_df
数据
帧
中
,我
的
主体是加密
的
json。我想要应用一个
用户
定义
的
函数
,它返回一个包含解码后
的
正文值
的
datafarme。假设
函数
名为decode(encoded_body_value)。
如何将
其
应用于
<em
浏览 10
提问于2021-03-18
得票数 0
回答已采纳
1
回答
如何使用
pyspark
和自
定义
python
函数
处理均匀
的
to
流
、
、
我当前
的
设置是:我使用作为如何
读取
数据
的
示例,但是: 不能使用writeStream.start()"接收器,因为它在python
中
没有实现。当我尝试调用.rdd、.map或.flatMap时,我得到了一个
浏览 52
提问于2018-03-19
得票数 3
2
回答
我
的
spark代码没有使用Yarn aws EMR中所有可用
的
执行器
、
、
、
、
我已经编写了在本地运行
的
Spark代码。我已经创建了一个
用户
定义
的
函数
,该
函数
需要
应用于
通过交叉连接从本地文件
读取
的
两个表创建
的
数据
帧。df3 = spark.sql("select * from hello")
浏览 2
提问于2018-01-09
得票数 1
1
回答
Apache Spark使用SQL
函数
nTile对
数据
进行分区
、
、
我正在尝试多种方法来使用分区来优化大型
数据
集
的
执行。具体地说,我使用
的
是一个通常用于传统SQL
数据
库
的
函数
,称为nTile。目标是使用buckettind和重新分区
的
组合将一定数量
的
行放入一个存储桶
中
。这使得Apache Spark在处理分区
数据
集或存储桶
数据
集时能够更高效地处理
数据
。 下面是两个例子。第一个示例展示了我如何使用ntile将一个
数据
集拆分为两个存储
浏览 33
提问于2020-11-14
得票数 0
回答已采纳
1
回答
火花
流
DStream元素与RDD
、
、
、
我正在使用Spark
的
流
API,我只是想更好地了解如何最好地设计代码。我目前正在使用
pyspark
.streaming.kafka.createDirectStream的卡夫卡消费者(用火药厂) 火花
流
提供了一种称为离散
流
或DStream
的
高级抽象,它表示连续
的
数据
流
DStreams可以从卡夫卡、弗卢姆和动态等源
的
输入
数据
流
中
创建,也可以通过在其他DStr
浏览 4
提问于2016-02-29
得票数 0
8
回答
图形化
数据
流
组合框架
、
、
、
、
我有兴趣将一个类似的文字工具嵌入到我
的
应用程序
中
。在这种情况下,嵌入式工具单元被表示为
块
,每个
块
的
输入和输出端口以及参数使用我
的
块
定义
文件,以工具想要
的
任何方式编写。我希望框架是通用
的
,并从某个地方
读取
块
定义
,然后允许
用户
根据其
定义
组成给定
块
的
数据
流
(最好附
浏览 6
提问于2013-01-31
得票数 11
2
回答
Java
流
读取
实际上是如何工作
的
?
、
、
java输入流实际上是如何工作
的
?例如,当您调用inputstream.read()时,Java
如何将
文件分解为
数据
包?java是否关心文件是否是.mp3、.doc、.txt、.mov?java实际上是
如何将
所有这些不同
的
文件类型分解成可以
流
的
数据
包呢? 我非常感谢对这个问题
的
任何回答。
浏览 4
提问于2015-03-02
得票数 0
2
回答
Spark
流
处理二进制
数据
文件
、
我使用
的
是
pyspark
1.6.0。 我有现有的
pyspark
代码从亚马逊网络服务
的
S3桶
读取
二进制
数据
文件。其他Spark/Python代码将解析
数据
中
的
位,将其转换为int、string、boolean等。每个二进制文件都有一条
数据
记录。在
PYSPARK
中
,我使用: sc.binaryFiles("s3n://......."
浏览 3
提问于2016-06-29
得票数 6
1
回答
使用
PySpark
并行化自
定义
函数
、
我熟悉使用UDF将自
定义
函数
逐行
应用于
DataFrame。但是,我想知道
如何将
自
定义
函数
并行
应用于
我
的
DataFrame
的
不同子集。下面是一个简化
的
例子:import pandas as pd dummy_data = pd.DataFrame({'id':np.random.choice(['a','b',
浏览 1
提问于2018-07-20
得票数 2
1
回答
如何从二进制原型中提取JSON?
、
、
、
将ApacheSpark2.2.0结构化
流
考虑为:root正文中
的
数据
类型为协议缓冲区、v2和嵌套
的
JSON。message Data {} repeated Data entry = 1;如何提取星火内部
的
数据
以我查看了,但是当我在木星
中
运行我<
浏览 2
提问于2018-03-05
得票数 1
回答已采纳
1
回答
使用
pyspark
从s3
读取
流
数据
、
、
、
、
我想利用python
的
极其简单
的
文本解析和
函数
式编程能力,并利用丰富
的
科学计算库,如numpy和scipy,因此我想使用
pyspark
来完成一项任务。我一开始要执行
的
任务是从一个存储桶
中
读取
数据
,其中有文本文件作为
流
的
一部分被写入。有人可以粘贴一个代码片段,说明如何使用
pyspark
从s3路径
中
读取
流
数据
吗?直
浏览 1
提问于2015-04-11
得票数 2
3
回答
在Linux (ioctl)
中
,可以从内核空间调用
用户
空间回调
函数
吗?
、
、
、
是否可以在Linux
中
扩展ioctl接口,以便
用户
空间应用程序可以将指向
函数
的
指针发送到内核空间驱动程序?更具体地说,这将是一个过程:
数据
由这些
用户
定义
的<
浏览 3
提问于2010-04-22
得票数 8
回答已采纳
1
回答
运行spark.read.json时在json中找到重复列,即使没有重复列
、
、
、
在
PySpark
和Synapse
数据
流
中
,我遇到了非常奇怪
的
错误。 AnalysisException:在
数据
模式中找到重复列:amendationcomm
浏览 3
提问于2021-11-25
得票数 0
1
回答
如何将
星火
流
与Tensorflow集成?
、
、
、
、
目标:不断地将嗅探
的
网络包提供给卡夫卡生产商,将其与星火流连接起来,以便能够处理包
数据
,然后使用Tensorflow或Keras
中
的
预处理
数据
。我正在处理来自卡夫卡
的
火花
流
(
PySpark
)
中
的
连续
数据
,现在我想将处理过
的
数据
发送到Tensorflow。如何用Python在Tensorflow中使用这些转换后
的
DStreams?谢谢。目前没有任何
浏览 0
提问于2018-12-18
得票数 3
2
回答
从二进制文件
读取
字节到长int
我有两个问题: 如果
流
是;is.open ("test.txt",ios::二进制);字符串str;is。
读取
( str.c_str,40 );// 40字节应
读取</
浏览 2
提问于2011-11-05
得票数 4
回答已采纳
1
回答
如何在
PySpark
2.1.0
中
定义
事件时间窗口上
的
UDAF
、
、
、
、
我发现Apache Spark 2.0附带了结构化
流
,它支持事件时间
的
窗口操作。如果您希望从.csv文件
中
读取
有限
的
记录序列,并希望对这种滑动窗口中
的
记录进行计数,则可以在
PySpark
中使用以下代码: .format('console') \ query
浏览 21
提问于2017-03-12
得票数 2
回答已采纳
2
回答
将MinMaxScaler
应用于
PySpark
中
的
多列
、
、
我想将MinMaxScalar of
PySpark
应用于
PySpark
数据
帧df
的
多列。到目前为止,我只知道
如何将
其
应用于
单个列,例如x。from
pyspark
.ml.feature import MinMaxScaler pdf = pd.DataFrame({'x':range(3), 'y':[1,2,5], 'z':[100,200,1000对于
PySpark
<
浏览 0
提问于2020-02-18
得票数 17
回答已采纳
1
回答
将
用户
定义
的
聚合
函数
应用于
pyspark
中
的
替代方法
、
、
、
我试图将
用户
定义
的
聚合
函数
应用于
星火
数据
,以应用加性平滑,请参见下面的代码:findspark.init()from
pyspark
.sqlimport SQLContext try:据我理解,这不是很好<em
浏览 1
提问于2018-01-29
得票数 3
回答已采纳
3
回答
到达
定义
数据
流
问题
的
特例
、
定义
问题是
数据
流
分析中最基本
的
问题之一。给定一个包含变量
定义
和使用
的
控制
流
图,问题会导致计算哪些变量
定义
可以达到特定
的
使用。. <- x |在
块
3
中
变量x
的
使用可以从
块
1或
块
2
中
的
定义
中
得到。 计算哪
浏览 2
提问于2011-04-15
得票数 3
2
回答
第三方物流DataFlow对BlockingCollection
、
、
、
但是,何时使用来自ActionBlock库
的
? 我最初
的
理解是对于IO操作,保留BlockingCollection,而CPU密集型操作则优于ActionBlock。但我觉得这不是整个故事..。还有其他
的
见解吗?
浏览 5
提问于2014-01-16
得票数 7
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
用于在 TIA Portal Context 中读取和写入驱动数据的 SINAMICS 通信块 DriveLib
博途中如何将数据块的实际值转到初始值中?
Apache NiFi用户指南-数据流版本控制-版本化流程中的受限组件
PySpark数据分析基础:PySpark原理详解
开发近两年,流、Python、SQL重大更新全面解读
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券