腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
本地连接到客户端cassandra
、
、
、
我正在尝试
从
cassandra
获取
已安装在AWS ec2
中
的
数据。当我通过
pyspark
运行以下命令时,我能够
从
AWS读取,但是当我通过
spark
-submit提交相同
的
python文件时,我
从
本地
获取
rdd
。你能给我推荐一下我缺少配置
的
地方吗?from
pyspark
import SparkConf, SparkContext from
pyspark
浏览 0
提问于2017-04-14
得票数 2
1
回答
如何
批量收集
RDD
中
的
元素
、
、
我有一个
pyspark
RDD
,它有大约200万个元素。我不能一次收集它们,因为它会导致OutOfMemoryError异常。
如何
批量采集?这是一个潜在
的
解决方案,但我怀疑还有更好
的
方法:收集一个批处理(
使用
take、https://
spark
.apache.org/docs/3.1.2/api/python/reference/api/
pyspark
.
浏览 29
提问于2021-10-12
得票数 0
回答已采纳
1
回答
火花放电
rdd
分裂问题
、
、
我试图
从
rdd
中
筛选
值
为"01-10-2019“
的
print(" ### count of
rdd
_201901001:",
rdd
_2
浏览 5
提问于2020-02-08
得票数 1
回答已采纳
1
回答
如何
使用
PySpark
从
SPARK
中
的
RDD
中
获取
特定
值
、
、
以下是我
的
RDD
,有5个字段在这里我只需要
获取
第一,第三和第五个字段,
如何
在
PySpark
中
做。我尝试了reduceByKey
的
几种方法,但都不能实现Raju,40,True Mike,50,False
浏览 3
提问于2016-09-08
得票数 0
1
回答
socket.timeout mongoDB火花放电
、
、
、
、
我正在尝试
使用
mongoDB连接器在
SPARK
中
执行python文件。python文件执行一个查询,
从
mongoDB
获取
一些数据,然后他们
使用
星火中
的
映射操作来处理这些数据。,在bad_reviews = reviews_1.
rdd
.map(lambda r: r.text).collect()文件"/usr/local/
spark
/python/lib/
p
浏览 4
提问于2016-11-27
得票数 4
2
回答
如何
使用
Spark
Dstream进行简单
的
随机采样?(
使用
spark
1.6.1
的
pyspark
)
、
我想从数据流
中
的
rdds中提取样本。因为数据流没有sample()转换,它是一个rdds序列,所以我这样做是为了
从
数据流中提取样本,并对其应用字数计数:from
pyspark
import SparkConf conf=SparkConf() conf.set("
spark
.executor.memory
Sp
浏览 8
提问于2016-08-19
得票数 0
回答已采纳
2
回答
将数据保存到HDFS
的
格式是什么?
、
、
、
在dataframe或
rdd
中
是否有其他格式可用于在Hadoop中保存数据?
浏览 2
提问于2017-12-21
得票数 1
1
回答
对象在尝试收集
RDD
时不可迭代,
pyspark
、
、
、
、
我是
Spark
的
新手。在将一个顶级外部函数传递到
RDD
_old.reduceByKey之后,当我试图
从
RDD
_new收集结果时,出现了这个错误。in startTesting File "/usr/
spark
/python/lib/
pyspark
.zip/
pyspark
/
rdd
.py
浏览 0
提问于2017-03-08
得票数 0
1
回答
对kafka
的
pyspark
流提交偏移量
、
、
、
根据文档,可以
从
(scala)
spark
streaming应用程序进行。我想在
pyspark
上实现同样
的
功能。 或者至少将kafka分区、偏移量存储到外部数据存储(RDBMS等)。然而,用于kafka集成
的
pyspark
api只提供
RDD
(offset, value)]而不是
RDD
[ConsumerRecord] (与scala中一样)。有没有办法
从
python
RDD
中
获取
浏览 0
提问于2018-06-19
得票数 2
2
回答
Geoip2
的
python库在
pySpark
的
映射函数
中
不工作。
、
、
、
我正在
使用
Geoip2
的
python库和
pySpark
来
获取
一些I
的
地理地址。但当我试图在
rdd
.map
中
这样做时:print
rdd
.map(lambda x: ip2city(x)) Traceback (most recent call last): File "/home/wor
浏览 6
提问于2015-11-16
得票数 8
回答已采纳
1
回答
从
pyspark
dataframe
中
的
结构类型
获取
字段
值
、
我必须
从
csv文件(列名和数据类型)
中
获取
.I到目前为止已经达到
的
模式-Person = Row('name', 'age')我想提取name和age以及StringType和LongType
的
值
这
浏览 0
提问于2019-07-02
得票数 3
1
回答
如何
从
pyspark
中
检索
RDD
依赖关系?
、
、
、
如何
从
PySpark
中
检索
RDD
的
依赖关系?public final scala.collection.Seq<Dependency<?>> dependencies()我见过toDebugString方法。但这真的只适用于交互式
spark</em
浏览 2
提问于2017-12-25
得票数 0
2
回答
mkString在
PySpark
中
的
等价性是什么?
、
、
、
我正在将一个dataframe转换成一个管道分隔
的
值
,并将其写入shell (scala)
中
的
一个文件
中
。但我在
PySpark
方面毫无头绪。会很感激你
的
帮助。尤其是我不知道
如何
用“\”来连接每个列scala> val stgDF =
spark
.read.table("tbl") stgDF: org.apache.
spark
.sql.DataFrame= [name:
浏览 3
提问于2017-10-30
得票数 4
回答已采纳
1
回答
如何
将<class‘class’_. How .
、
、
、
、
我对
Spark
完全陌生,目前我正在尝试
使用
Python编写一段简单
的
代码,对一组数据执行KMeans操作。/lib/
pyspark
.zip/
pyspark
/worker.py",第106行
中
,在process serializer.dump_stream(split_index迭代器)
中
,在文件"/usr/hdp/2.5.0.0-1245/
spark
浏览 2
提问于2017-03-02
得票数 5
回答已采纳
1
回答
在
pyspark
中
使用
foreachRDD和foreach遍历
rdd
、
、
Spark
1.6.1,
pyspark
的
问题{"event":4,"Userid":12345,"time":123456789,"device_model":"iPhone
rdd
:正如您
从
输入格式中看到
的
,我必须
获取
原始数据集并迭代所有键,<e
浏览 2
提问于2016-05-28
得票数 1
4
回答
如何
在结构化流式传输中将数据帧转换为rdds?
、
我
使用
pyspark
流
从
kafka
获取
数据,结果是一个dataframe,当我将dataframe转换为
rdd
时,它出错了: Traceback (most recent call last):File "/home/softs/
spark
-2.4.3-bin-hadoop2.6/python/lib/
py
浏览 56
提问于2020-01-06
得票数 3
1
回答
无法
使用
pySpark
从
Presto SQL (Trino)
获取
数据
、
、
、
、
我有一个在AWS Glue上运行
的
pyspark
作业。当我在本地机器上运行代码时,它运行得很好。但是,当我尝试
从
AWS Glue运行相同
的
代码时,我无法
获取
数据。下面是我
的
代码和错误消息。
从
输出
中
,您会注意到我能够获得模式信息。只要我尝试
获取
数据,就会发生错误。 更新:发生此问题是因为工作节点无法访问主节点中存在
的
密钥库。是否有人可以帮助
如何
将文件复制到子节点,或者
如何
使文件可供子
浏览 90
提问于2020-12-31
得票数 1
回答已采纳
1
回答
使用
csv文件
中
的
pyspark
数据绘制
RDD
数据
、
、
、
、
我刚刚开始在非常大
的
csv文件上
使用
pyspark
。我
使用
的
是
Spark
版本2.1.0。我希望从一个.csv文件
中
读取数据,并将其加载到
中
,然后在过滤
特定
的
行之后,
使用
matplotlib绘制2列(纬度和经度),将其可视化。这就是我到目前为止所做
的
:from
pyspark
.sql import SparkSession from
pyspa
浏览 0
提问于2017-06-28
得票数 1
1
回答
如何
将
RDD
从
scala传递给python?
、
、
我试图将
Spark
从
Scala传递给Python,这样我就可以
从
PySpark
调用函数了。我
的
scala代码返回
rdd
.toJavaRDD(),然后我在python
中
通过以下方法阅读:from
pyspark
.
rdd
import
RDD
python_
rdd
=
RDD
(scala_r
浏览 1
提问于2022-01-29
得票数 1
1
回答
为什么将Dataframe转储到Avro文件不能转换Python
中
的
字节数组?
、
、
、
我面临以下困难:我正在
使用
Spark
1.4.1、Python2.7.8和
Spark
_2.10-1.0.0 conf = SparkConf().setAppN
浏览 3
提问于2015-09-07
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySpark,大数据处理的Python加速器!
如何使用DNS和SQLi从数据库中获取数据样本
遇见YI算法之初识Pyspark(二)
python如何使用Selenium获取弹出框架中的内容
机器学习实践:如何将Spark与Python结合?
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券