腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
Dataframes
:
在
python
中
创建
要在
集群
中
使用
的
特征
列
、
、
、
、
我正在尝试
在
pyspark
中
创建
实现k-means聚类。我
使用
mnist作为我
的
数据集,它有数百
列
和整数值。
在
创建
了一个数据框之后,当我尝试
创建
一个
要在
集群
中
使用
的
features
列
时,我不知道应该为VectorAssembler提供什么作为inputCols参数。下面是我
的
代码 sc = SparkConte
浏览 27
提问于2019-03-04
得票数 2
1
回答
Pyspark
- Redhat
集群
的
conda环境,但Mac计算机
、
、
、
、
我需要
创建
一个
使用
conda-pack打包
的
Python
环境,以便在
Pyspark
()
的
归档配置选项中
使用
。我想
要在
其上运行
Pyspark
的
集群
不能访问Internet,因此我需
要在
我
的
本地计算机(Mac操作系统)上准备conda环境,并将其scp到
在
Redhat上运行
的
集群
中
。
浏览 14
提问于2020-06-04
得票数 0
回答已采纳
1
回答
在
PySpark
中生成许多空
列
、
我有一个包含许多数据
的
列表,每一个都有一个主模式
的
子集模式。为了合并这些数据文件,我需
要在
所有数据文件之间构造一个公共模式。我
的
想法是,我需要为每个
dataframes
的
所有缺失
列
创建
空
列
。我平均有80个缺失
的
特征
和100个数据。这在某种程度上是复制
的
,或者是受启发
的
from
pyspark
.s
浏览 2
提问于2018-05-22
得票数 1
回答已采纳
1
回答
创建
一个完全隔离
的
python
venv
、
、
、
、
我
在
yarn
集群
上部署了
pyspark
应用程序,在所有节点都可以访问
的
挂载上部署了
python
venv。我遇到
的
问题是,节点上
的
python
安装是不一致
的
,有些节点安装了必需
的
模块(这是
python
构建
的
一部分),而其他节点则不安装,这会导致频繁
的
崩溃。我注意到,
在
使用
python
-m venv
创建
浏览 23
提问于2022-10-10
得票数 0
1
回答
如何
使用
虚拟环境(包括
python
3解释器)来打包吡火花代码?
、
、
、
、
我正试图让我
的
火花放电应用程序
在
纱线
集群
上运行。应用程序
使用
某些需要
python
3
的
库。然而,纱线
集群
使用
python
2,没有安装
python
3。是否有一种方法可以用
python
3和所有核心
python
3库来打包我
的
pyspark
应用程序。 我一直遵循这些步骤来
创建
虚拟环境。我注意到venv/bin/
浏览 3
提问于2020-02-12
得票数 5
1
回答
在
pyspark
的
现有dataframe
中
添加新
列
的
方法是什么?
、
、
、
我已经
在
现有的数据框
中
添加了一个新
列
,但它没有反映在数据帧
中
。customerDf.withColumn("fullname",expr("concat(firstname,'|',lastname)"))有没有办法向现有的dataframe添加一个新
的
列
我们只有一个选择(熊猫
中
的
inplace=True)。我们
在
pyspark
中有
浏览 4
提问于2021-01-26
得票数 0
3
回答
Azure数据库
中
的
Python
版本
、
、
我试图找出我
在
Databricks中
使用
的
python
版本。想知道我试过print(sys.version)然而,当我去
集群
-> SparkUI ->环境%sh
python
--version每个工作人员/驱动程序节点会有不同
的
pyt
浏览 2
提问于2020-06-10
得票数 5
回答已采纳
1
回答
更改EMR
集群
中
Livy
使用
的
Python
版本
、
、
Livy继续
使用
Python
2.7,不管
使用
什么。 这是
在
EMR
集群
上运行Livy 0.6.0。
在
hadoop用户、我
的
用户、根用户和EC2-用户
中
,我已经将
PYSPARK
_
PYTHON
环境变量更改为/usr/bin/
python
3。Livy一直
在
使用
python
2.7。test --url http:/&
浏览 6
提问于2021-05-03
得票数 2
2
回答
EMR无法运行
python
3.x
、
、
我
在
EMR
中
添加了一个步骤来运行一个火花放电作业。然而,我最终得到了错误这让我怀疑EMR默认版本
python
2.7ami版本im
使用
的
是5.25.0,这是相当新
的
,根据文档应该已经安装了3.6。我添加了shebang来提供可执行文件。
浏览 0
提问于2019-09-09
得票数 0
回答已采纳
1
回答
我是否需要
使用
普通
的
python
,除了
pyspark
,或者
pyspark
拥有我所需要
的
所有东西?
、
、
、
我
的
公司正转向
使用
Hadoop & learning进行机器学习。我知道
python
在库
中
是非常全面的,但是当我们切换到
pyspark
时,如果我们需要
的
东西还没有
在
pyspark
中
可用呢?而且,继续
使用
python
可能更容易一些,因为我已经知道了
python
.So: 我可以运行我
的
普通
python
代码
的
火花,但仍然得
浏览 4
提问于2017-08-30
得票数 0
2
回答
火花数据并行读取
、
当
使用
吡火花时,您可以
在
sc.textFile方法
中
设置减少
的
数量,这样您就可以更快地从S3
中
读取一个文件,就像解释
的
一样。这很好,但从Spark1.3开始,我们也可以开始
使用
DataFrames
。对于星火
DataFrames
来说,这样
的
事情也可能发生吗?我正在尝试将它们从S3加载到一个星火
集群
(它是通过
创建
的
)。基本上,我试图让这段代码对非常大
的</em
浏览 5
提问于2015-05-01
得票数 0
回答已采纳
1
回答
PySpark
代码是
在
JVM还是
中
运行
的
?
、
、
当我
使用
python
3 t1.py运行以下名为t1.py
的
脚本时,我想了解在这个引擎盖下面发生了什么。具体来说,我有以下问题: 什么样
的
代码被提交到火花工作节点?是
python
代码还是提交给spark节点
的
等效Java代码?是还原
中
作为UDF处理
的
添加操作,因此运行在工作者节点上
的
python
子进程
中
?如果添加操作运行在工人节点上
的
python
子进程
中</
浏览 0
提问于2020-05-15
得票数 9
回答已采纳
2
回答
AWS ModuleNotFoundError:没有名为“pyarrow”
的
模块
、
、
、
、
使用
AWS EMR w/ Spark 2.4.3export
PYSPARK
_
PYTHON
=
python
3
在
火花壳
中
证实了这一点sc.pythonExec
pyth
浏览 2
提问于2019-08-01
得票数 4
回答已采纳
2
回答
在
Zeppelin解释器
中
设置特定
的
Python
、
除了设置"zeppelin.
pyspark
.
python
“以使齐柏林飞艇解释器成为特定
的
Python
可执行文件外,我还需要做什么?我正在
使用
连接到Spark+Mesos
集群
的
Apache。
集群
几年来一直运转良好。齐柏林飞艇是新
的
,一般工作良好。 但是,我无法
在
应用于
pyspark
中
的
RDD
的
函数中导入numpy。当我
使用
浏览 0
提问于2017-03-16
得票数 4
回答已采纳
1
回答
在
星星之火
的
dataproc
集群
上运行特定
的
虚拟Run提交就像在香草星火中一样
、
、
当我
在
普通星火
集群
上运行,并且想要针对特定
的
虚拟环境运行一个
pyspark
脚本时,我可以
创建
虚拟环境,根据需要安装包,然后将环境压缩到一个文件
中
,比如venv.zip。"] = "VENV/bin/
python
"
在
script.py
中
,代码将针对虚拟环境运行,而spark将处理将虚拟环境提供给所有
集群
的
操作。当我
在
dataproc上
浏览 4
提问于2017-10-26
得票数 1
回答已采纳
1
回答
如何让
PySpark
在上工作
、
、
我发现是非常有希望
的
托管Airflow服务,但我不知道如何
使用
Composer
使用
PySpark
代码执行管道。我能够安装其他
Python
软件包,例如Pandas,并
使用
Composer。任何指针都是非常感谢
的
。
浏览 1
提问于2021-07-03
得票数 1
回答已采纳
1
回答
当
使用
火花提交时,哪里执行
python
脚本?
、
、
、
、
我试图发送一个完整
的
conda环境下
的
,
在
执行spark-submit时,
在
客户端模式中
使用
参数--archives来实现纱线。但是问题是,主要
的
python
脚本在哪里运行,因为我需要指定我
的
共享conda环境
的
位置,以便在没有错误
的
情况下执行,因为
在
主机
中
,我试图退出spark-submit,我没有安装依赖项,而且我不想安装它我
使用
这个特性来打包环境,我需要导入
浏览 5
提问于2019-10-29
得票数 0
回答已采纳
1
回答
库需要
使用
(
PySpark
)
、
、
、
我
使用
来自Django
的
PySpark
,并
使用
SparkSession连接到火花主节点,以
在
集群
上执行作业。 我
的
问题是,我是否需
要在
我
的
本地机器上安装完整
的
火花?所有文档都让我安装spark,然后将
PySpark
库添加到
python
中
。我不认为我需要所有的5亿b来连接到一个现有的
集群
。我
在
试着减轻我
的
码头集装
浏览 1
提问于2017-07-20
得票数 1
回答已采纳
1
回答
更改databricks上
的
路径环境变量
、
、
、
我需要更新我
的
python
路径,以便可以在数据库上
使用
python
3。
在
databricks notebook上: echo $PATH 然后,我运行: export PATH=/databricks
浏览 0
提问于2019-12-20
得票数 0
1
回答
在
集群
中
的
执行器上运行
python
脚本[Scala/Spark]
、
、
、
、
我有
python
脚本: print("hello " + line)def run(spark我可以
在
python
脚本
中
访问星火会话吗?或者我可以
在
python
脚本
中
创建
一个文件并将其保存到hdfs文件系统
中
?实际上,这正是我想要做
的
-
浏览 1
提问于2022-02-22
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用Python更改数据框中的指定列
使用 Python在Mattermost 中创建 ChatOps 聊天机器人|Linux 中国
在Python中如何使用列表推导式来创建一个列表
python yield在函数中起返回值中的使用
多版本 Python 在使用中的灵活切换
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券