腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
的
PCA
实现
可以
处理
多
少列
?
、
例如,我
可以
计算1,000,000列
的
主成分吗?
浏览 10
提问于2017-12-20
得票数 0
2
回答
如何在
spark
scala中保存
PCA
对象?
、
、
我正在对我
的
数据进行主成分分析,我从上阅读了指南import org.apache.
spark
.mllib.feature.
PCA
import org.apache.
spark
.rdd.RDD val data: RDD= new
PCA
(5).fit(d
浏览 19
提问于2021-03-12
得票数 0
回答已采纳
1
回答
星火中
的
PCA
输出与scikit不匹配-学习
、
、
、
、
我正在
Spark
中尝试主成分分析(
PCA
)。
PCA
时,学习如下所示,并给出不同
的
结果。为了验证结果,我从数学上计算了相同数据
的
PCA
。我从科学学习中得到了同样
的
结果。下面是第一个数据点(1.0,1.0)
的
pca
转换计算: 正如你所看到
的
,它与scikit
的
学习结果相匹配。
spark
似乎没有从数据向量X中减去平均向量MX,即它使用Y = A*(X)代替Y = A*(X-MX
浏览 2
提问于2017-12-12
得票数 6
1
回答
对groupBy
的
每一组PySpark执行主成分分析
、
、
、
、
我正在寻找一种方法来运行
spark
.ml.feature.
PCA
函数,该函数是在数据访问上
的
groupBy()调用返回
的
分组数据上运行
的
。但我不确定这是否可能,也不知道如何
实现
。df =
spark
.createDataFrame([[3, 1, 1], [4, 2, 1], [5, 2, 1], [3, 3, 2], [6, 2, 2], [4, 4, 2]], [=
PCA
(k=1, inputCol="features", o
浏览 6
提问于2017-07-21
得票数 10
2
回答
PySpark不规则执行
的
主成分分析
、
、
我正在用PySpark
处理
csv文件
的
PCA
。我得到了一些奇怪
的
行为;我
的
代码有时运行良好,但有时返回此错误: File "C:/
spark
/
spark
-2.1.0-bin-hadoop2.7/bin/
pca
_final2.py", line 25localhost, executor driver): java.net.SocketException: Connection reset b
浏览 1
提问于2017-03-14
得票数 4
回答已采纳
1
回答
SciKit-Learn:基本
的
PCA
混淆
、
我正在尝试使用SciKit-Learn在我
的
数据集上执行
PCA
。我目前有2,208行和53,741列(特性)。因此,我想使用
PCA
来降低这个数据集
的
维数。
pca
=
PCA
(n_components=0.95)据我所知,这应该会减
少列
数,这样它们总共
可以
解释我数据集中95%
的
方差。现在,我想看看X_reduced中还剩下多少个要素(列 X_reduc
浏览 7
提问于2017-07-06
得票数 2
回答已采纳
1
回答
火花
PCA
顶部元件
、
、
、
在用于
的
spark
文档中,有一个关于
PCA
的
部分,描述了如何在
spark
中使用
PCA
。computePrincipalComponents方法需要一个参数来确定我们想要
的
顶级组件
的
数量。在其他一些工具中,
PCA
给出了一个表格,显示如果我们选择这3个组件,我们将覆盖95 %
的
数据。那么,星火在它
的
库中有这个功能吗?或者如果它没有,我如何在星火中
实现
它?
浏览 8
提问于2015-11-06
得票数 0
回答已采纳
2
回答
将
PCA
应用于Apache
的
特定列
、
、
我试图将
PCA
应用于包含头和字段
的
数据集,这里是我使用
的
代码,任何帮助都
可以
选择我们应用
PCA
的
特定列。val projected: RowMatrix = mat.multiply(pc)val
spark
= SparkSession.builder.master("local").appName("my-
spark
-app").getOrCreate()
浏览 3
提问于2017-06-01
得票数 0
回答已采纳
1
回答
基于
PCA
的
星火异常检测
、
、
、
、
我读了下面的文章 ·
PCA
算法基本上将现有坐标系中
的
数据读数转换为新
的
坐标系。有人能更详细地描述使用
PCA
(利用
PCA
分数和Mahalanobis距离)检测异常
的
情况吗?我很困惑,因为
PCA
的
浏览 0
提问于2018-03-28
得票数 2
回答已采纳
1
回答
如何将sdf_predict()与库中
的
ml_
pca
()提供
的
模型一起使用
、
、
、
我得到了一个
pca
模型> library(dplyr)> iris_tbl<- tbl(sc, "iris") %>%+ ml_
pca
()Explained variance:0
浏览 6
提问于2016-12-11
得票数 2
回答已采纳
1
回答
TensorBoard投影仪中
的
主成分分析如何连接到训练好
的
模型?
、
、
我正在尝试用TensorFlow在结构化数据上
实现
一个
多
标签分类器。我使用具有两个完全连接
的
层
的
神经网络,但我还集成了嵌入,如此中所述,因此我
可以
在TensorBoard投影仪中看到
PCA
图。我注意到,当我更改模型时,
PCA
图保持不变。那么,TensorBoard投影是如何连接到模型
的
呢?我如何使用这个
PCA
的
结果来进行预测,例如找到与新样本最近
的
邻居?
浏览 5
提问于2018-02-11
得票数 0
回答已采纳
1
回答
如何使用apache
spark
MLlib
实现
小批量Kmeans?
、
、
、
我已经使用
spark
实现
了Kmeans。但由于我
的
数据量很大,而且功能非常
多
,所以我想使用Apache
spark
MLlib
实现
迷你批
处理
kmeans。有没有关于如何
实现
它
的
例子或文档?
浏览 8
提问于2017-05-02
得票数 0
1
回答
主成分分析在PySpark中
的
应用
、
、
、
、
Spark
MLlib是否支持Python
的
主成分分析?如果是这样,请给我举个例子。如果没有,如何将
Spark
与scikit-learn结合起来?
浏览 2
提问于2015-08-03
得票数 10
回答已采纳
1
回答
使用Python
的
Scikit-Learn确保分类器将信息丢失降至最低
、
、
、
、
我有一个有很多列/特征
的
数据集,我想建立ML模型,将数据分类为1和0,但我想减
少列
数。我读了很多关于feature selection
的
书,但有些东西我不太清楚。当我减
少列
/特征
的
数量时,我如何确保最少
的
信息丢失,或者我如何知道我是否丢失了大量信息?我
可以
删除
的
最佳特征数是多少,我如何知道我没有过度拟合模型?我用过
PCA
,我做了这样
的
东西: from sk
浏览 2
提问于2019-08-23
得票数 0
3
回答
PySpark -显示数据帧中列数据类型
的
计数
、
、
我如何查看
Spark
dataframe中每种数据类型
的
计数,就像我使用pandas数据帧一样?float_col 5 non-null float64memory usage: 200.0+ bytes 我们
可以
非常清楚地看到每种数据类型
的
计数我如何使用
spark
数据帧做类似的事情?也就是说,如何查看有多
少列
是浮点型
的
,有多
少列
是整型
的
,
浏览 16
提问于2018-08-03
得票数 4
回答已采纳
1
回答
减少拥抱变形金刚中隐藏单位
的
数量(BERT)
、
、
、
、
我得到了一个很大
的
csv,每一行都是一组BERT令牌,由hugging face BertTokenizer (https://huggingface.co/transformers/main_classes此文件中
的
1行代码如下: 101, 108, 31278, 90939, 70325, 196, 199, 71436, 10107, 29190, 10107, 106, 16680, 68314,120, 120, 188, 119, 11170, 120, 162, 11211, 11703, 12022,
浏览 14
提问于2020-04-07
得票数 1
回答已采纳
1
回答
如何在我
的
spark
流水线中集成ALS来
实现
非负矩阵分解?
、
、
、
、
我正在使用
spark
mllib训练朴素贝叶斯分类器模型,在那里我创建了一个管道来索引我
的
字符串特征,然后归一化并应用
PCA
进行降维,之后我训练我
的
朴素贝叶斯模型。当我运行管道时,我在
PCA
组件vector.On谷歌中得到负值。我发现我必须应用非负矩阵分解( NMF )来获得正向量,并且我发现ALS将使用方法.setnonnegative(true)
实现
NMF,但是我不知道如何在
PCA
之后将ALS集成到我
的
管道中。感谢您
的
帮助。谢谢。
浏览 2
提问于2017-07-31
得票数 0
1
回答
基于PySpark
的
Spark
2.3.0实例中
的
主成分分析
、
、
我有一个火花数据,我想使用运行一个简单
的
PCA
例子。=
PCA
(k=2, inputCol="features", outputCol="
pca
_features")我研究了使用RowMatrix ,但是我不理解这是否是一条路
浏览 1
提问于2018-03-21
得票数 0
回答已采纳
1
回答
我在Bluemix
Spark
的
notebook上没有得到任何结果
、
我尝试在Bluemix
Spark
服务中执行我
的
scala代码,一旦我
可以
运行它并从我
的
本地虚拟机获得正确
的
结果。当我在Bluemix
Spark
中运行它时,我在notebook中得不到任何响应。import org.apache.
spark
.mllib.linalg.val input = sc.textFile("swift://notebooks.
spark
/
pca
.csv")
浏览 2
提问于2015-12-03
得票数 0
1
回答
基于余弦相似度
的
项目推荐
、
、
、
、
作为我正在构建
的
推荐系统
的
一部分,我想
实现
一个基于余弦相似的项目推荐。理想情况下,我希望计算由2048年特性
的
DenseVector表示
的
100万项
的
余弦相似性,以便得到与给定项最相似的n个项目。我
的
问题是,我遇到
的
解决方案在我
的
数据集上表现很差。我试过: 下面是
浏览 1
提问于2019-04-18
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark Streaming如何读Kafka数据 Hbase如何设计表
Excel的快捷键这么多,其实记住这4个就可以,处理所有问题
光子处理器可以以极高的能效实现超快的人工智能计算
大数据测试学习笔记之基准测试HiBench
深度学习人脸定位仅8行python代码实现?还可以同时高效的处理100张相片?
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券