腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3799)
视频
沙龙
1
回答
在
Spark
ML
中
,
为什么
在
一
列上
拟合
具有
数百万
个
分界
值
的
StringIndexer
会
产生
面向
对象
模型
错误
?
、
、
我正在尝试对
一
个
具有
大约15.000.000
个
唯
一
字符串
值
的
列使用
Spark
的
功能转换器。不管我投入多少资源,
Spark
总是死
在
我身上,出现某种类型
的
内存不足异常。from pyspark.
ml
.feature import
StringIndexer
data =
spark
.read.parquet("s3:
浏览 6
提问于2018-08-24
得票数 7
回答已采纳
2
回答
Spark
.
ml
LogisticRegression是否仅采用数字特征?
、
、
、
我正在寻找逻辑回归
的
Spark
1.5 和。据我所知,其中
的
train方法首先将dataframe转换为RDD[LabeledPoint] as, override protected def train(dataset: DataFrame):让我感到困惑
的
是,DataFrame
的
类型是RDD[Row],而Row可以有任何valueTypes,例如(1, true, "a string", null)似乎是数据帧
的
有效行。它似乎只选择了Array[Double]作为
浏览 1
提问于2015-09-04
得票数 3
1
回答
用
Spark
的
Logistic回归
模型
进行MultiClass分类误差:列预测已经存在
、
、
我使用
Spark
的
Logistic回归
模型
来解决100
个
类别(0-99)
的
分类问题。我
在
dataset
中
的
列是"_c0、_c1、_c2、_c3、_c4、_c5“,其中_c5是目标变量,rest是特性。我
的
代码如下:import org.
浏览 0
提问于2017-06-15
得票数 0
回答已采纳
2
回答
线程"main“java.lang.NoClassDefFoundError
中
的
异常:org/apache/
spark
/
ml
/ IntelliJ
中
的
feature/VectorAssembler
、
、
、
、
我试图用IntellijIDEA
中
的
线性回归
在
Spark
中
建立
一
个
模型
。import org.apache
浏览 4
提问于2017-12-06
得票数 0
1
回答
为什么
我
的
DecisionTreeClassifier
模型
在
预测时抱怨labelCol不存在?
、
、
我开始编写
一
个
ML
模型
,用于对
一
系列文档
中
的
段落进行分类。我写了我
的
模型
,结果看起来很棒!但是,当我尝试提供
一
个
不包含labelCol
的
CSV (即标记
的
列,我试图预测
的
列)时,它抛出
一
个
错误
!我试图预测
的
是"tag“列,那么当我调用model.transform(
浏览 10
提问于2019-02-19
得票数 0
回答已采纳
5
回答
如何处理分类特征与火花-毫升?
、
、
、
如何使用
spark
-
ml
而不是
spark
-mllib处理分类数据?虽然文档不是很清楚,但似乎分类器(例如RandomForestClassifier、LogisticRegression )有
一
个
featuresCol参数,它指定了DataFrame
中
的
特性列
的
名称,还有
一
个
labelCol参数,它指定了DataFrame中标记类
的
列
的
名称。显然,我希望
在
我<em
浏览 10
提问于2015-08-28
得票数 49
5
回答
PySpark & MLLib:随机森林特征
的
重要性
、
、
、
我正在尝试提取我使用PySpark训练
的
随机森林
对象
的
特征重要性。但是,我
在
文档
中
没有看到这样做
的
示例,也不是RandomForestModel
的
方法。如何在PySpark
中
从RandomForestModel回归器或分类器中提取特征重要性?
浏览 2
提问于2015-03-11
得票数 16
1
回答
火花-如何将QuantileDiscretizer与RandomForestClassifier结合使用
、
、
是否可以使用QuantileDiscretizer,keeping NaN
值
,并使用RandomForestClassifier18/03/23 17:38:15 ERRORBad data point: (1.0,[1.0,2.0])这里
的
想法是创建
一
个
数字列,并使用分位数对其进行离散,将无效数字(NaN)保存在
一
个
特殊
的
桶
中
浏览 1
提问于2018-03-23
得票数 1
回答已采纳
1
回答
如何准备mllib
中
的
培训数据
、
、
我很难找到如何转换我
的
标记化wiki数据,以便通过NaiveBayes或LogisticRegression对其进行训练。我
的
目标是使用经过训练
的
模型
与tweet*进行比较。我尝试过用管道处理LR,使用HashingTF和IDF进行NaiveBayes,但是我总是做
错误
的
预测。以下是我尝试过
的
: *请注意,我想使用wiki数据
中
的
许多类别作为我
的
标签.我只看到了二进制分类(这是
一
个
浏览 3
提问于2015-09-19
得票数 5
回答已采纳
1
回答
R predict()函数返回
错误
的
值
/
值
太多
、
我正在尝试将吸光度(Abs)
值
转换为浓度(ng/
mL
),基于已建立
的
线性
模型
和标准曲线。我计划通过使用predict()函数来实现这
一
点。我
在
获取predict()以返回期望
的
结果时遇到了麻烦。下面是我
的
代码示例: Abs550nm=c(1.7535,1.5896,1.4285,0.9362)
浏览 0
提问于2014-10-01
得票数 7
回答已采纳
2
回答
当数据集
具有
具有
唯
一
值
的
要素列时,尝试
在
DSX
中
构建
模型
时出现评估
错误
、
、
在
使用IBM Watson Machine Learning
在
IBM Data Science Experience (DSX)
中
构建二进制分类
模型
时,如果其中
一
个
特征列
具有
唯
一
的
分类
值
,则会出现评估
错误
我使用
的
数据集看起来像这样-Ford,1000,8,0Chrysler,3000,10,0
浏览 2
提问于2018-01-24
得票数 0
1
回答
火花放电不可加载pipelineModel
、
我遇到了
一
个
问题,无法
在
实际环境中加载PipelineModel i测试我
的
模型
,但是无法在生产环境
中
应用这个
模型
和代码。line 193, in xdr_predict File "/usr/bch/1.5.0/
spark
/python/lib/pyspark.z
浏览 3
提问于2021-12-03
得票数 0
2
回答
用预测输出
的
绝对
值
改进线性回归
模型
?
、
、
我有
一
个
特殊
的
分类问题,我可以使用Python
的
abs()函数来改进它。当谈到机器学习时,我还是
个
新手,我想知道我所做
的
事情是否真的是“允许
的
”,可以说,是为了改进回归问题。下面这行描述了我
的
方法:predicted = abs(cross_val_predict(lr, features, labels_postop_IS, cv=10)) 我尝试了这个解决方案,因为线性回归
浏览 0
提问于2018-02-10
得票数 2
4
回答
将列名与pySpark
ML
中
的
模型
参数关联起来
、
、
我使用GLM (
在
Spark
2.0
中
使用
ML
)对有
一
个
分类自变量
的
数据运行
一
个
模型
。我使用
StringIndexer
和OneHotEncoder将该列转换为虚拟变量,然后使用VectorAssembler将其与连续自变量组合成
一
列稀疏向量。如果我
的
列名是continuous和categorical,其中第
一
列是浮点数列,第二列是表示不同类别(<
浏览 12
提问于2016-08-18
得票数 9
2
回答
PySpark诉内存问题
、
、
假设我有
一
个
带有20k行
的
csv文件,并将其导入。然后,我运行
模型
,如随机森林或Logistic回归从sklearn包,它运行良好。但是,当我导入PySpark数据格式并从PySpark包运行相同
的
模型
(随机森林或Logistic回归)时,我会得到
一
个
内存
错误
,我必须将csv
的
大小缩小到3-4k行。这
一
切
为什么
要发生?这是
一
个
概念性
的</
浏览 0
提问于2019-02-06
得票数 2
回答已采纳
1
回答
允许空
值
的
PySpark特征向量
、
、
、
、
我想在包含空
值
的
数据集上使用PySpark
中
的
分类器。空
值
出现在我创建
的
功能
中
,比如成功率。我需要保留空
值
,因为我通过熊猫展示了保留空
值
会
导致
一
个
更强
的
模型
。因此,我不想将零或中间
值
归责于零。我知道vectors可以用来创建特征向量,但是当数据包含空
值
时它就不能工作了。我想知道是否有
一
种方法可
浏览 1
提问于2019-02-20
得票数 4
回答已采纳
1
回答
Py4JError:调用o90.fit时出错
、
、
我想在由三列组成
的
数据帧上应用随机森林算法,即JournalID、IndexedJournalID(使用
Spark
的
StringIndexer
获得)和特征向量。我使用下面的代码从拼图文件
中
读取数据帧,并在JournalID
列上
应用字符串索引器将其转换为分类类型。import IndexToString,
StringIndexer
, VectorIndexer from pyspark.
ml
.evaluation import MulticlassCl
浏览 26
提问于2018-12-21
得票数 4
2
回答
IllegalArgumentException:列
的
类型必须为struct<type:tinyint,大小为:int、indices:array<int>、values:array<double>>,
、
、
我有
一
个
包含多个分类列
的
数据帧。我正在尝试使用两列之间
的
内置函数来查找菱形统计数据:但是,它给出了
一
个
错误
: IllegalArgumentException: 'requirement failed: Column
浏览 1
提问于2020-04-06
得票数 8
回答已采纳
1
回答
当我运行逻辑回归
的
spark
样本时,我得到了
一
个
完美的
模型
。我搞砸了吗?
我正在运行
中
的
示例代码,以便使用pyspark和附带
的
培训总结代码进行逻辑回归:training =
spark
.read.format("libsvm").load("/user/tim/sample_svm/sample_libsvm_data.txt也许它过度
拟合</
浏览 0
提问于2018-03-10
得票数 0
1
回答
(pyspark.
ml
)对ALS
模型
进行CrossValidator
错误
的
调优!:需求失败:没有向该摘要程序添加任何内容
、
、
、
我试图调优ALS矩阵分解
模型
的
参数。
错误
如下图所示,参考中
的
答案,当从ALS
模型
中
的
有效数据推断非列车数据
的
用户时,似乎会发生
错误
。另外,参考,假
浏览 15
提问于2022-06-03
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python大数据处理库PySpark实战——使用PySpark处理文本多分类问题
将sklearn训练速度提升100多倍,美国“返利网”开源sk-dist框架
美国“返利网”开源sk-dist框架将sklearn训练速度提升数倍
将sklearn训练速度提升100多倍,美国「返利网」开源sk-dist框架
利用正则化方法避免过拟合问题
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券