在spark ML管道中将拟合模型添加为PipelineStage

文章/答案/技术大牛

发布

1回答

、

我有一个适合的word2vec模型，我想在各种项目中使用。也就是说，我创建了一个Word2Vec估计器，并将其拟合到我的数据集。这给了我一个Word2VecModel，我可以保存它。现在如何将此模型添加到管道中？优先考虑的是，我仍然希望能够“拟合”管道，但不包括需要重新拟合的Word2VecModel。但最后这部分是可选的。理想情况下，我想用pyspark来做这件事。

浏览 11提问于2019-02-26得票数 1

1回答

在多个列上使用Spark ML的OneHotEncoder

、、

import org.apache.spark.ml.feature.val stringColumns = Array("domain","size", "form_factor") val index_transformers: Array[org.apache.spark.ml.PipelineStageindexColumns = df_indexed.columns.filter(x => x contains "in

浏览 0提问于2015-12-09得票数 10

回答已采纳

1回答

将训练好的管道模型从pyspark导入到scala？

、、、

可以将一个经过训练的管道模型从pyspark环境加载到scala中吗？我正在尝试这样做，但是我遇到了这个错误 requirement failed: Error loading metadata: Expected class name org.apache.spark.ml.PipelineModelbut found class name pyspark.ml.pipeline.PipelineModel 更准确地说，我有一个pyspark管道模型： pipe =

浏览 86提问于2021-10-25得票数 1

1回答

使用spark中的SQL和权重

、

我正在试验spark.ml库和管道功能。使用带有splits的SQL似乎有一个限制(例如用于培训和测试)：如何访问模型权重？lr优化器和lr模型内部都有权重，但我们不清楚它们是如何实现的。

浏览 5提问于2015-02-06得票数 1

回答已采纳

1回答

在Spark管道(节:示例:管道)中，从文档中"sameModel“是什么意思？

、、、

我正在查看scala中的Spark文档中的区段:示例管道https://spark.apache.org/docs/latest/ml-pipeline.html#example-pipeline。从示例中，该模型使用管道(val模型)进行拟合，然后将该管道保存到一个目录中。下一行是我看不出sameModel是如何/在哪里使

浏览 0提问于2018-11-20得票数 0

回答已采纳

1回答

如何在我的spark流水线中集成ALS来实现非负矩阵分解？

、、、、

我正在使用spark mllib训练朴素贝叶斯分类器模型，在那里我创建了一个管道来索引我的字符串特征，然后归一化并应用PCA进行降维，之后我训练我的朴素贝叶斯模型。当我运行管道时，我在PCA组件vector.On谷歌中得到负值。;import org.apache.spark.ml.PipelineModel; import org.apac

浏览 2提问于2017-07-31得票数 0

1回答

字段"item“不存在，使用用于ALS的星火MLlib管道

、、

现在，我想通过交叉验证使用Pipeline进行模型选择。org.apache.spark.ml.recommendation.ALS.transformSchema(ALS.scala:304)at org.apache.spark.ml.PipelineStage.transformSchema(Pipeline.scala:58) at org

浏览 2提问于2015-05-09得票数 0

回答已采纳

1回答

在Pyspark上的ParamgridBuilder中获取参数丢失错误

、、

我目前正在对kaggle数据集在Pyspark.Based中实现Gradientboost分类模型，我当前在拟合管道后的最后一列是我现在正在尝试使用PARAMGRIDBUILD进行参数调整。,OneHotEncoder,VectorAssemblerfrom pyspark.ml importPipeline from pyspark.ml

浏览 3提问于2018-05-09得票数 1

1回答

AttributeError: HashingTF对象没有属性“_java_obj”

”，第110行中，在包装器"/opt/module/spark-2.4.3-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/ml/wrapper.py"，TypeErrorfrom pyspark.ml.feature import HashingTF, Tokenizer# 创建一个Spa

浏览 1提问于2019-08-24得票数 0

2回答

如何将列转换为向量类型？

、、

我在Spark中有一个RDD，其中的对象基于case类：我想使用Spark的ML管道，所以我将其转换为Spark数据帧作为管道的一部分，我希望将其中一列转换为其条目为向量的列。由于我希望该向量的长度随模型的不同而变化，因此应该将其作为特征转换的一部分构建到管道中。看起来VectorUDT可能已经成功了，但这是Spark的隐私。由于

浏览 2提问于2016-03-18得票数 6

1回答

如何设置自定义PySpark变压器的参数，一旦它是一个适合的ML管道中的阶段？

、、

然而，在该示例中，估计者的_fit()方法将_transform()所需的所有参数方便地传递到模型/转换器中。但是我的转换器有几个参数来控制应用转换的方式。这些参数是特定于转换器的，因此将它们与用于拟合模型的特定于估计器的参数一起预先传递到估计器中会让人感到奇怪。我可以通过向转换器添加额外的Params来解决这个问题。当我在ML Pipeline之外使用我的估计器和转换器时，这种方法工作得很好。但是，一旦我的估计器对象作为阶段添加到Pipeline中，我如何设置这些特定于tr

浏览 14提问于2018-02-06得票数 0

回答已采纳

1回答

将多个SparkML管道应用于单个DataFrame

、、、

我用SparkML训练了几个毫升管道，并将它们保存在HDFS中。现在，我想将管道应用到相同的数据文件中。我实现了一个通用的评分类，它与数据一起读取管道，将每个管道应用到dataframe，并将模型预测追加为新列。Dataset<Row> originalDf = spark.read().parquet(...)用于绑定数据文件的连接非常安静、昂贵，并且在各个阶段之间进行了大量的洗牌。注意，我将每个模型应用于origin

浏览 0提问于2018-06-22得票数 1

2回答

星火自定义估计器，包括持久性

、、、、

我想要开发一个自定义的火花估计器，它也处理伟大的管道API的持久性。但正如所言，目前还没有太多的文档。 transform在定制管道模型中将用于转换新数据上的“拟合”估计值。这是正确的吗？如果是，我应该如何将拟合值(如平均年龄)从上面转换到模型中？我在私有spark组件中找到了一些通用的loadImpl方法，但不确定如

浏览 2提问于2016-11-26得票数 6

回答已采纳

3回答

如何用线性回归模型进行预测？

、、、

我目前正在从事一个线性回归项目，在这个项目中，我需要收集数据，将其拟合到一个模型中，然后根据测试数据进行预测。| 6000| 673|| 8000| 678|+-----+------+ Dataset<Row> vectorData

浏览 8提问于2017-06-27得票数 3

回答已采纳

1回答

PySpark流水线中的交叉验证过采样

、、、、

我正在一个PySpark二进制分类管道上工作，我想在其中使用过采样阶段执行CrossValidation (我的数据集不平衡)。问题是过采样阶段也是在测试数据集上执行的。管道：smote是我希望在转换测试数据集时跳过的阶段。我查看了spark文档和源代码，没有办法跳过PipelineModel中的一个阶段。我的解决方案是覆盖原始类的_transform方法，以便跳

浏览 1提问于2019-11-16得票数 1

2回答

string字段中决策树分类器的数据处理

、、、、

= model.transform(testData)当我像那样运行我的代码时，我会出现以下错误：[error] required: org.apache.spark.ml.PipelineStage因

浏览 2提问于2017-02-22得票数 2

回答已采纳

1回答

星火LinearRegressionSummary“正常”总结

我要这么做：import org.apache.spark.ml.evaluation.RegressionEvaluator import org.apache.spark.ml.feature.VectorAssemblerimport org.apache.spark.ml.regression.LinearRegressionMode

浏览 4提问于2017-10-11得票数 13

回答已采纳

1回答