在Spark中从R运行PMML

是指使用Spark框架中的R语言接口来运行预测模型标记语言（PMML）文件。PMML是一种用于描述和交换预测模型的标准格式，它允许将模型从一个平台转移到另一个平台，从而实现模型的跨平台部署和共享。

Spark是一个开源的大数据处理框架，它提供了分布式计算和数据处理的能力。R是一种流行的统计分析和数据科学编程语言，它具有丰富的数据处理和建模功能。通过结合Spark和R，可以利用Spark的分布式计算能力来加速R代码的执行，并处理大规模数据集。

在Spark中从R运行PMML的步骤如下：

准备PMML文件：首先，需要准备一个包含预测模型的PMML文件。PMML文件可以由各种机器学习工具生成，例如R中的pmml包、Python中的sklearn2pmml库等。
安装Spark和R：确保已经安装了Spark和R，并配置好相应的环境变量。
导入PMML文件：使用Spark的R接口，将PMML文件导入到Spark中。可以使用Spark的ml模块中的readPMML函数来实现。
加载数据：准备用于预测的数据集，并使用Spark的DataFrame来加载数据。
运行预测：使用导入的PMML模型对数据进行预测。可以使用Spark的R接口提供的predict函数来实现。

下面是一个示例代码：

# 导入SparkR库
library(SparkR)

# 初始化SparkSession
sparkR.session()

# 导入PMML文件
pmmlPath <- "path/to/pmml/file"
pmmlModel <- readPMML(pmmlPath)

# 加载数据
dataPath <- "path/to/data/file"
data <- read.df(dataPath, "csv", header = "true", inferSchema = "true")

# 运行预测
predictions <- predict(pmmlModel, data)

# 显示预测结果
showDF(predictions)

在这个示例中，首先导入了SparkR库并初始化了SparkSession。然后，使用readPMML函数导入了PMML文件，并使用read.df函数加载了数据。最后，使用predict函数对数据进行预测，并使用showDF函数显示预测结果。

Spark中从R运行PMML的优势在于可以利用Spark的分布式计算能力来处理大规模数据集，并且可以通过Spark的生态系统来进行数据处理、特征工程等操作。此外，Spark的R接口还提供了丰富的机器学习算法和工具，可以方便地进行模型训练和评估。

这种方法适用于需要在大规模数据集上进行预测的场景，例如推荐系统、风险评估、广告投放等。对于腾讯云的相关产品和服务，可以参考腾讯云机器学习平台（https://cloud.tencent.com/product/tiia）和腾讯云大数据平台（https://cloud.tencent.com/product/emr）来进行模型训练和部署。

页面内容是否对你有帮助？

有帮助

没帮助

在Spark中从R运行PMML

、

我已经在R中创建了一个线性回归模型，并将其导出到PMMLv4.3中。我该如何在Spark中运行它呢？我是Spark的新手，看不到任何运行PMML文件的示例代码。我所看到的就是在Spark MLLib中导出PMML代码。我假设会有一个函数，其中你的输入参数将是数据集和PMML文件，它将作为你的训练模型？

浏览 8提问于2017-12-11得票数 2

2回答

在R中创建pmml的Scala/Java加载模型

、、、

我希望从R中保存PMML中的随机森林回归模型，并在Spark (Scala或Java)中加载它。不幸的是，我在第二步遇到了问题。

浏览 6提问于2017-06-09得票数 3

回答已采纳

1回答

适合分布式，独立预测

、、

如何在分布式大数据平台(例如Apache Spark)中训练(拟合)模型，同时在独立计算机(例如JVM)中使用该模型，并尽可能减少依赖性？我听说过，但我不确定它是否足够。还有Spark 2.0 保存，但我不确定什么是必要的加载和运行这些模型。

浏览 3提问于2016-08-19得票数 0

2回答

Spark-线程java.lang.NoSuchMethodError中的异常

、、、

我正在尝试使用pmml4s库从pmml文件中为一个模型评分。每次在Spark中提交作业时，我都会收到以下错误： at org.pmml4s.spark.ScoreModel.transfor

浏览 33提问于2020-05-14得票数 1

1回答

如何将Spark-MLlib PMML文件中的DataField值替换为准确的列名？

、、、、

我使用的是Spark 2.1.0。我一直在尝试将Spark-MLlib线性回归模型导出为PMML文件。我还成功地导出了PMML文件。但在该文件中，我看不到其中的任何字段名称。

浏览 0提问于2017-05-29得票数 5

2回答

在火花中加载pmml (由sklearn生成)以预测但得到误差。

我按照指令加载本地pmml模型，代码如下所示import org.jpmml.evaluator.spark._val new File(getClass.getClassLoader.getResource("random_forest.pmml1

浏览 2提问于2018-07-05得票数 0

2回答

如何在PySpark脚本中使用pmml模型？

、、、

我有xgboost模型，它是在纯Python上训练并转换成pmml格式的。现在我需要在PySpark脚本中使用这个模型，但是我没有想法，我如何实现它。是否有方法允许在pmml中导入Python模型并将其用于预测？谢谢你的建议。弗拉基米尔

浏览 0提问于2018-10-23得票数 1

回答已采纳

4回答

如何加载PMML模型？

、、、

10// Save and load model: export to PMMLprintln("PMML Model:\n" + clusters.toPMML("/kmeans.xml"))val sameModel = KMeansModel.load(sc, "&

浏览 4提问于2016-06-15得票数 7

1回答

触发JPMML导入问题

、

我试图导入一个PMML模型文件，在R生成到星火上下文，并使用它来预测分数。这是星火中使用的代码。row[i])); }当在核心Java环境中运行(没有Spark上下文)时，代码运行得很好，但是当运行上面的代码时，我会得到以下异常 java.lang.NoSuchMethodError: com.

浏览 1提问于2015-06-26得票数 1

回答已采纳

2回答

如何在R中使用pmml文件进行预测

、、

我使用pmml函数从R中的pmml库创建了一个xml文件。Ptrain_iOS = predict(adamodel_iOS,newdata=train_iOS, type="prob") adapmml_iOS=pmml(adamodel_iOS) saveXML(adapmml_iOS,&

浏览 0提问于2016-03-19得票数 0

2回答

在MLlib中导入PMML文件

、、

我得到了一个包含朴素贝叶斯分类器模型的PMML文件。是否可以将PMML文件导入到MLlib中并使用Python编程语言重建模型？

浏览 0提问于2017-05-16得票数 0

3回答

Apache Spark MLlib:如何从PMML导入模型

、、

我有一个PMML文件，它编码了一个不是从MLlib导出的逻辑回归模型。(我知道，但我需要从PMML导入)

浏览 1提问于2017-01-29得票数 8

1回答

如何将scala导出到PMML？

、、、

我在将我的模型导出到PMML时遇到了问题。value toPMML is not a member of org.apache.spark.ml.tuning.CrossValidatorModel因此，如何从crossValidatorModel中获取最佳模型并导出到PMML。在星火中，CVM没有.toPMML方法。火花

浏览 0提问于2018-07-06得票数 0

回答已采纳

1回答

在Spark中执行PMML以进行预测

、、、、

我对pmml文件不熟悉。我有一个pmml文件(其中包含一些型号信息)。我们希望在spark中处理该pmml文件以进行预测。请提供任何示例/文档。

浏览 0提问于2018-12-18得票数 0

1回答

如何添加到正在运行的PySpark会话的类路径

、、

我有一台运行在AWS EMR中的PySpark笔记本。在我的特定案例中，我希望使用pyspark2pmml为我刚刚训练的模型创建pmml。但是，我得到了以下错误(当运行pyspark2pmml.PMMLBuilder时，但我认为这无关紧要)。"JPMML-SparkML not found on classpath")我知道这是因

浏览 4提问于2021-06-08得票数 0

1回答

无法在Ubuntu上安装“pmml”包依赖项

、、

我试图使用install.packages('')选项以及从源代码在R中安装'pmml‘包。但两种方式都会有错误。从RCannot find xml2-config ERROR: configuration failed for packagenot available for package ‘pmml

浏览 1提问于2015-07-16得票数 5

回答已采纳

1回答

有谁能用简单的语言解释一下，在预测过程中，不依赖星团的星火模型是如何工作的？我的意思是，如果我们在ML管道中使用像ml.feature.stopwordremover这样的Spark函数并导出它--比如说，PMML格式--那么在没有Spark安装的生产环境中如何重新生成这个函数我浏览了PMML页面，但它只是简单地解释了PMML的结构。然而，没有提供任何功能描述。任何好的链接到文章是受欢迎的。

浏览 0提问于2018-11-27得票数 0

回答已采纳

1回答

将PMML模型导入Python (Scikit-learn)

、、、

似乎有几种方法可以将PMML模型从scikit中导出，比如sklearn2pmml，但是向相反方向输出的信息却少了很多。我的例子是以前在R中构建的XGboost模型，并使用r2pmml保存到PMML，我想在Python中使用该模型。Scikit通常使用泡菜来保存/加载模型，但是是否也可以将模型导入到scikit中-使用PMML学习？

浏览 6提问于2016-10-14得票数 7

回答已采纳

1回答

如何将.rda转换为.pmml并在Python中使用

、、

我为自己建立了一个已经训练好的.rda格式的神经网络模型，但我不确定如何将其转换为.pmml，以便在Python语言中将其用作预测引擎。完成此操作后，我应该安装哪些库才能在Python中使用pmml文件？有什么我应该注意的特殊交互吗？-更新-我在我的RStudio中安装了r2pmml，我想知道是否可以从.rda格式加载一个模型，并立即导出它，而不需要训练它。这可以做到吗？ -UPDATE 2-已成功将.Rda转换为.pmml。我有一个0/1向

浏览 10提问于2017-07-29得票数 0

回答已采纳

1回答