在Spark 2.2.0中,可以通过以下步骤从管道模型的输出中获取BinaryLogisticRegressionSummary:
from pyspark.ml.classification import BinaryLogisticRegressionModel
from pyspark.ml.evaluation import BinaryClassificationEvaluator
model = BinaryLogisticRegressionModel.load("path/to/model")
summary = model.summary
binary_summary = summary.binaryLogisticRegressionSummary
BinaryLogisticRegressionSummary提供了以下属性和方法:
areaUnderROC
:返回模型的ROC曲线下面积。roc
:返回模型的ROC曲线的DataFrame,包含两列:FPR(False Positive Rate)和TPR(True Positive Rate)。pr
:返回模型的PR(Precision-Recall)曲线的DataFrame,包含两列:recall和precision。precisionByThreshold
:返回不同阈值下的精确度。recallByThreshold
:返回不同阈值下的召回率。fMeasureByThreshold
:返回不同阈值下的F1值。accuracy
:返回模型的准确率。weightedTruePositiveRate
:返回加权的真阳性率。weightedFalsePositiveRate
:返回加权的假阳性率。weightedFMeasure
:返回加权的F1值。numIterations
:返回模型的迭代次数。objectiveHistory
:返回模型训练过程中的目标函数历史记录。BinaryLogisticRegressionSummary还提供了以下方法:
prAtThreshold
:返回给定阈值下的PR曲线上的点。recallAtThreshold
:返回给定阈值下的召回率。fMeasureByLabel
:返回给定标签下的F1值。precisionByLabel
:返回给定标签下的精确度。falsePositiveRateByLabel
:返回给定标签下的假阳性率。truePositiveRateByLabel
:返回给定标签下的真阳性率。这些信息可以帮助我们评估模型的性能和效果,并根据需要进行调整和优化。
腾讯云相关产品和产品介绍链接地址:
云+社区技术沙龙[第10期]
云+社区开发者大会 武汉站
云+社区技术沙龙[第7期]
云+社区技术沙龙 [第30期]
serverless days
云+未来峰会
领取专属 10元无门槛券
手把手带您无忧上云