前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >模型评估:评价指标-附sklearn API

模型评估:评价指标-附sklearn API

作者头像
百川AI
发布2021-10-19 16:36:06
2.3K0
发布2021-10-19 16:36:06
举报
文章被收录于专栏:我还不懂对话

模型评估

有三种不同的方法来评估一个模型的预测质量:

  • estimator的score方法:sklearn中的estimator都具有一个score方法,它提供了一个缺省的评估法则来解决问题。
  • Scoring参数:使用cross-validation的模型评估工具,依赖于内部的scoring策略。见下。
  • 通过测试集上评估预测误差:sklearn Metric函数用来评估预测误差。

评价指标(Evaluation metrics)

评价指标针对不同的机器学习任务有不同的指标,同一任务也有不同侧重点的评价指标。

主要有分类(classification)、回归(regression)、排序(ranking)、聚类(clustering)、热门主题模型(topic modeling)、推荐(recommendation)等。

1 分类评价指标

分类有二分类和多分类,二分类主要“是”和“不是”的问题,可以扩展到多分类,如逻辑回归->SoftMax。

1.1 准确率

分类中,使用模型对测试集进行分类,分类正确的样本个数占总样本的比例:

accuracy= \frac{n_{correct}}{N_{total}}

问题:

  1. 不同类别样本无区分:各个类平等对待,而实际中会针对不同类有所区分,例如医疗上侧重正例的召回(假阴性:不要漏诊疾病),垃圾邮件侧重垃圾邮件的精度(假阳性:正常邮件不被误分)。
  2. 数据不平衡:对于数据分布不平衡情况下,个别类别样本过多,其他类别样本少,大类别主导了准确率的计算。(平均准确率解决此问题)

SKlearn API

代码语言:javascript
复制
from sklearn.metrics import accuracy_score
# y_pred是预测标签
y_pred, y_true=[1,2,3,4], [2,2,3,4]
accuracy_score(y_true=y_true, y_pred=y_pred)

1.2 平均准确率

针对不平衡数据,对n个类,计算每个类别i的准确率,然后求平均:

average\_accuracy = \frac{\sum accuracy_i}{n}

缺点:某些类别样本数很少,测试集中该类别的准确率 方差会很大(统计变量偏离程度:高)。

代码语言:javascript
复制
from sklearn.metrics import average_precision_score
# y_pred是预测标签
y_pred, y_true =[1,0,1,0], [0,0,1,0]
average_precision_score(y_true=y_true, y_score=y_pred)

1.3 对数损失(Log-loss)

针对分类输出不是类别,而是类别的概率,使用对数损失函数进行评价。这也是逻辑回归的分类函数,下面是二分类的损失函数。

Log\_loss = -\frac{1}{N} \sum_{i=1}^N y_i \log p_i + (1-y_i) \log(1-p_i)
y_i

表示第i个样本类别0或1。

p_i

表示其输入类别1的概率。其实就是真实值域预测值得交叉熵,包含了真实分布的熵加上假设与真实分布不同的分布的不确定性,最小化交叉熵,便是最大化分类器的准确率。

代码语言:javascript
复制
from sklearn.metrics import log_loss
y_true, y_pred = [0,0,1,1], [[0.9,0.1],[0.8,0.2],[0.3,0.7],[0.01,0.99]]
print(log_loss(y_true,y_pred))

1.4 基于混淆矩阵的评估度量

1.4.1 混淆矩阵

混淆矩阵通过计算各种分类度量,指导模型的评估。

Predicted: 0

Predicted: 1

Actual: 0

TN

Actual: 1

FN

  • 真阳性(True Positive,TP):指被分类器正确分类的正例数据
  • 真阴性(True Negative,TN):指被分类器正确分类的负例数据
  • 假阳性(False Positive,FP):被错误地标记为正例数据的负例数据
  • 假阴性(False Negative,FN):被错误地标记为负例数据的正例数据
代码语言:javascript
复制
from sklearn.metrics import confusion_matrix
# y_pred是预测标签
y_pred, y_true =[1,0,1,0], [0,0,1,0]
confusion_matrix(y_true=y_true, y_pred=y_pred)

1.4.2 精确率(Precision)

所有分正确的正样本/所有预测为正类的样本数。

Precision = TP/ (TP+FP)

1.4.3 召回率(Recall)

所有分正确的正样本/所有的正样本数:

Recall = TP/ (TP+FN)

1.4.4 F1-score

精确率和召回率两者一般同时使用,F1-score中和了二者的评估:

F1\ score = \frac{2*Precision*Recall}{Precision + Recall}

sklearn中classification_report可以直接输出各个类的precision recall f1-score support

代码语言:javascript
复制
from sklearn.metrics import classification_report
# y_pred是预测标签
y_pred, y_true =[1,0,1,0], [0,0,1,0]
print(classification_report(y_true=y_true, y_pred=y_pred))

1.5 AUC(Area under the Curve(Receiver Operating Characteristic, ROC))

Auc是ROC(Receiver Operating Characteristic)曲线下的面积。在此再次召唤出混淆矩阵:

Predicted: 0

Predicted: 1

Actual: 0

TN

Actual: 1

FN

TPR(True Positive Rate)

分类器分类正确的正样本个数占总正样本个数的比例:

TPR = TP/ (TP+FN)

FPR(False Positive Rate)

分类器分类错误的负样本个数占总负样本个数的比例:

FPR = FP/(TN + FP)

ROC曲线

描述分类器的True Positive Rate与False Positive Rate之间的变化关系。

绘制ROC曲线。

代码语言:javascript
复制
import matplotlib.pyplot as plt 
from sklearn.metrics import roc_curve, auc
# y_test:实际的标签, dataset_pred:预测的概率值。
fpr, tpr, thresholds = roc_curve(y_test, dataset_pred)
roc_auc = auc(fpr, tpr)  
#画图,只需要plt.plot(fpr,tpr),变量roc_auc只是记录auc的值,通过auc()函数能计算出来  
plt.plot(fpr, tpr, lw=1, label='ROC(area = %0.2f)' % (roc_auc))
plt.xlabel("FPR (False Positive Rate)")
plt.ylabel("TPR (True Positive Rate)")
plt.title("Receiver Operating Characteristic, ROC(AUC = %0.2f)"% (roc_auc))
plt.show()

AUC

AUC即为ROC曲线下的面积,同时证明AUC与Wilcoxon-Mann-Witney Test是等价的。其计算公式:

AUC = \frac{\sum_{i \in positive \ Class} Rank_i - \frac{M(1+M)}{2}}{M * N}

M为正类样本的数目,N为负类样本的数目,

Rank_i

是样本i模型预测概率的排名。

代码语言:javascript
复制
from sklearn.metrics import roc_auc_score
# y_test:实际的标签, dataset_pred:预测的概率值。
roc_auc_score(y_test, dataset_pred)

2. 回归评价指标

回归是对连续的实数值进行预测,而分类中是离散值。

2.1 RMSE

RMSE(root mean square error,平方根误差),定义为:

RMSE = \sqrt{\frac{\sum_{i=1}^n (y_i - \hat{y_i})^2 }{n}}

其中,

y_i

是真实值,

\hat{y_i}

是预测值,n是样本数量,使用了欧式距离。

缺点:平均值是非鲁棒的,对于异常点敏感,如果某个异常点误差大,整个RMSE就会比较大。

2.2 均方差(mean squared error)

MAE(y,\hat{y}) = \frac{1}{n_{samples}} \sum_{i=1}^n (y_i - \hat{y_i})^2
代码语言:javascript
复制
from sklearn.metrics import mean_squared_error
y_true, y_pred = [3, -0.5, 2, 7], [2.5, 0.0, 2, 8]
mean_squared_error(y_true, y_pred)

2.3 平均绝对误差(mean_absolute_error)

$$

MAE(y,\hat{y}) = \frac{1}{n_{samples}} \sum_{i=1}^n |y_i - \hat{y_i}|

$$

代码语言:javascript
复制
from sklearn.metrics import mean_squared_error
y_true, y_pred = [3, -0.5, 2, 7], [2.5, 0.0, 2, 8]
mean_squared_error(y_true, y_pred)

2.4 中值绝对误差(Median absolute error)

MedianAE=median(|y_i− \hat{ y}_i|)
代码语言:javascript
复制
from sklearn.metrics import median_absolute_error
y_true, y_pred = [3, -0.5, 2, 7], [2.5, 0.0, 2, 8]
median_absolute_error(y_true, y_pred)

2.5 R2 决定系数(r2_score)

R^2 = 1- \frac{\sum_{i=1}^n (y_i - \hat{y_i})^2}{\sum_{i=1}^n (y_i - \bar{y}_i)^2}
代码语言:javascript
复制
from sklearn.metrics import r2_score
y_true, y_pred = [3, -0.5, 2, 7], [2.5, 0.0, 2, 8]
r2_score(y_true, y_pred)

问题

  1. 目标是什么?
  2. 使用什么评价指标?
  3. 提升多少才算真正的提升?
  4. 指标采用平均值,基于评价指标满足高斯分布的假设,那么评价指标是否满足高斯分布?

sklearn 评价指标

Scoring

Function

Comment

Classification

‘accuracy’

metrics.accuracy_score

‘average_precision’

metrics.average_precision_score

‘f1’

metrics.f1_score

for binary targets

‘f1_micro’

metrics.f1_score

micro-averaged

‘f1_macro’

metrics.f1_score

macro-averaged

‘f1_weighted’

metrics.f1_score

weighted average

‘f1_samples’

metrics.f1_score

by multilabel sample

‘neg_log_loss’

metrics.log_loss

requires predict_proba support

‘precision’ etc.

metrics.precision_score

suffixes apply as with ‘f1’

‘recall’ etc.

metrics.recall_score

suffixes apply as with ‘f1’

‘roc_auc’

metrics.roc_auc_score

Clustering

‘adjusted_rand_score’

metrics.adjusted_rand_score

Regression

‘neg_mean_absolute_error’

metrics.mean_absolute_error

‘neg_mean_squared_error’

metrics.mean_squared_error

‘neg_median_absolute_error’

metrics.median_absolute_error

‘r2’

metrics.r2_score

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017/10/24 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 模型评估
  • 评价指标(Evaluation metrics)
  • 1 分类评价指标
    • 1.1 准确率
      • 1.2 平均准确率
        • 1.3 对数损失(Log-loss)
          • 1.4 基于混淆矩阵的评估度量
            • 1.4.1 混淆矩阵
            • 1.4.2 精确率(Precision)
            • 1.4.3 召回率(Recall)
            • 1.4.4 F1-score
          • 1.5 AUC(Area under the Curve(Receiver Operating Characteristic, ROC))
            • TPR(True Positive Rate)
            • FPR(False Positive Rate)
            • ROC曲线
            • AUC
        • 2. 回归评价指标
          • 2.1 RMSE
            • 2.2 均方差(mean squared error)
              • 2.3 平均绝对误差(mean_absolute_error)
                • 2.4 中值绝对误差(Median absolute error)
                  • 2.5 R2 决定系数(r2_score)
                  • 问题
                  • sklearn 评价指标
                  相关产品与服务
                  腾讯云 TI 平台
                  腾讯云 TI 平台(TencentCloud TI Platform)是基于腾讯先进 AI 能力和多年技术经验,面向开发者、政企提供的全栈式人工智能开发服务平台,致力于打通包含从数据获取、数据处理、算法构建、模型训练、模型评估、模型部署、到 AI 应用开发的产业 + AI 落地全流程链路,帮助用户快速创建和部署 AI 应用,管理全周期 AI 解决方案,从而助力政企单位加速数字化转型并促进 AI 行业生态共建。腾讯云 TI 平台系列产品支持公有云访问、私有化部署以及专属云部署。
                  领券
                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档