「转」 分类模型评价目的汇总
作者头像
  • DeepTech深科技
  • 2019-11-28 12:04:23 7

在评估模型时,我们可以选择多种目标,但不同的目标会导致不同的结果。因此,在选择合适的目标时,需要考虑任务的需求。

正确率与错误率

正确率:指正确分类的样本数量占总样本数量的比例,通常称为准确性(accuracy)。

错误率:指错误分类的样本数量占总样本数量的比例,通常称为错误率(error)。

正确率和错误率之和等于1。

这两种目标是最基本也是最常用的评估指标。

缺陷

  • 这些指标不一定能反映模型的泛化能力,特别是在类别不平衡的情况下,无法满足所有任务的需求。
  • 例如,如果有满满一车西瓜,任务一是要挑选出的好瓜中有多少是真正的优质瓜,任务二是要挑选出所有优质的瓜,此时正确率和错误率并不能很好地解决问题。

查准率与查全率

首先需要了解几个概念:

  • 正样本/正元组:指的是感兴趣的样本或元组。
  • 负样本/负元组:指的是其他非感兴趣的样本或元组。

对于二分类问题,模型的预测结果可以分为: - 真正例(TP):实际为正类且被预测为正类。 - 假正例(FP):实际为负类但被预测为正类。 - 真负例(TN):实际为负类且被预测为负类。 - 假负例(FN):实际为正类但被预测为负类。

显然,TP+FP+TN+FN=总样本数。

混淆矩阵

混淆矩阵可以帮助我们更好地理解这些分类情况:

| 预测为正 | 预测为负 | |----------|----------| | TP | FP | | FN | TN |

查准率与查全率

查准率:预测为正类的样本中有多少是实际正类,也称为精度(precision)。

查全率:实际为正类的样本中有多少被预测为正类,也称为召回率(recall)。

查准率和查全率是一对相互矛盾的度量指标。通常情况下,查准率越高,查全率越低,反之亦然。

例如,如果希望尽可能多地挑选出优质瓜,可能会导致查准率较低,但查全率较高;反之,如果希望挑选出的瓜都是优质瓜,则查准率较高,但查全率较低。

P-R曲线

由于查准率和查全率存在矛盾,因此可以绘制P-R曲线来表示它们之间的关系。

这条曲线被称为P-R曲线(查准率-查全率曲线)。可以通过以下步骤绘制P-R曲线:

  1. 使用模型预测样本为正类的概率。
  2. 将样本按概率从高到低排序。
  3. 逐步增加预测为正类的样本数量,计算查准率和查全率。
  4. 绘制查准率和查全率的变化曲线。

评价标准

当查准率和查全率互相矛盾时,如何评价模型?

情形分析

  1. 如果学习器A的P-R曲线完全“包住”学习器C的P-R曲线,则A的表现优于C。
  2. 如果学习器A的P-R曲线与学习器B的P-R曲线相交,则难以直接判断优劣。此时通常的做法是固定查准率比较查全率,或固定查全率比较查准率。

通常情况下,曲线会相交,但人们仍希望通过某种方式比较两个学习器的性能。一种合理的方式是比较两条P-R曲线下的面积。

然而,计算这个面积并不容易,因此人们设计了一些其他方法来综合考虑查准率和查全率。

平衡点(BEP)

平衡点(Break-Even Point,简称BEP)是指查准率等于查全率的点,即P-R曲线上与y=x直线的交点。

F1度量与Fβ度量

更常用的方法是F1度量,它是查准率和查全率的调和平均数。

  • F1度量:当β=1时,即F1度量。

在某些应用场景中,对查准率和查全率的重视程度可能不同。例如,在商品推荐系统中,查准率更为重要,以避免骚扰用户;而在资料查询系统中,查全率更为重要,以确保不遗漏有用信息。

此时可以使用加权调和平均数来综合考虑查准率和查全率。

  • Fβ度量:当β>0时,β衡量了查全率对查准率的重要性。当β>1时,查全率更为重要;当β<1时,查准率更为重要。
    本文来源:图灵汇
责任编辑: : DeepTech深科技
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
汇总模型目的评价分类
    下一篇