在评估模型时,我们可以选择多种目标,但不同的目标会导致不同的结果。因此,在选择合适的目标时,需要考虑任务的需求。
正确率:指正确分类的样本数量占总样本数量的比例,通常称为准确性(accuracy)。
错误率:指错误分类的样本数量占总样本数量的比例,通常称为错误率(error)。
正确率和错误率之和等于1。
这两种目标是最基本也是最常用的评估指标。
首先需要了解几个概念:
对于二分类问题,模型的预测结果可以分为: - 真正例(TP):实际为正类且被预测为正类。 - 假正例(FP):实际为负类但被预测为正类。 - 真负例(TN):实际为负类且被预测为负类。 - 假负例(FN):实际为正类但被预测为负类。
显然,TP+FP+TN+FN=总样本数。
混淆矩阵可以帮助我们更好地理解这些分类情况:
| 预测为正 | 预测为负 | |----------|----------| | TP | FP | | FN | TN |
查准率:预测为正类的样本中有多少是实际正类,也称为精度(precision)。
查全率:实际为正类的样本中有多少被预测为正类,也称为召回率(recall)。
查准率和查全率是一对相互矛盾的度量指标。通常情况下,查准率越高,查全率越低,反之亦然。
例如,如果希望尽可能多地挑选出优质瓜,可能会导致查准率较低,但查全率较高;反之,如果希望挑选出的瓜都是优质瓜,则查准率较高,但查全率较低。
由于查准率和查全率存在矛盾,因此可以绘制P-R曲线来表示它们之间的关系。
这条曲线被称为P-R曲线(查准率-查全率曲线)。可以通过以下步骤绘制P-R曲线:
当查准率和查全率互相矛盾时,如何评价模型?
通常情况下,曲线会相交,但人们仍希望通过某种方式比较两个学习器的性能。一种合理的方式是比较两条P-R曲线下的面积。
然而,计算这个面积并不容易,因此人们设计了一些其他方法来综合考虑查准率和查全率。
平衡点(Break-Even Point,简称BEP)是指查准率等于查全率的点,即P-R曲线上与y=x直线的交点。
更常用的方法是F1度量,它是查准率和查全率的调和平均数。
在某些应用场景中,对查准率和查全率的重视程度可能不同。例如,在商品推荐系统中,查准率更为重要,以避免骚扰用户;而在资料查询系统中,查全率更为重要,以确保不遗漏有用信息。
此时可以使用加权调和平均数来综合考虑查准率和查全率。