机器学习评价目的 AUC 综述
作者头像
  • 微软科技
  • 2019-11-06 14:24:14 5

引言

在互联网领域,如搜索、推荐和广告等排序业务中,AUC(Area Under the Curve of ROC)是一个常用的评估指标。尽管关于AUC的文章和讨论很多,本文将尝试从个人的理解出发,进行一次综述。本文旨在帮助读者更好地理解AUC及其相关概念,并欢迎读者指出可能存在的错误。

主要问题

本文将探讨以下几个问题:

  1. AUC有哪几种理解方式?
  2. AUC的哪些特性使其如此受欢迎?
  3. AUC的值与什么有关?什么样的AUC值算高?
  4. AUC值的提升是否意味着线上业务也会改善?
  5. 是否有其他指标可以替代AUC?

AUC的不同理解方式

AUC主要可以通过两种方式来理解:一种是基于ROC曲线下的面积,需要理解混淆矩阵、准确率、召回率、F1值等;另一种是基于概率的解释,侧重于模型的排序能力。文献[1]和[4]对此进行了详细的讨论,但本文将不再赘述。

AUC的排序特性

相较于准确率、精确率等指标,AUC更加关注模型预测得分的相对顺序。这意味着,AUC可以避免因阈值选择带来的误差,更直观地反映模型的排序能力。例如,一个AUC值为0.7的模型,意味着在70%的情况下,模型能正确地将正样本的得分排在负样本之上。

AUC对样本采样的敏感度

AUC对样本的采样方式不敏感,特别是对于正负样本的随机采样。这使得AUC成为一种可靠的评估指标,尤其是在计算资源有限的情况下。然而,如果采样方式偏向某一特定类型的数据,可能会导致AUC值的变化。

AUC值的意义

AUC值反映了模型预测样本之间的排序关系,正负样本之间的得分差距越大,AUC值也越高。在实际应用中,不同业务场景下的AUC值可能有所不同。例如,点击率模型的AUC值通常会低于购买转化率模型,因为点击行为的成本较低,正负样本的区分度较小。

AUC与线上业务的关系

AUC作为一种离线评估指标,与实际业务效果可能存在差异。一般来说,AUC值较高的模型在线上表现也会较好,但这种关联并不是绝对的。实际应用中,需要综合考虑多种因素,如样本数据的质量、决策链路的复杂度等。

AUC提升与业务效果不一致的情况

虽然理论上AUC值的提升会带来线上业务的改善,但在实践中可能会出现不一致的情况。这主要是因为:

  1. bug:确保线上线下的预测结果一致。
  2. 样本穿越:避免训练和测试数据间的特征泄露。

AUC计算的局限及改进

AUC计算基于全样本的排序能力,而在实际应用中,用户的行为往往发生在特定的会话内。因此,AUC计算存在局限,需要改进。例如,阿里提出的Group AUC方法,通过以用户为单位进行加权平均,可以更好地反映实际应用场景。

参考文献

  1. 如何理解机器学习和统计中的AUC?
    • https://www.zhihu.com/question/39840928
  2. 多高的AUC才算高
    • https://zhuanlan.zhihu.com/p/24217322
  3. 线下AUC提升为什么不能带来线上效果提升?
    • https://zhuanlan.zhihu.com/p/35459467
  4. 准确率、召回率、F1值、ROC、AUC各自的优缺点是什么?
    • https://www.zhihu.com/question/30643044
  5. 如何解决离线AUC与线上点击率不一致的问题?
    • https://www.zhihu.com/question/305823078/answer/552640544

希望本文能够帮助读者更好地理解和应用AUC这一重要指标。

    本文来源:图灵汇
责任编辑: : 微软科技
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
综述目的机器评价学习AUC
    下一篇