机器学习中的七宗罪
作者头像
  • 张朝玮
  • 2020-06-29 13:10:47 1

导读

机器学习是一个强大的工具,已经在很多领域取得了显著的成功。然而,即使是经验丰富的从业者也可能会陷入一些常见的陷阱。本文将介绍七个可能导致机器学习项目失败的常见问题,这些问题不仅会影响实验结果,还可能误导决策。

Sin #1: 数据和模型的偏见

在深度学习中,新手常犯的一个错误就是数据和模型的偏见。常见的问题包括使用训练数据作为测试数据,或者模型参数过多导致过拟合。这些错误会导致模型在新数据上表现不佳。因此,在初次建模时获得高准确率并不一定意味着模型有效。正确的方法是使用独立的测试数据集来评估模型,并确保训练集能够代表实际应用情况。

Sin #2: 不公平的比较

即使是专家也可能犯的错误是不公平的比较。当试图证明新方法优于现有方法时,很容易陷入这一陷阱。例如,从公共仓库下载一个模型并未经调整就直接进行比较。为了确保公平性,应当对所有模型进行相同的参数调优。

Sin #3: 不明确的提升

在实验结束后,你可能会发现一种比现有模型更好的方法。但是,为了确保结果的有效性,需要进行统计测试。例如,使用t检验来确定观察到的性能提升是否具有统计学意义。这样可以避免因为随机因素而导致的误判。

Sin #4: 混淆干扰和错误的数据

数据质量对机器学习至关重要。数据中存在的偏差可能导致错误的结果。例如,使用不同设备采集的数据可能会导致模型学会区分设备而不是实际目标。因此,采集数据时要确保数据的一致性和代表性。

Sin #5: 不恰当的标签

每个训练样本的标签通常不足以准确反映任务的复杂性。在某些情况下,可能需要多个评分者提供多个标签。使用多个评分者的标签可以帮助识别模糊的情况,从而提高模型的准确性。

Sin #6: 交叉验证引发的混淆

交叉验证是一种常用的方法,但在使用过程中容易引发混淆。例如,使用同一数据集进行特征选择和模型评估可能导致结果偏差。为了避免这种情况,应采用嵌套交叉验证过程,确保模型和特征的选择不受测试数据的影响。

Sin #7: 结果的过度解释

最后,也是最容易犯的一个错误是过度解释结果。在当前的炒作环境下,很多人可能会夸大自己的成果。然而,应当谨慎对待结果的推广,避免将其应用于不可见的数据。此外,对于声称超越人类表现的说法也要保持谨慎,因为这可能涉及标签的偏差。

通过避免这些常见的陷阱,可以提高机器学习项目的成功率,并确保结果的真实性和可靠性。

    本文来源:图灵汇
责任编辑: : 张朝玮
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
机器学习宗罪
    下一篇