新手机器学习工程师最容易犯的错误Top6
作者头像
  • 杨冬阳
  • 2019-12-19 07:34:10 2

导读

无论你是新手还是有一定经验的学习者,都可以从中找到可以改进的地方。本文总结了一些机器学习初学者常犯的错误,希望能帮助你避免这些陷阱,构建出更稳健的解决方案。

默许的损失函数

默认使用的均方误差(MSE)可能并不总是最佳选择。以欺诈检测为例,为了使结果更符合商业需求,应根据欺诈造成的金额比例来惩罚假阴性样本。使用MSE虽然也能得到一定的效果,但未必是最优解。

要点: 始终根据具体需求定制损失函数,以更好地服务于业务目标。

对所有问题使用同一种算法

很多人在完成第一个教程后,便习惯性地使用相同的算法解决所有问题。然而,这种方法往往无法取得最佳效果。建议尝试多种不同的模型,以便找到最适合当前问题的那个。

要点: 如果发现自己频繁使用同一种算法,可能是时候考虑是否还有更好的选择。

忽略离群点

离群点在某些情况下具有重要意义,而在另一些情况下则可以忽略。例如,在预测污染水平时,观察到的高峰值可能包含有价值的信息。然而,传感器故障引起的异常值则可以被合理地剔除。不同的模型对离群点的敏感程度不同,因此需要仔细分析数据,判断哪些离群点值得进一步关注。

要点: 在处理数据前,务必仔细检查数据,确定哪些离群点应当被保留或排除。

不恰当地处理周期性特征

时间相关的特征如一天中的小时数、一周中的天数等具有周期性,直接将其作为数值处理可能会导致信息丢失。建议使用三角函数(如sin和cos)来表示这些周期性特征,以便更好地捕捉它们之间的关系。

要点: 如果存在周期性特征但未对其进行恰当处理,将会给模型带来误导性的信息。

正则化但未标准化

虽然L1和L2正则化有助于防止过拟合,但在应用正则化之前,应对特征进行标准化处理。因为不同的特征尺度会导致系数的相对大小发生变化,从而影响模型的表现。

要点: 标准化特征后再进行正则化,可以确保正则化的效果更加显著。

将线性回归或逻辑回归的系数解释为特征重要性

线性回归模型通常会返回每个特征的系数值及其对应的p值。然而,这些系数值并不能直接反映特征的重要性,因为它们受到特征尺度的影响。此外,如果特征之间存在多重共线性,系数可能会在特征间转移,从而使单一系数难以准确反映特征的重要性。

要点: 虽然理解特征的重要性很重要,但不应单纯依赖系数值来判断特征的重要性。

结语

尽管这份清单并非全面无缺,但它提供了一些思考的方向,帮助你在构建机器学习解决方案时避免常见的错误。遵循良好的流程并反复检查细节,才能确保最终结果的质量。

    本文来源:图灵汇
责任编辑: : 杨冬阳
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
机器错误工程师容易新手学习Top6
    下一篇