新手机器学习工程师最容易犯的错误Top6

无论你是新手还是有一定经验的学习者，都可以从中找到可以改进的地方。本文总结了一些机器学习初学者常犯的错误，希望能帮助你避免这些陷阱，构建出更稳健的解决方案。

默认使用的均方误差（MSE）可能并不总是最佳选择。以欺诈检测为例，为了使结果更符合商业需求，应根据欺诈造成的金额比例来惩罚假阴性样本。使用MSE虽然也能得到一定的效果，但未必是最优解。

要点： 始终根据具体需求定制损失函数，以更好地服务于业务目标。

很多人在完成第一个教程后，便习惯性地使用相同的算法解决所有问题。然而，这种方法往往无法取得最佳效果。建议尝试多种不同的模型，以便找到最适合当前问题的那个。

要点： 如果发现自己频繁使用同一种算法，可能是时候考虑是否还有更好的选择。

离群点在某些情况下具有重要意义，而在另一些情况下则可以忽略。例如，在预测污染水平时，观察到的高峰值可能包含有价值的信息。然而，传感器故障引起的异常值则可以被合理地剔除。不同的模型对离群点的敏感程度不同，因此需要仔细分析数据，判断哪些离群点值得进一步关注。

要点： 在处理数据前，务必仔细检查数据，确定哪些离群点应当被保留或排除。

时间相关的特征如一天中的小时数、一周中的天数等具有周期性，直接将其作为数值处理可能会导致信息丢失。建议使用三角函数（如sin和cos）来表示这些周期性特征，以便更好地捕捉它们之间的关系。

要点： 如果存在周期性特征但未对其进行恰当处理，将会给模型带来误导性的信息。

虽然L1和L2正则化有助于防止过拟合，但在应用正则化之前，应对特征进行标准化处理。因为不同的特征尺度会导致系数的相对大小发生变化，从而影响模型的表现。

要点： 标准化特征后再进行正则化，可以确保正则化的效果更加显著。

线性回归模型通常会返回每个特征的系数值及其对应的p值。然而，这些系数值并不能直接反映特征的重要性，因为它们受到特征尺度的影响。此外，如果特征之间存在多重共线性，系数可能会在特征间转移，从而使单一系数难以准确反映特征的重要性。

要点： 虽然理解特征的重要性很重要，但不应单纯依赖系数值来判断特征的重要性。

尽管这份清单并非全面无缺，但它提供了一些思考的方向，帮助你在构建机器学习解决方案时避免常见的错误。遵循良好的流程并反复检查细节，才能确保最终结果的质量。

责任编辑：：杨冬阳

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

2019-12-19

不要错过第一款基于机器学习的冒险游戏