新手机器学习工程师最容易犯的6大错误

在机器学习领域，构建产品或解决方案的方法繁多，每种方法都有其特定的前提假设。初学者往往难以分辨哪些假设是合理的，因此常常会犯一些看似愚蠢的错误。本文列举了新机器学习工程师最常遇到的六大常见错误，旨在帮助大家避免这些误区，从而设计出更高效、更可靠的解决方案。

默认损失函数

默认采用均方误差（MSE）的做法非常普遍，但实际上，这种通用损失函数未必适用于所有业务场景。例如，在欺诈检测系统中，我们更关注的是按欺诈金额比例来评估假阴性样本。虽然MSE可能产生不错的效果，但并非最佳选择。

要点： 总是应根据具体需求定制损失函数，以匹配解决方案的目标。

单一算法适用一切

很多人在完成入门教程后，便倾向于在各种情境下重复使用同一种算法。尽管这种方法易于上手，但它并不总是最佳选择。应当让数据指导你选择合适的模型。通过多种模型测试，可以更好地理解哪些模型表现良好，哪些表现欠佳。

要点： 如果发现自己总是使用相同的算法，那可能意味着你尚未找到最优解。

忽视异常值

异常值在不同场景下的重要性各不相同。在某些情况下，它们可能揭示了关键信息；而在另一些情况下，则可能是无意义的噪声。例如，在污染预测中，异常值可能代表突发污染事件，值得进一步探究。然而，在某些传感器故障导致的异常值情况下，剔除这些数据可能是安全的选择。

要点： 在开始建模前，务必仔细检查数据，判断是否需要保留或移除异常值。

未正确处理周期性特征

时间相关的特征如一天中的小时数、一周中的天数等具有周期性。若未能将这些特征转化为能够反映其周期性的表示方式（如通过计算sin和cos分量），则可能导致模型接收无效信息。

要点： 正确处理周期性特征至关重要，否则会向模型输入错误的数据。

使用正则化但未进行标准化

L1和L2正则化虽是常用的正则化技术，但若在应用正则化之前不对特征进行标准化，可能会导致问题。例如，在线性回归模型中，若特征未经标准化，正则化效果将大打折扣。

要点： 标准化是应用正则化的前提条件，否则可能会引发不必要的麻烦。

将线性回归或逻辑回归系数视为特征重要性指标

在解读线性回归模型时，人们常误以为系数值越大，对应的特征越重要。然而，这种观点忽略了尺度变化对系数的影响，以及共线性问题的存在。事实上，特征间的相关性会影响系数的分配。

要点： 虽然了解特征的重要性很重要，但不应单纯依赖系数大小来判断，因为这可能会导致误解。

尽管成功实现项目令人欣喜，但细节决定成败。避免常见错误，遵循正确的流程，才能确保解决方案的质量。希望本文列出的这些常见陷阱能帮助你在机器学习旅程中走得更稳、更远。

责任编辑：：烽火法援

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

2019-11-15

机器学习技术运用于量子力学基础研讨