AI初创企业如何成功机器学习需求避开的四个错误

吉永柏
2019-10-19 09:13:46 2

+关注

在过去25年里，我们目睹了无数次人为错误，但机器学习中的错误却鲜少被提及。如今，这类错误可能会给公司带来数百万美元的损失以及多年无效的工作。因此，本文总结了机器学习中一些最常见的错误，涵盖了数据处理、目标设定、验证方法和技术选择等方面。

数据

在处理数据时，出现错误的可能性很高。以下是几种常见的数据相关问题：

未处理的数据：未经处理的数据如同垃圾，无法为所构建的模型提供有效的支持。因此，所有AI项目都应基于预处理的数据进行操作。
异常值：检查并消除数据中的偏差和异常值是每个机器学习项目的重要任务。数据往往不完整或存在错误，某些信息也可能缺失。
数据不足：尽管可以通过多次实验获取结果，但少量且不平衡的数据会导致结论与实际情况相差甚远。因此，如果需要训练网络以区分不同的类别，数据量必须充足。
数据过多：有时候，限制数据量反而是最佳选择。例如，过量的数据可能导致对未来行为的预测变得不准确。因为我们的世界和人类行为都是不可预测的，基于过去的行为来预测当前的情况往往会产生较大的误差。

目标

准确性是机器学习的重要目标之一，但在追求高精度的过程中也可能会遇到挑战。特别是在创建预测性推荐系统时，准确性至关重要。例如，如果一个系统的准确性能达到99%，那么消费者会更容易接受，并且推荐系统也能更好地发挥作用。然而，如果目标仅仅是提高准确性而不考虑实际应用场景，那么即使达到极高的准确率也可能没有实际意义。

验证方法

就像孩子学习字母表一样，机器学习模型也需要从特定的数据集中学习。然而，仅仅依赖于同一数据集上的表现并不能全面评估模型的质量。为了获得最准确的评估结果，必须使用专门选择的验证数据集，这些数据集中的信息在训练过程中未曾使用过。通过这种方式，可以更准确地衡量模型的质量。

技术选择

在AI项目中选择合适的技术也是一个常见的误区，尽管这可能不会致命，但它会影响项目的进度和效率。神经网络虽然是机器学习领域中最受追捧的技术之一，但并非适用于所有任务。例如，在Kaggle竞赛中，随机森林等其他算法的表现可能更为出色，尤其是在处理表格数据时。因此，项目团队应该清楚地了解每种算法的最佳适用场景。

机器学习虽然被广泛讨论和推广，但它确实为我们带来了便利，逐步改善了我们的生活。对于正在起步的AI创业者而言，本文提供的经验和教训尤为重要。

图灵汇

责任编辑：：吉永柏

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。