AI初创企业如何成功 机器学习需求避开的四个错误
作者头像
  • 吉永柏
  • 2019-10-19 09:13:46 2

在过去25年里,我们目睹了无数次人为错误,但机器学习中的错误却鲜少被提及。如今,这类错误可能会给公司带来数百万美元的损失以及多年无效的工作。因此,本文总结了机器学习中一些最常见的错误,涵盖了数据处理、目标设定、验证方法和技术选择等方面。

数据

在处理数据时,出现错误的可能性很高。以下是几种常见的数据相关问题:

  • 未处理的数据:未经处理的数据如同垃圾,无法为所构建的模型提供有效的支持。因此,所有AI项目都应基于预处理的数据进行操作。
  • 异常值:检查并消除数据中的偏差和异常值是每个机器学习项目的重要任务。数据往往不完整或存在错误,某些信息也可能缺失。
  • 数据不足:尽管可以通过多次实验获取结果,但少量且不平衡的数据会导致结论与实际情况相差甚远。因此,如果需要训练网络以区分不同的类别,数据量必须充足。
  • 数据过多:有时候,限制数据量反而是最佳选择。例如,过量的数据可能导致对未来行为的预测变得不准确。因为我们的世界和人类行为都是不可预测的,基于过去的行为来预测当前的情况往往会产生较大的误差。

目标

准确性是机器学习的重要目标之一,但在追求高精度的过程中也可能会遇到挑战。特别是在创建预测性推荐系统时,准确性至关重要。例如,如果一个系统的准确性能达到99%,那么消费者会更容易接受,并且推荐系统也能更好地发挥作用。然而,如果目标仅仅是提高准确性而不考虑实际应用场景,那么即使达到极高的准确率也可能没有实际意义。

验证方法

就像孩子学习字母表一样,机器学习模型也需要从特定的数据集中学习。然而,仅仅依赖于同一数据集上的表现并不能全面评估模型的质量。为了获得最准确的评估结果,必须使用专门选择的验证数据集,这些数据集中的信息在训练过程中未曾使用过。通过这种方式,可以更准确地衡量模型的质量。

技术选择

在AI项目中选择合适的技术也是一个常见的误区,尽管这可能不会致命,但它会影响项目的进度和效率。神经网络虽然是机器学习领域中最受追捧的技术之一,但并非适用于所有任务。例如,在Kaggle竞赛中,随机森林等其他算法的表现可能更为出色,尤其是在处理表格数据时。因此,项目团队应该清楚地了解每种算法的最佳适用场景。

机器学习虽然被广泛讨论和推广,但它确实为我们带来了便利,逐步改善了我们的生活。对于正在起步的AI创业者而言,本文提供的经验和教训尤为重要。

    本文来源:图灵汇
责任编辑: : 吉永柏
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
初创避开机器错误需求成功如何学习企业
    下一篇