明白解释:机器学习与统计建模有何不同
作者头像
  • 中部制博会
  • 2020-06-01 06:18:08 4

它们彼此之间非常不同,数据迷信家需要了解背后的原因和方法。

这篇文章阐述了一个非常重要的区别,即数据迷信的不同分支。下面的维恩图展示了统计和机器学习之间的区别,尽管它们的图示表明这两个领域没有重叠部分,这在我看来是一个误解。我已经尽量根据自己的理解和了解重新创建了这个图。维恩图很好地展示了数据迷信各个分支的区别和联系。

我认为数据迷信是一个广泛的概念,其他术语可以看作数据迷信的不同分支。每个分支都有独特的特点,但又相互关联。

机器学习与统计建模

机器学习和统计建模是长期存在的议题。每个数据科学家或机器学习工程师都会面临这个问题:如何区分两者,或者哪种标签更适合哪种模型?尽管机器学习现在非常流行,但它并不意味着我们可以简单地将统计模型称为机器学习模型。事实上,它们是不同的。接下来,我们将深入了解两者的差异。

文章结构

  1. 机器学习和统计建模的定义
  2. 机器学习与统计建模之间的差异
  3. 何时使用?

定义

机器学习

机器学习是指开发计算机算法的过程,这些算法能够在不依赖于基于规则的编程的情况下,将数据转化为智能行动的研究领域。

统计建模

统计模型通常被定义为随机变量与其他非随机变量之间的数学关系。因此,统计模型是一种“理论上的表示方式”。

现在,让我们更深入地了解这两个领域的差异。


机器学习与统计建模之间的差异

1. 历史和学术相关性

统计建模在机器学习兴起之前就已经存在。1950年代,第一个机器学习程序——塞缪尔的跳棋程序问世。

如今,全球各大学都在启动机器学习和人工智能计划,但并没有关闭统计部门。机器学习与计算机科学系和独立的人工智能系协同教学,专注于构建能够从数据中学习的预测算法。

统计建模则与数学系共同教授,重点在于建立能够揭示不同变量间关系并进行预测的模型。

2. 不确定性容限

这是两个领域的重要区别之一。

在统计建模中,我们必须注意许多不确定性估计(如置信区间和假设检验),并且必须确保所有假设都得到满足。因此,统计模型的不确定性容限较低。

例如,如果我们建立了一个线性回归模型,必须先检查以下假设是否成立:

  • 因变量和自变量之间的线性关系
  • 错误项的独立性
  • 错误项(残差)的正态分布
  • 自变量之间的无多重共线性

相反,如果我们建立的是逻辑模型,则需要考虑以下假设:

  • 因变量必须为二分类或有序分类
  • 观测结果的独立性
  • 自变量和对数几率的线性关系

相比之下,机器学习算法几乎不需要假设。机器学习算法对统计线性和残差的正态分布等没有严格的要求,因此比统计模型更加灵活,具有更高的不确定性容限。

3. 数据需求与方法

统计模型在非常大的数据集上难以运行,它们需要的是具有适量属性和可观测值的可管理数据集。在统计模型中,属性数量一般不超过10-12个,因为它们很容易过拟合(在训练数据集上表现很好,但在新数据上表现不佳,这是因为模型过于贴近训练数据,这是不希望出现的情况)。

大多数统计模型遵循参数化方法(例如:线性回归、逻辑回归)。

相比之下,机器学习算法需要大量数据进行学习。因此,它们需要包含大量属性和观测值的数据集。数据越大越好!机器学习算法在一定程度上依赖大数据。

大多数机器学习模型遵循非参数化方法(例如:K最近邻、决策树、随机森林、梯度提升方法、支持向量机等)。


何时使用?

主要取决于具体需求。我们将简要说明,并举例说明。

在以下情况下,应优先选择统计模型:

  • 不确定性较低,因为大多数假设已经满足
  • 数据量不大
  • 需要隔离大量变量的影响
  • 总体预测中的不确定性/边际误差是可以接受的
  • 自变量之间的交互作用较少,可以预先指定
  • 需要高解释性

机器学习可能是更好的选择:

  • 当预测结果缺乏强随机性时,例如在视觉模式识别中,对象必须是E或不是E
  • 可以对有限数量的精确重复进行训练(例如,每个字母重复1000次或将某个单词翻译成德语)
  • 当以整体预测为目标时,无法单独描述任何一个自变量的影响或变量之间的关系
  • 对预测中的不确定性或选定预测器的影响不太关心
  • 数据量巨大
  • 不需要隔离任何特殊变量的影响
  • 低可解释性,模型成为“黑盒子”是可以接受的

例如,如果你与一家信用卡公司合作,他们希望建立一个跟踪客户流失的模型,那么他们很可能更喜欢一个统计模型,该模型包含10-12个预测变量,可以根据业务领域的知识进行解释和验证。在这种情况下,他们可能不喜欢“黑盒子”算法,因为对可解释性的需求高于预测的准确性。

另一方面,如果你正在为Netflix和Amazon这样的客户提供服务,他们希望构建强大的推荐引擎,那么在这种情况下,对预测准确性的要求高于模型的可解释性,因此机器学习模型将更为合适。


至此,我们结束了这篇文章。

您可以在以下文章中了解关于数据挖掘和机器学习之间的区别以及前四种机器学习算法的详细信息:

  • 明白解释:机器学习与数据挖掘有何不同
  • 定义、混淆、区别-全部阐明
  • 明白解释:4种机器学习算法
  • 定义、目的、流行算法和用例-全部阐明

继续关注此空间,以获取更多关于机器学习、数据科学和统计学的信息!

祝您学习愉快!

(本文改编自Juhi的文章《Clearly Explained: How Machine Learning differs from Statistical modeling》,参考:https://towardsdatascience.com/clearly-explained-how-machine-learning-differs-from-statistical-modeling-967f2c5a9cfd)

    本文来源:图灵汇
责任编辑: : 中部制博会
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
建模明白机器不同解释统计学习
    下一篇