它们彼此之间非常不同,数据迷信家需要了解背后的原因和方法。
这篇文章阐述了一个非常重要的区别,即数据迷信的不同分支。下面的维恩图展示了统计和机器学习之间的区别,尽管它们的图示表明这两个领域没有重叠部分,这在我看来是一个误解。我已经尽量根据自己的理解和了解重新创建了这个图。维恩图很好地展示了数据迷信各个分支的区别和联系。
我认为数据迷信是一个广泛的概念,其他术语可以看作数据迷信的不同分支。每个分支都有独特的特点,但又相互关联。
机器学习与统计建模
机器学习和统计建模是长期存在的议题。每个数据科学家或机器学习工程师都会面临这个问题:如何区分两者,或者哪种标签更适合哪种模型?尽管机器学习现在非常流行,但它并不意味着我们可以简单地将统计模型称为机器学习模型。事实上,它们是不同的。接下来,我们将深入了解两者的差异。
文章结构
定义
机器学习
机器学习是指开发计算机算法的过程,这些算法能够在不依赖于基于规则的编程的情况下,将数据转化为智能行动的研究领域。
统计建模
统计模型通常被定义为随机变量与其他非随机变量之间的数学关系。因此,统计模型是一种“理论上的表示方式”。
现在,让我们更深入地了解这两个领域的差异。
机器学习与统计建模之间的差异
1. 历史和学术相关性
统计建模在机器学习兴起之前就已经存在。1950年代,第一个机器学习程序——塞缪尔的跳棋程序问世。
如今,全球各大学都在启动机器学习和人工智能计划,但并没有关闭统计部门。机器学习与计算机科学系和独立的人工智能系协同教学,专注于构建能够从数据中学习的预测算法。
统计建模则与数学系共同教授,重点在于建立能够揭示不同变量间关系并进行预测的模型。
2. 不确定性容限
这是两个领域的重要区别之一。
在统计建模中,我们必须注意许多不确定性估计(如置信区间和假设检验),并且必须确保所有假设都得到满足。因此,统计模型的不确定性容限较低。
例如,如果我们建立了一个线性回归模型,必须先检查以下假设是否成立:
相反,如果我们建立的是逻辑模型,则需要考虑以下假设:
相比之下,机器学习算法几乎不需要假设。机器学习算法对统计线性和残差的正态分布等没有严格的要求,因此比统计模型更加灵活,具有更高的不确定性容限。
3. 数据需求与方法
统计模型在非常大的数据集上难以运行,它们需要的是具有适量属性和可观测值的可管理数据集。在统计模型中,属性数量一般不超过10-12个,因为它们很容易过拟合(在训练数据集上表现很好,但在新数据上表现不佳,这是因为模型过于贴近训练数据,这是不希望出现的情况)。
大多数统计模型遵循参数化方法(例如:线性回归、逻辑回归)。
相比之下,机器学习算法需要大量数据进行学习。因此,它们需要包含大量属性和观测值的数据集。数据越大越好!机器学习算法在一定程度上依赖大数据。
大多数机器学习模型遵循非参数化方法(例如:K最近邻、决策树、随机森林、梯度提升方法、支持向量机等)。
何时使用?
主要取决于具体需求。我们将简要说明,并举例说明。
在以下情况下,应优先选择统计模型:
机器学习可能是更好的选择:
例如,如果你与一家信用卡公司合作,他们希望建立一个跟踪客户流失的模型,那么他们很可能更喜欢一个统计模型,该模型包含10-12个预测变量,可以根据业务领域的知识进行解释和验证。在这种情况下,他们可能不喜欢“黑盒子”算法,因为对可解释性的需求高于预测的准确性。
另一方面,如果你正在为Netflix和Amazon这样的客户提供服务,他们希望构建强大的推荐引擎,那么在这种情况下,对预测准确性的要求高于模型的可解释性,因此机器学习模型将更为合适。
至此,我们结束了这篇文章。
您可以在以下文章中了解关于数据挖掘和机器学习之间的区别以及前四种机器学习算法的详细信息:
继续关注此空间,以获取更多关于机器学习、数据科学和统计学的信息!
祝您学习愉快!
(本文改编自Juhi的文章《Clearly Explained: How Machine Learning differs from Statistical modeling》,参考:https://towardsdatascience.com/clearly-explained-how-machine-learning-differs-from-statistical-modeling-967f2c5a9cfd)