统计学和机器学习到底有什么区别?
作者头像
  • 闫徐
  • 2019-10-14 18:49:30 3

统计学和机器学习之间的界限一直比较模糊,但这并不意味着两者完全相同。尽管很多人认为机器学习不过是披上了统计学的华丽外衣,但实际上,它们有着各自独特的用途和目标。

诺贝尔经济学奖得主托马斯·萨金特曾表示,人工智能实质上就是统计学的一种表现形式,只是用了一种更为精美的语言来描述。尽管如此,这个观点仍然存在争议。支持者和反对者在讨论中往往提出一些看似深奥但实际含混不清的观点,让人难以理解。

哈佛大学的博士生Matthew Stewart从统计学与机器学习的不同之处出发,详细探讨了两者之间的区别。他指出,机器学习和统计学的目的有所不同。机器学习侧重于构建精确的预测模型,而统计学则更关注于推断变量之间的关系。

尽管从技术角度讲,这种说法是正确的,但它并没有给出一个清晰明了的答案。实际上,机器学习和统计学之间的主要区别在于它们的目标。然而,仅仅说机器学习是为了提高预测准确性,而统计学是为了推断变量之间的关系,并不足以全面说明两者的区别。

统计学是对数据进行数学研究,而统计模型则是用于推断数据中不同内容的关系或创建可以预测未来值的模型。两者通常是相辅相成的。因此,我们需要从两个角度来理解它们的不同:一是统计学与机器学习的区别;二是统计模型与机器学习的区别。

很多统计模型虽然可以进行预测,但效果可能不尽如人意。而机器学习通常会牺牲一定的可解释性,以换取强大的预测能力。例如,从线性回归到神经网络,虽然解释性较差,但预测能力却显著增强。

从宏观角度看,这种说法已经足够清晰。但在某些情况下,它可能会导致人们对机器学习和统计建模之间的差异产生误解。以线性回归为例,我们可以看到两者之间的显著差异。

统计模型与机器学习在线性回归上的差异

线性回归是一种统计方法,既可用于训练线性回归器,也可用于拟合统计回归模型。在这个过程中,前者通过训练模型并用测试集评估其性能,而后者则直接假设数据符合高斯噪声分布,寻找一条能最大限度减少均方误差的直线。前者更注重预测,而后者则更侧重于推断数据与输入变量之间的关系。

作为一名环境科学家,我的工作主要是处理传感器数据。如果我需要证明传感器对某种刺激(如气体浓度)的响应具有统计显著性,我会使用统计模型来确定信号响应的显著性。我需要了解这种关系,并测试其重复性,以便准确描述传感器的响应,并根据这些数据做出推断。

同时,我也可能利用20个不同传感器的数据来预测某个传感器的响应。虽然这可能显得有些奇怪,但它确实是环境科学领域的一个重要研究方向。这种预测模型不需要具备可解释性,因为模型可能非常复杂,就像神经网络一样难以理解。

如果我要证明数据变量之间的关系在某种程度上具有统计显著性,以便在科学论文中发表,我会使用统计模型而不是机器学习。因为在这种情况下,我更关心变量之间的关系,而不是预测本身。

机器学习与统计学在线性回归上的差异

有些人认为机器学习和统计学是同一回事,这只是因为它们都应用了基本的概率概念。然而,这种看法是不合理的。就像物理不只是数学的一种说法,动物学也不只是邮票收藏的一种说法,建筑学也不仅仅是沙堡建筑的一种说法。

事实上,物理是建立在数学基础上的,而统计学也是现代统计学的基础之一。同样,机器学习基于许多其他领域的内容,如数学和计算机科学。机器学习的实现依赖于计算机科学和工程学的概念,如核映射和特征散列等。

统计学和机器学习之间的主要区别在于统计学完全基于概率空间。统计学的核心是集合论,讨论如何将数据分类,并对这些类进行测量,使其总和为1。这种测量方法称为概率空间。机器学习基于统计学习理论,同样基于概率空间的公理化表述。

机器学习分为多个类别,这篇文章重点讨论监督学习,因为它是最容易解释的一种。监督学习提供了数据集,并通过损失函数来衡量模型的表现。为了最小化损失函数,机器学习算法通常需要通过训练集进行学习,并在测试集上验证其性能。

传统统计方法没有训练集和测试集的概念,但会使用不同的目标来验证模型。虽然验证过程不同,但两种方法都可以提供统计稳健的结果。传统统计方法给出了一个最优解,而机器学习方法尝试了多种模型,并最终收敛出一个最终的假设。

如果使用不同的损失函数,结果可能会不同。例如,使用铰链损失可能会导致不同的结果。最后,可以通过模型偏差来区分机器学习算法。你可以用机器学习算法来测试线性模型、多项式模型和指数模型等,以确定哪个模型更适合数据集。

那么哪个方法更优呢?

这个问题其实没有绝对的答案。没有统计学,机器学习根本无法存在,但由于现代信息爆炸带来的大量数据,机器学习变得非常有用。选择机器学习还是统计模型取决于具体目的。如果你需要创建一个高度准确的预测模型,或者从数据中找出某些规律,机器学习可能是更好的选择。如果你希望找出变量之间的关系或从数据中得出推论,统计模型会更合适。

    本文来源:图灵汇
责任编辑: : 闫徐
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
统计学区别机器到底学习什么
    下一篇