机器学习与统计学的争论，有意义吗？

2020-02-15 14:15:24 2

+关注

统计学和机器学习之间的关系一直是学术界争论的焦点。一些学者认为，机器学习不过是统计学披上了现代技术的外衣，而另一些学者则认为，只要涉及到逻辑回归或广义线性模型（GLM）的研究，就可以算作机器学习。

然而，这样的争论是否真的有意义呢？麻省理工学院的Sam Finlayson博士指出，过去的争论大多偏离了重点，因为它们忽略了历史背景，或者对回归方法的归属模糊不清。因此，这样的争论实际上并无意义。

1. 忽略历史背景：“机器学习”并非为了区分统计学

“机器学习”一词的诞生并不是为了区分统计学。在达特茅斯会议期间，科学家们一直致力于研究“智能”设备，但直到1956年，“人工智能”这一术语才首次被提出。John McCarthy提出的定义非常模糊，旨在涵盖所有相关的研究范式，而非局限于某种特定方法。正是在这种背景下，Arthur Samuel在1959年提出了“机器学习”的概念，将其定义为一种让计算机通过经验自动改进的研究领域。

2. 关于回归方法归属的争论没有抓住重点

有些人坚持认为，回归方法是统计学专属，无论如何也不能称为机器学习。这种观点不仅狭隘，还忽视了统计学和机器学习之间的相互影响。六十年来，机器学习社区一直致力于提升计算机的能力，而统计学在这一过程中发挥了重要作用。例如，Judea Pearl的因果关系理论开辟了新的统计学范式，这表明机器学习和统计学之间存在紧密联系。

3. 许多争论在开始前就已经注定失败

不同领域的目标导致了方法和文化的差异，这也是“机器学习”一词的意义不断演变的原因。语言上的脱节使得许多争论在开始前就已经注定失败。机器学习的初衷是创建和理解智能计算机系统，因此在处理这些问题时，研究者通常会从经典的统计学方法开始，如广义线性模型（GLM）。随着时间的推移，计算机科学家不断提出新的方法，使机器学习工具日益强大。这种发展过程类似于自然选择，导致机器学习和统计学之间的界限变得模糊。

4. 这整场争论实际上是在浪费时间

如今，许多机器学习研究者对统计学的理解还不够深入。有些研究者认为自己是机器学习专家，但也有一些专业的统计学家同样认为自己是机器学习专家。这种混淆源于机器学习的快速发展和文化上的脱节。此外，很多第三方研究者喜欢使用“机器学习”这一术语，即使他们并没有使用机器学习的方法。这种做法只是为了使他们的工作看起来更时髦。

5. 总结

总之，学界关于机器学习和统计学的争论是错误的。人们对于相关术语的使用也过于随意，方法论的二分法并不正确。机器学习研究者越来越多地关注统计学，而统计学家们也越来越依赖于计算机科学和机器学习社区。不存在回归和兼并的阴谋论。当其他人使用不同的术语时，这可能是因为他们来自不同的背景，有着不同的目的，而不是因为他们不诚实或愚蠢。我们应该更加重视如何通过正确的工具解决具体问题，而不是陷入无休止的争论。

图灵汇

责任编辑：：

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。