统计学和机器学习之间的关系一直是学术界争论的焦点。一些学者认为,机器学习不过是统计学披上了现代技术的外衣,而另一些学者则认为,只要涉及到逻辑回归或广义线性模型(GLM)的研究,就可以算作机器学习。
然而,这样的争论是否真的有意义呢?麻省理工学院的Sam Finlayson博士指出,过去的争论大多偏离了重点,因为它们忽略了历史背景,或者对回归方法的归属模糊不清。因此,这样的争论实际上并无意义。
“机器学习”一词的诞生并不是为了区分统计学。在达特茅斯会议期间,科学家们一直致力于研究“智能”设备,但直到1956年,“人工智能”这一术语才首次被提出。John McCarthy提出的定义非常模糊,旨在涵盖所有相关的研究范式,而非局限于某种特定方法。正是在这种背景下,Arthur Samuel在1959年提出了“机器学习”的概念,将其定义为一种让计算机通过经验自动改进的研究领域。
有些人坚持认为,回归方法是统计学专属,无论如何也不能称为机器学习。这种观点不仅狭隘,还忽视了统计学和机器学习之间的相互影响。六十年来,机器学习社区一直致力于提升计算机的能力,而统计学在这一过程中发挥了重要作用。例如,Judea Pearl的因果关系理论开辟了新的统计学范式,这表明机器学习和统计学之间存在紧密联系。
不同领域的目标导致了方法和文化的差异,这也是“机器学习”一词的意义不断演变的原因。语言上的脱节使得许多争论在开始前就已经注定失败。机器学习的初衷是创建和理解智能计算机系统,因此在处理这些问题时,研究者通常会从经典的统计学方法开始,如广义线性模型(GLM)。随着时间的推移,计算机科学家不断提出新的方法,使机器学习工具日益强大。这种发展过程类似于自然选择,导致机器学习和统计学之间的界限变得模糊。
如今,许多机器学习研究者对统计学的理解还不够深入。有些研究者认为自己是机器学习专家,但也有一些专业的统计学家同样认为自己是机器学习专家。这种混淆源于机器学习的快速发展和文化上的脱节。此外,很多第三方研究者喜欢使用“机器学习”这一术语,即使他们并没有使用机器学习的方法。这种做法只是为了使他们的工作看起来更时髦。
总之,学界关于机器学习和统计学的争论是错误的。人们对于相关术语的使用也过于随意,方法论的二分法并不正确。机器学习研究者越来越多地关注统计学,而统计学家们也越来越依赖于计算机科学和机器学习社区。不存在回归和兼并的阴谋论。当其他人使用不同的术语时,这可能是因为他们来自不同的背景,有着不同的目的,而不是因为他们不诚实或愚蠢。我们应该更加重视如何通过正确的工具解决具体问题,而不是陷入无休止的争论。