统计学和机器学习之间的界限问题一直备受争议。有些学者认为机器学习不过是披着现代外衣的统计学,而另一些学者则认为只要涉及到逻辑回归或广义线性模型(GLM)的研究才算是机器学习。还有一些观点认为,是否能够进行元分析可以作为区分两者的标准。
然而,争论这些边界的必要性值得质疑。如果深入思考这个问题,我们可能会得出否定的答案。
麻省理工学院的Sam Finlayson博士指出,过去的争论往往偏离了核心问题,因为它们忽视了历史背景,或者对回归方法的归属含糊不清。因此,这种争论实际上并无意义。
1. 忽视历史背景:“机器学习”术语并非为了区分统计学
“人工智能”一词直到1956年才出现。当时,John McCarthy在达特茅斯会议上提出了这一概念,并将其定义为研究和创造智能机器的科学和工程。这一定义本身就非常模糊,因此容易被广泛接受。在那个年代,致力于“智能”的科学家们尚未转向数据驱动的方法,而是专注于自动机理论、形式逻辑和控制论等领域。因此,Arthur Samuel在1959年提出了“机器学习”这一术语,旨在描述一种让计算机在不需要显式编程的情况下学习的方法。这种方法的目的是让计算机具备识别能力,并随着时间推移不断提高这种能力,从而变得更智能。
从那时起,机器学习的定义逐渐演变为描述计算机如何通过经验自动改进的过程。换句话说,机器学习的目标是利用统计方法来提升性能,而不是为了与统计学对立。
2. 关于谁“拥有”回归的争论没有抓住重点
有些人坚持认为,回归驱动的方法属于统计学领域,而不是机器学习。这种观点不仅狭隘,而且缺乏历史依据。机器学习社区长期以来一直在追求“更好的计算机”,而不是单纯比较巧妙的方法或统计数据。因此,许多教授在教授机器学习课程时,都会详细介绍广义线性模型及其变体。由此可见,统计学在机器学习和人工智能的研究背景下是非常重要的,机器学习涉及多种方法,旨在使程序更加智能。
事实上,任何统计学家都无法断言脱离实际研究背景的统计学方法是有效的。回归方法归属之争在很大程度上低估了机器学习和统计学的价值,原因大致可以归纳为以下几点:
许多研究表明,统计学家和机器学习研究人员之间的互动非常频繁。例如,著名学者Rob Tibshirani和Trevor Hastie并没有纠结于方法论的边界,而是应用机器学习研究人员开发的工具来完善统计学领域的研究。这意味着这些方法已经影响了统计学家和机器学习研究人员的日常工作。
3. 许多“争论”在开始前就已经注定失败
机器学习和统计学之间的主要差异源于它们的目的不同,这也导致了方法和文化的差异。因此,“机器学习”一词的意义自诞生以来发生了巨大变化。语言上的脱节使得许多争论在开始前就已经注定失败。
机器学习的初衷是为了创建和理解智能计算机系统。主要的应用包括语音识别、计算机视觉、机器人/自动系统、计算广告、监控、聊天机器人等。在解决这些问题的过程中,机器学习研究人员通常会首先尝试经典的统计学方法,如广义线性模型(GLM)。然而,随着时间的推移,计算机科学家不断提出新的方法,使得机器学习这一工具日益强大。
与统计学家相比,机器学习研究人员往往较少关注算法背后的细节,而是更关注模型的误差。这种趋势导致机器学习方法更加灵活,有时甚至不惜牺牲可解释性来提高灵活性。这种演变使得机器学习和统计学之间的界限变得模糊。此外,一些统计学家并不了解机器学习的历史,因此热衷于采用其他术语来定义机器学习。
实际上,人们用“机器学习”这一术语时,往往指的是与机器学习本身不同的其他事情。例如,他们可能在说:“我正在用统计学方法让程序学习”或“我正在设计可以部署到自动化系统中的数据分析”。虽然从严格的历史意义上来说,这种说法并不准确,但我不认为应该对此过分苛责,因为这可能是习惯、文化背景或“觉得这样说听起来很酷”的综合影响。
因此,在实际应用中,人们用“机器学习”这一术语时,往往指的是与机器学习本身非常不同的其他事情。这仅仅是由于语言的发展而导致的结果。当另一群人——数据科学家群起而辩“一个特定的项目能否纯粹地冠之以机器学习或统计学”时,就显得非常滑稽。在我看来,“数据科学家”这一术语本身是由机器学习和统计学交汇而成的。
4. 这整场“争论”差不多就是在浪费时间
现在有许多机器学习研究人员(或至少是机器学习爱好者)对统计学的理解不足。一部分人确实是机器学习研究人员,但也有许多专业的统计学家有时也会认为自己是机器学习研究人员。更为严重的是,机器学习的发展速度如此之快,以至于即使是杰出的机器学习研究人员也常常需要重新发现或重新发明某些统计学方法。
这是一个问题,也是一个浪费!
最后,由于许多第三方研究者喜欢用“机器学习”这一术语,即使他们所谓的“机器学习”既不是构建自动化系统,也没有使用机器学习领域提出的方法。我认为,解决这些问题的方法是让人们认识到,大多数机器学习的数据方法实际上存在于统计学中。无论这些方法是用于数据分析还是设计智能系统,我们的首要任务是培养对统计学原理的深入了解,而不是执拗于机器学习和统计学领域的划分。
关于机器学习和统计学的无休止争论只会分散人们的注意力,使他们无法专注于如何通过正确匹配问题和特定工具来高效完成工作。相比之下,这更为重要。
同时,人们固执己见地对统计学和机器学习方法的错误二分法,会导致许多研究人员养成不必要时不使用复杂方法的习惯,只是为了让自己感觉自己是在做“真正的机器学习”。这也直接导致人们为了使自己的工作听起来更时髦,随意将其称为机器学习。
统计计算的黄金时代正在推动机器学习和统计学领域的紧密结合。尽管机器学习研究起源于计算机科学体系,但当代统计学家越来越多地依赖于计算机科学界几十年来开创的算法和软件栈。他们也越来越发现机器学习研究者提出的方法的用途,特别是在高维回归方面,尤其是在计算生物学领域。
另一方面,机器学习社区也越来越关注可解释性、公平性和可验证的鲁棒性等主题,这促使许多研究人员优先考虑让机器学习输出的数值更直接地与传统统计值一致。至少,在尽可能使用最复杂的架构来部署系统时,人们普遍认识到,使用经典的统计学来衡量和评估机器学习模型的性能是必要的。
5. 总结
总之,学界关于机器学习和统计学的争论是错误的,人们对相关术语的使用也是超载的,方法论的二分法并不正确。机器学习研究人员越来越多地关注统计学,而统计学家们也越来越依赖于计算机科学和机器学习社区。根本不存在回归和兼并的阴谋论。当其他人使用的术语与你不同时,那是因为他们来自不同的背景,有着不同的目的,而不是因为他们不诚实或愚蠢。