机器学习以其独特的优势在科学研究中得到了广泛应用,但其固有的“黑箱”特性也引发了一系列问题。有研究者认为,正是机器学习的不可解释性导致了当前科学研究的“可重复性危机”。若科学研究无法重复验证,我们还能称之为真正的科学吗?此外,有人甚至称机器学习已成为一种“炼金术”。
“可重复性危机”指的是在科学界,大量研究结果无法在其他研究团队重复实验中重现。这可能意味着最初的实验结果是错误的。据一项研究表明,在全球范围内进行的所有生物医学研究中,多达85%的研究结果是不可重复的。
这种危机在学术界引发了广泛的讨论,甚至被认为是机器学习和统计学领域之间的一场争论。有人认为,机器学习的“黑箱”特性是造成这种危机的主要原因。
1. 算法知识的缺失
机器学习应用中普遍存在算法知识不足的问题。如果研究者不了解算法如何产生结果,便难以判断结果是否可靠或是否仅仅是噪声。例如,深度神经网络通常包含数百万个参数,加上许多超参数(如学习率、初始化策略等),使得结果难以解释和验证。
2. 数据知识的缺失
数据知识的缺失也是一个重要问题。数据采集中的误差,如量化误差、测量不确定性和智能体变量的使用,都会导致问题。此外,次优数据的选择也可能对结果产生重大影响。例如,在基因组学研究中,数据量巨大,参数多于数据点的情况十分常见。选择不同的回归方法(如LASSO回归、岭回归或弹性网络回归)会产生截然不同的结果。
3. 结果的误读
结果的误读在科学界也很常见。相关性并不意味着因果关系。例如,两个变量A和B可能因其他变量C而存在关联。机器学习算法可能会轻易接受这种虚假相关性,而忽视潜在的因果关系,从而导致错误的结论。
p-hacking
p-hacking指通过获取数据集并尽可能全面地搜索其中具有统计意义的相关性,并将这些相关性视为科学有效的做法。这种方法可能导致伪相关性的出现。此外,机器学习算法为了做出预测,有时会过度拟合数据,这同样会导致结果的不准确。
尽管存在这些问题,机器学习仍然有其价值。传统统计方法和数据集也存在类似问题,只是在机器学习中被放大了。研究人员正在开发下一代机器学习系统,以解决预测的不确定性和不可重复性问题。例如,通过消融研究(逐步移除参数以评估其影响)、切片分析(分析算法在特定方面的改进对其他方面的影响)和报告不同超参数下的所有性能,可以增强机器学习的分析能力。
机器学习方法在科学研究中确实存在“可重复性危机”,但科学家们已经认识到这些问题,并致力于开发更具可重复性和可解释性的机器学习模型。未来,随着对这些算法的理解加深,我们可以期待更可靠、可重复的研究结果。正如物理学家理查德·费曼所说,“不能捉弄自己,但自己却容易被捉弄”。因此,我们需要更加谨慎地使用机器学习,确保研究结果的准确性和可靠性。