机器学习与科学研究中的可重复性危机
机器学习凭借其独特的优势逐渐在科学研究中得到广泛应用,但其内在的“黑箱”特性引发了一系列问题。一些研究者认为,正是机器学习的不可解释性导致了当前科学研究的“可重复性危机”——如果科学结果无法重复,我们还能称之为真正的科学吗?
一、什么是“可重复性危机”?
目前,科学界普遍认识到存在一种“可重复性危机”。许多科学研究结果在其他团队的重复实验中无法得到验证,这意味着最初的结论可能是错误的。一项研究表明,在全球范围内,高达85%的生物医学研究结果可能无法被重复。这不仅挑战了科学界的可信度,还引发了对机器学习是否能成为可靠研究工具的质疑。
二、形成“可重复性危机”的原因
算法知识的缺失
缺乏对机器学习算法的理解会导致研究结果的不可靠。神经网络中的参数众多,使得结果难以解释。如果不同研究者使用的算法不同,结果的对比就会变得困难。例如,高维神经网络的复杂性意味着即使是微小的参数变化也可能导致显著的结果差异。
数据知识的不足
数据采集中的误差,如量化误差和测量不确定性的存在,可能导致研究结果失真。选择适合的算法对于结果的准确性至关重要。例如,在基因组学研究中,选择不同的回归方法(如LASSO回归、岭回归等)可能会得到截然不同的结论。
对结果的误解
相关性并不等于因果关系。机器学习算法可能会识别出看似相关但实际上并无因果关系的变量,这被称为“伪相关性”。伪相关性的增加与大型数据集的广泛使用有关。随着数据量的增加,伪相关性的出现变得更加频繁,而算法往往无法区分这些伪相关性。
三、下一步可以做什么?
尽管机器学习带来了“可重复性危机”,但研究者们已经开始着手解决这些问题。下一代机器学习系统旨在评估其预测的不确定性,并提高结果的可重复性。研究者需要更加谨慎地应用机器学习算法,确保其结果可验证和可解释。同行评审流程和跨学科合作将有助于推动这一进程。
四、结语
尽管机器学习在科学研究中存在挑战,但科学家们已经意识到这些问题,并致力于开发更可靠和可解释的模型。只有深入了解机器学习的工作机制,才能确保其在科学研究中的有效性。最终,这将促进科学研究的进步,使科学结论更加可靠和可重复。
参考文献
- https://science-sciencemag-org.ezp-prod1.hul.harvard.edu/content/sci/365/6452/416.full.pdf
- https://research.fb.com/wp-content/uploads/2019/05/The-Scientific-Method-in-the-Science-of-Machine-Learning.pdf?
- https://bigdata-madesimple.com/machine-learning-disrupting-science-research-heres/
- https://biodatamining.biomedcentral.com/track/pdf/10.1186/s13040-018-0167-7
- https://www.sciencemag.org/news/2018/05/ai-researchers-allege-machine-learning-alchemy
- https://www.sciencedaily.com/releases/2019/02/190215110303.htm
- https://phys.org/news/2018-09-machine-scientific-discoveries-faster.html
- https://www.americanscientist.org/blog/macroscope/people-cause-replication-problems-not-machine-learning
- https://www.datanami.com/2019/02/19/machine-learning-for-science-proving-problematic/
- https://www.quantamagazine.org/how-artificial-intelligence-is-changing-science-20190311/
- https://ml4sci.lbl.gov/
- https://blogs.nvidia.com/blog/2019/03/27/how-ai-machine-learning-are-advancing-academic-research/
- https://towardsdatascience.com/a-quick-response-to-genevera-allen-about-machine-learning-causing-science-crisis-8465bbf9da82#--responses
- https://www.hpcwire.com/2019/02/19/machine-learning-reproducability-crisis-science/
By Matthew Stewart, PhD Researcher
via https://towardsdatascience.com/the-machine-learning-crisis-in-scientific-research-91e61691ae76