Nature综述:机器学习(ML)—研究分子和材料科学的新型利器 ...
作者头像
  • 2018-08-26 12:05:14 2

【引言】

薛定谔方程为分子和材料之间的结构与性能关系提供了强有力的支撑。通过描述给定化学元素的空间分布,该方程可用于解析电子的分布及广泛的物理反应。量子力学的发展为化学键提供了严谨的理论基础,从而催生了量子化学这一新兴学科。近年来,计算化学领域变得更加具有预测性,广泛应用于温室气体转化催化剂的开发、能量捕获和储存材料的研发,以及计算机辅助药物设计等多个领域。现代化学模拟工具包能够在实验室合成化合物前预测其性质(具有较高的准确性);高通量计算机筛选已成为常态,科学家能够高效地计算成千上万种化合物的性质,这已成为许多研究项目的关键部分。作为计算固体结构和行为的成熟技术,密度泛函理论(DFT)已被广泛用于开发涵盖已知和假设系统的数据库,包括有机和无机晶体、单分子和金属合金等。

人工智能在化学领域的应用

当代人工智能方法的发展有可能显著提升计算机在科学与工程领域的效能,大数据与人工智能的结合被誉为“科学的第四范式”和“第四次工业革命”。近几年,机器学习作为人工智能的一个重要分支,取得了快速发展。机器学习的核心在于统计算法,其通过不断训练和迭代,逐步提升自身的性能。这种技术特别适合处理那些涉及大型组合空间和非线性过程的复杂问题,这些问题往往难以通过传统技术解决,或者需要消耗高昂的计算资源。

成果简介

近日,北卡罗来纳大学教堂山分校的Olexandr Isayev教授和伦敦帝国理工学院的Aron Walsh教授在《自然》杂志上发表了题为“Machine Learning for Molecular and Materials Science”的综述文章。文章总结了机器学习在化学和材料科学领域的最新进展,涵盖了机器学习技术及其在该领域未来的应用前景。研究人员回顾了机器学习的基础知识,指出了现有方法如何加速研究进程,并探讨了未来发展的方向。

1. 机器学习的基础与方法

机器学习是一种通过给定数据和规则发现算法的方法,计算机能够在无人为干预的情况下识别已知的物理定律(甚至可能是尚未发现的定律)。与传统计算相比,机器学习方法通过评估数据集的一部分并建立模型来进行预测,从而学习构成数据集的基础规则。

1.1 数据收集

机器学习包括从现有数据中学习的模型。数据可能需要初始化预处理,以便识别和处理缺失或伪造的数据。正确处理错误对于避免机器学习算法被误导至关重要。

1.2 数据表示

原始科学数据虽然是数字形式,但其表现形式可能影响学习效果。例如,光谱信号在时域内获取,但在解释现象时需转换为频域。这种将原始数据转换为更适合算法处理的过程称为特征化或特征工程。

1.3 学习者的选择

当数据集被适当地收集或展示时,接下来就是选择合适的模型进行学习。目前存在多种模型类型用于建立和预测,监督学习模型可以预测离散集(如区分金属和绝缘体)或连续集(如极化率)内的输出值。建立离散集模型需要分类,而建立连续集模型则需要回归。

2. 科学方法的加速

无论是通过实验数据的枚举或分析,还是化学直觉的编纂,信息学在指导实验化学家方面的作用正在快速增强。这部分介绍了机器学习如何减少化学和材料设计、合成、表征和建模等方面的障碍,以及人工智能在现有文献数据挖掘方面的进展。

2.1 指导化学合成

有机化学家是最早认识到计算方法有望应用于实验室的科学家之一。在合成化学路径中,每一步反应的转化次数通常在80到数千之间,相比之下,国际象棋中每个游戏的位置只有几十种可能的移动。在化学合成中,需要人类专家指定特定的条件和规则,排除大量可能使用的试剂,限制了可供选择的算法数量。深度学习方法在预测化学合成路径方面显示出巨大潜力,通过将基于规则的专家系统和神经网络结合,实现路径的排序或预测产物的可能性组合。此外,还提出了基于规则合成预测的替代方案——序列-序列法,基于有机化学家和语言学之间的联系。

2.2 辅助多维表征

分子和材料的结构通常是通过多种实验方法的组合推断出来的,如X射线衍射、磁自旋共振和振动光谱等。每种方法都有其特定的灵敏度,信息互补。然而,很少将所得数据完全整合为统一的描述符。一种解决方案是将实时数据合并到模型中,再将结果反馈到实验中,形成反馈回路。机器学习正是代表了一种可以实现合成、成像、理论和模拟等方面协同作用的统一框架。

2.3 加强理论化学

目前,模型通常被认为是与合成和表征同等重要的。使用原子模拟,理论上可以计算任何化学组成和原子结构的分子和材料的性质。基于DFT的方法已成功用于预测多种化合物的性质,具有较高的准确性,尽管在其他方面存在不足,但研究人员仍在不断优化。

2.4 新型化合物的发现

机器学习可以揭示发现化合物的新方法。将系统描述符与理想性能相结合的模型已经用于揭示以前未知的结构-性能关系。尽管在晶体结构和形态等方面仍有许多挑战,但机器学习已经在预测晶体材料、分子科学等领域取得了广泛应用。

2.5 文献回收

机器学习的另一个应用领域是从现有文献中提取信息。尽管科学文献提供了丰富的信息,但由于期刊、文章和数据库的激增,导航变得越来越困难。文本挖掘已成为从非结构化文本源中识别并提取信息的有效方法。由于书面资源的异构性,相关信息的自动提取并非易事,文本挖掘已发展成为结合文本处理和机器学习技术的专业领域。

机器学习的前沿进展

机器学习的进一步突破可以在分子和材料的自动化设计方面取得更大进步。具体包括:从更小的数据库中获取更多知识、高效的化学表征、量子学习以及建立新原则等。

图文导读

图一 计算化学研究工作流程的演化图

图二 机器学习方法中出现的错误

图三 生成对抗网络(GAN)的分子发现法

小结

随着越来越多的科学家在其研究项目中采用统计学驱动设计的机器学习,应用机器学习的报道数量正在迅速增加。这种由开源工具和数据共享平台支持的新一代计算科学有望革新分子和材料的开发。

文献链接

Machine Learning for Molecular and Materials Science (Nature, 2018, DOI: 10.1038/s41586-018-0337-2)

    本文来源:图灵汇
责任编辑: :
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
材料科学利器综述分子新型机器Nature研究学习ML
    下一篇