在商业应用(例如产品推荐和广告)中,机器学习(ML)已经取得了显著进展,这推动了人们开发工具来分析复杂数据。材料信息学作为一门新兴学科,也采用了类似的策略,利用机器学习方法来加速材料的选择、开发和发现。材料信息学的研究人员越来越多地在其工作流程中采用机器学习方法,以预测材料的各种物理、力学、光电和热特性(如晶体结构、熔点、形成焓、带隙)。尽管商业应用和材料科学研究的目标可能相似,但在数据、任务和需求方面仍存在显著差异。如果不仔细考虑机器学习的假设和局限性,可能会错失最佳机会,甚至浪费资源和得出错误的科学结论。这项研究揭示了材料信息学领域面临的独特挑战,提出了材料科学中机器学习解决方案的广泛应用需求。
在材料信息学的应用过程中,构建可靠且可解释的机器学习解决方案面临着诸多挑战。美国劳伦斯·利弗莫尔国家实验室的Bhavya Kailkhura和T. Yong-Jin Han领导的团队在这方面做出了重要贡献。首先,他们在现有的材料信息学流程中发现了训练、测试和量化不确定性的缺陷,尤其是在代表性不足和分布不均的数据集上。他们的发现引起了对现有材料信息学流程可靠性的高度关注。其次,为解决这些问题,他们提出了一种通用的、可解释的、可靠的机器学习方法,能够在代表性不足和分布不均的数据集中实现有效学习。
他们提出的解决方案包括:1)设计训练架构,使其适应不平衡的数据集;2)采用采样方法来调整训练数据的分布,从而使用标准的机器学习模型;3)采用可靠的评估指标和不确定性量化方法,以更准确地捕捉应用程序的偏差。与现有的针对每个属性分别训练回归模型的方法不同,他们采用了一种简单且计算成本低的分区方案:首先根据材料的属性值将数据分为若干子类,然后为每个子类训练单独的简化回归模型,从而提高可解释性并增强预测准确性。
为了进一步提高机器学习系统的可解释性,作者在框架中增加了推理生成器组件。推理生成器有两个主要目的:1)为单个预测提供解释;2)为回归模型提供全局解释。对于单个预测,推理生成器提供关于原型或已知化合物的解释,有助于科学家运用自身领域的知识验证这些化合物是否符合特定要求或约束。对于回归模型,推理生成器则提供对整个材料亚类的全局解释。此外,他们提出了一种新的评估指标和置信度评分,以更好地量化预测的可信度。通过应用于两类实例,他们展示了该技术的实用性:1)预测晶体化合物的五种不同物理特性;2)识别潜在稳定的太阳能电池材料。
该文近期发表于npj Computational Materials,英文标题与摘要如下,可通过链接https://www.nature.com/articles/s41524-019-0248-2免费获取全文。