传统的材料研发和合成面临诸多挑战,尤其是对于那些成分或结构较为复杂的材料,例如无机分子、高分子和无机-有机复合材料。由于其化学空间和合成路径的高度可变性,这类材料的研发通常需要大量的试错成本。此外,实验者必须具备丰富的经验和敏锐的化学直觉来设计和实施实验。因此,开发新的工具以实现高效快速的合成探索变得尤为重要。近年来,随着机器学习技术的发展,这一领域成为研究热点之一。特别是金属有机纳米胶囊的合成,由于其在催化、气体吸附与分离以及传感领域的卓越表现,引起了科研人员的广泛关注。然而,与其它材料合成类似,金属有机纳米胶囊的合成依旧依赖于繁琐且低效的试错方法。
最近,密苏里大学机械工程系的林见课题组与该校化学系无机化学教授Jerry L. Atwood课题组合作,提出了一种利用机器学习算法辅助材料合成的方法。该算法通过分析已有的实验数据(包括成功的和失败的实验),能够精确预测在特定条件下金属有机纳米胶囊是否能够形成晶体(准确率超过90%)。这种方法显著减少了试错过程中的人力和物力投入,缩短了新型金属有机纳米胶囊的发现周期。更重要的是,算法还能揭示材料合成中的隐藏信息,有助于培养实验者的化学直觉。这项研究成果以“Machine Learning Assisted Synthesis of Metal-Organic Nanocapsules”为题发表在《美国化学会志》上。
研究人员首先整理了486个实验数据,其中包括193个产生单晶的记录(标记为1)和293个没有反应或生成沉淀的记录(标记为0)。基于个人经验与文献阅读,他们确定了17种可能影响金属有机纳米胶囊结晶的化学特性,并将数据集按照7:3的比例划分为训练集和测试集。
在对比了九种不同的机器学习算法后,研究人员发现XGBoost算法表现最佳,其预测准确率达到91%,F1分数为87%,同时拥有最高的AUC值、召回率和准确率。
进一步的研究显示,在XGBoost算法的帮助下,合成过程中最关键的变量包括试剂、无机配体、调节剂和阳离子。即使将化学特征数量从17个减少到6个,XGBoost算法仍然展现出很高的稳定性。
通过详细分析XGBoost的决策过程,研究人员总结了三种可能的合成金属有机纳米胶囊单晶的路径。他们可以根据金属阳离子的价态和半径来制定合适的反应条件。
为了验证这三条假设,研究人员设计了20个实验。结果显示,XGBoost的预测准确率高于研究人员,同时还发现了新型金属有机纳米胶囊单晶SCP-4,这种单晶由两种不同的纳米胶囊单元相互连接组成。
该研究的意义在于首次将机器学习算法应用于合成金属有机纳米胶囊,不仅减少了试错次数,节省了时间和资源,还提供了对反应条件背后化学原理的深刻理解,为未来的合成工作提供了指导。此外,通过调整机器学习算法中的化学特征,这种方法还可以应用于其他无机-有机化合物的合成与发现。机器学习算法与高通量合成相结合,将进一步推动化合物的发现和发展。