改写原文
在生物化学领域,蛋白质的复杂三维空间结构是由氨基酸通过脱水缩合反应形成,这种结构执行着生物体内多种功能,比如催化生物化学反应和信号传递。蛋白质的功能特性很大程度上取决于其侧链结构。侧链的化学特性和空间排列决定了蛋白质的折叠模式及与其它分子(包括蛋白质、DNA、RNA、小分子等)的相互作用。这些相互作用形式多样,涉及氢键、离子键、疏水相互作用和范德华力等。深入理解这些相互作用有助于寻找药物与受体的结合位点,并设计出具有更高催化效率的酶。因此,准确预测蛋白质的侧链构象对于理解蛋白质功能以及药物设计至关重要。
传统方法与现代挑战
传统的蛋白质侧链构象预测算法,如RosettaPacker,通过在能量函数定义的概率分布中抽样来获取侧链构象。这类方法往往依赖人工设定的能量函数,其精确度受到函数设计的影响。与此同时,以AlphaFold2为代表的深度学习模型在蛋白质结构预测方面取得了重大进展,但它们在侧链构象预测上通常采用端到端学习策略,未能全面捕捉侧链构象的整体分布特性,因此在准确性上有所局限。
革新:DiffPack方法
近期,由Mila团队的唐建提出的DiffPack方法,采用了一种创新的侧链构象预测策略。该方法利用扭转角空间中的自回归扩散模型,相较于现有的最佳方法在CASP13和CASP14数据集上实现了显著的性能提升,且仅需六十分之一的参数量。DiffPack不仅能够显著改善AlphaFold2的侧链预测结果,还在预测准确度上展现出明显优势。
方法创新
过去,AI算法主要通过端到端的方式定义损失函数,尽管这提供了速度优势,但也限制了对侧链构象整体分布的捕捉,导致生成的构象偏向“平均”状态。DiffPack则通过在蛋白质侧链构象中加入噪声并学习去噪过程,成功地学习到了侧链构象的整体概率分布。由于蛋白质侧链构象由最多四个扭转角(χ1, χ2, χ3, χ4)构成,研究者选择在四个扭转角形成的扭转空间内定义扩散过程,并在前向扩散过程中引入非欧几里得噪声,通过专门设计的图神经网络GearNet学习对扭转角的逆向去噪过程。
实验与成果
在实验中,DiffPack展现了在天然主链结构与AlphaFold2预测的非天然主链结构上的卓越性能。在CASP13数据集中,DiffPack在内部残基和表面残基上的角度精度分别达到了82.7%和57.3%,相较于AttnPacker提升了20.4%。在CASP14数据集上,DiffPack同样表现出色,内部残基原子位置的均方根偏差精度提高了23%。当应用于包含AlphaFold2生成的非天然主链结构时,DiffPack在多数指标上达到了最先进的水平,证明了其优化AlphaFold2预测结果的潜力。
结论
DiffPack通过在扭转角空间中结合扩散模型与自回归过程,提供了一种高效、参数量低的侧链构象预测方法,显著提升了预测准确度,降低了计算复杂性。这一创新方法不仅在蛋白质结构预测领域开辟了新途径,也为后续的药物设计和生物系统理解提供了强有力的工具。