概述
近期,生物技术领域通过融合机器学习技术,特别是在抗菌肽研究方面取得了显著进展。抗菌肽作为对抗细菌耐药性的潜在有效材料,其发掘与临床测试成为科研热点。此类多肽分子序列多样,构成庞大治疗药物候选库。通过高通量技术如噬菌体、核糖体展示,可识别数以万计的序列功能。
研究策略概览
目前,抗菌肽筛选主要采用以下策略:
- 基于数据集的模型训练:在已有数据集上构建模型,并在独立测试集验证,固定参数后部署服务器,对用户上传序列进行抗菌性识别。
- 领域先验指导:收集特定类型抗菌肽数据,利用领域知识生成候选多肽搜索库,训练模型后在库中验证,精选样本进行湿实验。
- 预训练模型微调:基于大规模蛋白质预训练模型,针对抗菌肽数据进行微调,适用于不同下游任务的模型训练。
创新视角
传统研究多聚焦于已有功能肽的微调,但本文提出一种全新视角——从数据驱动出发,将整个搜索任务视为整体,设计集成实验框架。核心创新点不局限于先进模型或算法优化,而侧重于数据为中心的人工智能方法与系统级工程的综合应用,旨在解决实际问题。
全球首个全库搜索解决方案
本文团队,包括浙江大学数据智能实验室、M3实验室与浙江大学高分子系MOE实验室,共同完成了全球首个针对功能肽的全库搜索方案。在长度为6-9的多肽上进行全局搜索,结果显示,筛选出的多肽抗菌性能显著,至少达到现有最佳水平。
论文关键点
- 方法创新:结合经验判断、分类、排序和回归任务,形成pipeline(SMEP),实现多尺度抗菌功能识别,并利用实验数据进行模型微调。
- 实验效率:采用自动化流程,无需人工干预,大幅提高筛选效率,仅需19天即可完成5000亿样本库的全扫描。
- 性能验证:湿实验结果证实,筛选出的抗菌肽有效率高达98.2%,展示了模型的泛化性能。
实验流程
- 数据集整合:融合广泛使用的数据集,收集约7660条抗菌肽数据,通过湿实验收集额外数据用于模型微调。
- 初步筛选:借助领域专家知识,快速剔除大部分无效数据,提高筛选效率。
- 分类模型:训练分类器过滤非抗菌肽,显著减少后续筛选压力。
- 排序与回归:引入排序模型,筛选出最具潜力的抗菌肽,随后利用回归模型精确预测MIC指标,最终选出最佳多肽。
结论
通过数据驱动的集成方法,本研究不仅开创了全库抗菌肽筛选的先河,还展示了高效的自动化流程与卓越的筛选性能,为抗菌肽的发现提供了新的方向。研究成果发表于Nature BME,展现了跨学科合作在生物技术领域的创新潜力。