9月 28
  1. 今天
  2. 星期六
11:00
grade

概述

近期,生物技术领域通过融合机器学习技术,特别是在抗菌肽研究方面取得了显著进展。抗菌肽作为对抗细菌耐药性的潜在有效材料,其发掘与临床测试成为科研热点。此类多肽分子序列多样,构成庞大治疗药物候选库。通过高通量技术如噬菌体、核糖体展示,可识别数以万计的序列功能。

研究策略概览

目前,抗菌肽筛选主要采用以下策略:

  1. 基于数据集的模型训练:在已有数据集上构建模型,并在独立测试集验证,固定参数后部署服务器,对用户上传序列进行抗菌性识别。
  2. 领域先验指导:收集特定类型抗菌肽数据,利用领域知识生成候选多肽搜索库,训练模型后在库中验证,精选样本进行湿实验。
  3. 预训练模型微调:基于大规模蛋白质预训练模型,针对抗菌肽数据进行微调,适用于不同下游任务的模型训练。

创新视角

传统研究多聚焦于已有功能肽的微调,但本文提出一种全新视角——从数据驱动出发,将整个搜索任务视为整体,设计集成实验框架。核心创新点不局限于先进模型或算法优化,而侧重于数据为中心的人工智能方法与系统级工程的综合应用,旨在解决实际问题。

全球首个全库搜索解决方案

本文团队,包括浙江大学数据智能实验室、M3实验室与浙江大学高分子系MOE实验室,共同完成了全球首个针对功能肽的全库搜索方案。在长度为6-9的多肽上进行全局搜索,结果显示,筛选出的多肽抗菌性能显著,至少达到现有最佳水平。

论文关键点

  • 方法创新:结合经验判断、分类、排序和回归任务,形成pipeline(SMEP),实现多尺度抗菌功能识别,并利用实验数据进行模型微调。
  • 实验效率:采用自动化流程,无需人工干预,大幅提高筛选效率,仅需19天即可完成5000亿样本库的全扫描。
  • 性能验证:湿实验结果证实,筛选出的抗菌肽有效率高达98.2%,展示了模型的泛化性能。

实验流程

  • 数据集整合:融合广泛使用的数据集,收集约7660条抗菌肽数据,通过湿实验收集额外数据用于模型微调。
  • 初步筛选:借助领域专家知识,快速剔除大部分无效数据,提高筛选效率。
  • 分类模型:训练分类器过滤非抗菌肽,显著减少后续筛选压力。
  • 排序与回归:引入排序模型,筛选出最具潜力的抗菌肽,随后利用回归模型精确预测MIC指标,最终选出最佳多肽。

结论

通过数据驱动的集成方法,本研究不仅开创了全库抗菌肽筛选的先河,还展示了高效的自动化流程与卓越的筛选性能,为抗菌肽的发现提供了新的方向。研究成果发表于Nature BME,展现了跨学科合作在生物技术领域的创新潜力。