科研人员提出微生物组数据发掘新方法tmap
作者头像
  • 芯华集成电路人才基地
  • 2020-01-23 09:21:28 2

近日,中国科学院深圳先进技术研究院合成生物学研究所赵国屏课题组(周豪魁为通讯作者,廖华为第一作者)在微生物组数据挖掘领域取得了重要进展。相关论文《tmap:基于拓扑数据分析的人群分层及宿主表型关联研究》发表于《Genome Biology》期刊。

随着高通量多组学技术的发展,传统的数据分析方法已难以应对复杂且庞大的微生物组数据,这使得微生物组和宿主表型之间的细微关联容易被忽视。因此,亟需开发创新性的分析方法来解决这一问题。

该课题组结合Mapper算法和网络富集分析,开发了一种基于拓扑数据分析(TDA)的软件工具tmap。该工具能够整合来自不同国家和地区、不同疾病类型以及不同宿主表型的微生物组数据,为大规模人群队列的数据分析提供了一个创新性的框架。tmap不仅总结了数据中的隐含规律,还为科学假设的提出和科学问题的提炼提供了有力的支持。

tmap的工作流程主要是将高维微生物组数据转换为拓扑网络结构,并用于人群分层和相关性分析。通过Mapper算法和网络分析,tmap利用样本的微生物组数据构建了TDA网络结构,并通过SAFE评分量化了样本表型或物种的富集程度。基于SAFE评分,可以实现以下三个分析目标:首先是对每个表型或物种的SAFE评分进行排名,这类似于线性回归中的有效大小,但能更好地识别线性和非线性关联;其次是进行降维分析,展示整体富集模式,从而识别对微生物组变化影响最大的物种或表型;最后是构建共富集网络,基于物种和表型关联的显著性,用于探索其生物学意义或混杂因素。

此外,该研究通过四个数据集(包括一个合成数据和三个实际数据)验证了tmap方法的有效性。结果显示,与传统的线性方法(如envfit, adonis, ADONISM)相比,tmap在识别非线性和潜在规律方面表现出色。例如,比利时队列FGFP的研究表明,只有7.63%的微生物组变化与宿主表型变化有关。tmap不仅能够重现基于线性回归的传统方法,还能更灵敏地捕捉非线性变化。通过对FGFP数据进行SAFE评分分析,可以发现许多未被原始研究发现的新规律和线索。

总体而言,tmap有助于将不同国家和地区、不同疾病类型和不同宿主表型的微生物组大数据整合起来,进行精细化的人群分层,为特定干预治疗和多元数据的meta分析等研究提供有效线索。通过有效融合不同来源的微生物组及其宿主的医疗健康大数据,tmap为微生物组数据共享和整合开辟了新的方向。此外,tmap不仅能处理线性关联,还能灵活应对非线性关联,优于传统分析方法。基于微生物组网络图,tmap可以发现宿主表型之间的联系,使其与微生物组变化紧密相连。通过对宿主表型在网络图上的分布进行分析,可以捕捉变量之间的联系及其重要性排序,从而帮助大规模人群队列的数据分析。

这项研究得到了深圳市科技计划基金的支持。

    本文来源:图灵汇
责任编辑: : 芯华集成电路人才基地
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
微生物发掘科研提出人员方法数据tmap
    下一篇