近日,中国科学院深圳先进技术研究院合成生物学研究所赵国屏课题组在微生物组数据挖掘领域取得了重要进展。该团队由周豪魁担任通讯作者,廖天华担任第一作者。相关论文《tmap:一种基于拓扑数据分析的综合框架,用于人群分层和宿主表型关联研究》已在线发表于《基因组生物学》期刊。
随着高通量多组学技术的进步,传统的数据分析方法难以应对复杂且庞大的微生物组数据。在这种情况下,细微的微生物组与宿主表型之间的关联容易被忽略,这对数据分析提出了更高的要求。为此,该团队结合mapper算法和网络富集分析,开发了一种基于拓扑数据分析(TDA)的新工具tmap。此工具能整合来自不同国家和地区、不同疾病类型和宿主表型的大规模人群微生物组数据,为医疗健康大数据的共享和整合提供创新性方法。
tmap的工作流程主要涉及将高维微生物组数据转化为拓扑学网络结构,进而用于人群分层和关联性分析。通过Mapper算法和网络分析,tmap利用样本的微生物组数据构建TDA网络结构,并通过SAFE score评估样本表型或物种的富集程度。基于SAFE score,tmap可以实现三个主要目标:首先,对每个表型或物种的SAFE score进行排序,类似于线性回归中的有效尺寸,但能更好地识别线性和非线性关联;其次,通过主成分分析(PCA)展示整体富集模式,揭示影响微生物组变化的主要物种或表型;最后,构建共富集网络,探索生物意义上的关联或混杂因素。
此外,该研究通过四个数据集(包含一个合成数据和三个真实数据)验证了tmap方法的有效性。结果显示,与传统的线性方法相比,tmap在识别非线性和潜在规律方面表现出色。例如,在比利时队列FGFP的研究中,tmap不仅重现了基于线性回归的传统方法的结果,还在捕捉非线性变化方面更加敏感。通过对FGFP数据的SAFE score分析,研究人员发现了许多原始文章未提及的新规律和线索。
总体而言,tmap有助于整合来自不同国家和地区、不同疾病类型和宿主表型的大规模人群微生物组数据,进行精细分层,并为特定干预治疗和多元数据的元分析提供有效线索。tmap不仅能处理线性关系,还能灵活处理非线性关联,优于传统分析方法。基于微生物组网络图,tmap能够发现宿主表型与微生物组变化之间的关联,从而避免两者脱节。此外,通过分析不同宿主表型在网络图上的分布,捕捉变量间的联系以及变量的重要性排序,tmap对大规模人群队列的数据分析具有重要意义,有助于科学假设的提出和科学问题的提炼。
这项研究得到了深圳市科技计划基金的支持。