科研突破:预测特定细胞类型染色质构象,加速基因组研究
引言
在生命科学领域,基因组构象的精确理解对于揭示基因表达特异性、细胞功能差异及其对疾病的影响至关重要。然而,传统基因组构象检测方法耗时、成本高且技术局限性强,严重制约了其在基因组构象研究领域的广泛应用。2023年1月9日,纽约大学医学院Aristotelis Tsirigos实验室与博德研究所夏波实验室的合作成果在《Nature Biotechnology》上发表,为这一领域带来了革命性进展。
新模型:C.Origami
该研究引入了一种名为C.Origami的创新多模态机器学习模型,旨在预测特定细胞类型的染色质构象,并结合遗传筛选原理提出了一种全新的高通量计算遗传筛选(in silico genetic screening, ISGS)方法。这一方法不仅能够鉴定细胞类型特异性的功能基因组元件,还助力发现新的染色质构象调控机理,为基因组学研究开辟了新的路径。
多模态深度学习框架
C.Origami模型通过构建一个整合DNA序列信息与细胞特异性功能基因组信息的新型多模态深度学习框架,实现了对染色质构象的准确预测。模型包含三个关键组件:用于编码和压缩DNA及基因组信息的编码器、负责处理不同基因组区域间依赖性的Transformer中间层以及用于预测Hi-C矩阵输出的解码器。这种设计允许模型高效地整合多样信息,提升预测精度。
精准预测与应用
研究者利用C.Origami成功预测了从未接触过的细胞类型的染色质构象,比如基于IMR-90细胞(肺成纤维细胞)训练的模型能够准确预测GM12878细胞(B淋巴细胞)的特定染色质构象。此外,该模型还能模拟结构变异(如染色体易位),预测变异后的癌症基因组中的新染色质相互作用,为理解肿瘤发生和进展的分子机制提供了重要线索。
高通量计算遗传筛选
基于C.Origami模型的ISGS框架,研究团队开发了一种系统性鉴定细胞类型特异性功能基因组元件的方法。该框架不仅能够识别对染色质构象有重要影响的顺式调控元件,还在T-ALL细胞中发现了与CHD4基因相关的特异性缺失,揭示了这一调控序列在促进白血病细胞增殖中的潜在作用。
探索反式作用因子
通过ISGS和转录因子结合部位的富集分析,研究进一步识别了有助于细胞类型特异基因组构象调节的反式作用因子。研究发现MAZ在开放染色质区域的显著富集,暗示其可能独立于CTCF调控基因组构象,为理解调控网络提供了新视角。
展望未来
这项研究展示了结合DNA序列与染色质信息的多模态机器学习模型在基因组学研究中的巨大潜力,为未来基因组学研究转向利用深度学习模型作为主要工具进行高通量遗传筛选并辅以生物实验验证开辟了道路。
结语
C.Origami模型及其ISGS框架的问世,不仅标志着基因组学研究方法的重大突破,也为理解细胞功能差异、疾病机制以及个性化医疗提供了新的理论基础和技术支持。这一研究成果有望加速基因组学研究进程,推动生命科学领域的前沿发展。