在当今“大数据”时代,人工智能(AI)已成为科研人员的重要助手。例如,机器学习算法正在帮助生物学家解析控制基因功能的大量分子信号。然而,随着开发出能够处理更多数据的新算法,这些算法也变得更加复杂且难以理解。
最近,来自美国普林斯顿大学的定量生物学家Justin B. Kinney和Ammar Tareen提出了一种设计高级机器学习算法的策略,使得这些算法更加易于生物学家理解。他们的研究成果于12月13日在第一届计算生物学机器学习会议上公布。
Kinney和Tareen开发的新算法属于人工神经网络(ANN)的一种。尽管名为人工神经网络,但这些网络并非专门用于研究大脑。相反,它们是基于科学家受大脑神经元连接和分支模式启发而开发的高级机器学习计算模型。
大规模并行报告基因检测(MPRA)是一种研究DNA的方法,生物学家常利用ANN分析MPRA产生的数据。通过这些数据,定量生物学家可以构建能够预测哪些分子在基因调控过程中控制特定基因的ANN。
细胞并不总是需要所有的蛋白质,而是依赖复杂的分子机制根据需求开启或关闭蛋白质合成相关的基因。当这些机制出现问题时,往往会导致混乱和疾病。Kinney表示:“了解基因调控的运作原理对于开发治疗疾病的分子疗法至关重要。”然而,传统的ANN从MPRA数据中形成的方式与科学家在生命科学领域提出问题的方式存在差异,导致生物学家难以解释基因调控的具体机制。
Kinney和Tareen提出的新方法在计算工具和生物学家思维方式之间建立了联系。他们设计了自定义神经网络,从数学角度反映生物学中基因及其调控分子的独特概念。简而言之,这两名研究人员在促使机器学习算法以生物学家易于理解的方式处理数据。
Kinney指出:“我们优化了现代工业人工智能技术,使其更适合应用于生命科学。”在验证了这一新策略后,Kinney的团队正将其应用于多种生物系统的研究,包括与人类疾病相关的关键基因通路。
该研究的预印本可在以下网址查阅:https://www.biorxiv.org/content/10.1101/835942v1.full
请注意,本文由科界平台编译,中文内容仅供参考,具体细节以英文原文为准。