科技部高技术研究发展中心近期公布了“2020年度中国科学十大进展”,其中一项进展是由南京大学沈树忠和樊隽轩团队联合国内外专家创建的国际大型数据库。该团队自主研发了人工智能算法,利用“天河二号”超级计算机取得了重大突破,得到了全球首条高精度的古生代3亿多年海洋生物多样性演化曲线,时间分辨率比国际同类研究提高了400多倍。
生命起源与演化是自然科学领域的重要问题之一。地球上的生命经历了从简单的单细胞生物到复杂多样的现代生命世界的过程。我们邀请樊隽轩教授为我们解读这项研究的科学内容。
问:通过化石古生物数据库,前辈科学家识别出了地球上的五大灭绝事件,能否简单介绍这些科学成果?
答:2011年,国际知名学术期刊《自然》报道,据科学家估计,地球上有大约870万个生物物种。地球已经有46亿年的历史,最早的地球生命出现在38亿年前。在这漫长的岁月中,不断有物种消失,也有新的生命类型出现。那么,地球历史上到底有多少物种存在过?科学家估计这个数字是40亿。这意味着,要恢复生命演化的全部历史,我们必须全面统计所有现存及已消失的物种。对于已经消失的物种,只能通过化石记录来统计分析。例如,三叶虫的最后化石记录出现在二叠纪末期的地层中,因此科学家可以推测,三叶虫最终消失的时间是在2.5亿年前。
对化石记录的研究已有数百年的历史,地质学家和古生物学家积累了大量的化石记录信息。要准确、可靠地分析这些庞大的数据,必须借助大数据的方法。上世纪70至80年代,美国芝加哥大学的演化古生物学家杰克·塞普柯普斯基教授花费十余年时间,收集了北美、欧洲等地的化石记录,构建了首个相对完整的古生物数据库。这个数据库只包含化石的分类名称以及它们出现和消失的时间,虽然信息简单,但已经可以用来统计各个时段有多少种化石生物。地球的历史非常久远,以亿年计。塞普柯普斯基的研究,时间精度只能做到以千万年计,也就是说只能统计每千万年地球上生活过多少种生物。通过这种方法,他识别出了过去6亿年地球生物多样性的变化规律。这相当于在人类五千年历史中,每隔一百年统计一次人口变化。在他的生物多样性变化曲线上,他识别出了五次明显的生物类群数量快速下降的事件,称为五大灭绝事件,代表了地球历史上最重要的五次生命灾难。最近的一次是发生在6500万年前的白垩纪末期大灭绝事件,导致恐龙、菊石、珊瑚以及部分哺乳动物等大规模消失。这项研究被认为是20世纪后半叶地球科学领域最重要的发现之一。
后来的学者认为这个数据库过于简单,需要建立一个更为庞大的数据库,收录更多种类的信息,不仅可以重新验证上述结果,还能进一步揭示生命演化的机制及其与地球环境变迁的关系。1998年,在美国国家自然科学基金会的支持下,一批美国与欧洲的古生物学家发起了一项大型古生物网络数据库项目。这个数据库的结构更为复杂,不仅包括化石名称及其出现和消失的时间信息,还包括产出化石的岩石信息、化石生物的地理位置信息、化石生物的生活形态信息等。利用这些数据,科学家在2008年重新计算了过去6亿年的地球生物多样性曲线,时间精度与之前的曲线相似,也是一千万年。这条新曲线与塞普柯普斯基的曲线既有相似之处,也存在差异。究竟哪条曲线更准确?如果我们回顾这两项研究,可以发现他们统计生物数量的时间单位是以千万年计,精度较低,因此容易引入一些由于时间不准确导致的偏差。因此,必须获得更高时间精度的多样性曲线,采用更为可靠的统计分析手段,才能帮助我们更好地理解地球历史中生命演化的真相。
问:我们的研究在数据、算法和算力方面有哪些创新?这些创新如何提高了我们对地球古生物演化历史的理解?
答:为了获得更加全面、可靠的古生物多样性曲线,需要实现三个方面的突破:一是需要更准确的海量化石记录,即古生物大数据的支持;二是需要研发全新的算法,实现数据的有效计算与分析;三是需要强大的计算能力,能够在有限的时间内,比如数周内完成计算与分析。
南京大学沈树忠和樊隽轩团队联合国内外专家开发了一个全新的国际大数据平台,能够实现全球古生物材料的高效数字化、集成、管理和应用。他们组建了一个国际一流的数字化团队,花费数年时间将中国85%以上的化石记录收集起来,并向全球同行开放使用。
在算法方面,传统的定量统计方法不再适用。科学家团队尝试将信息科学与古生物学结合,研发全新的算法。在古生物学领域,一个重要基本概念是化石的保存和采样概率。前者指的是古代生物变成化石的概率,后者指的是化石被发现的概率。例如,一片森林里生活过的松鼠,即使死亡后被埋到土里成为化石,也可能因为被狐狸叼走或被细菌分解而无法被发现。正因为化石存在保存和采样概率,所以在各个化石发掘点找到的化石出现和消失的时间可能存在问题,导致化石的出现或消失顺序可能颠倒。举例来说,如果李白出生在公元701年,杜甫出生在公元712年,李白的出生比杜甫早11年,但如果史书中的记录有误,缺失了李白的一些编年史记录,导致关于李白的最早记录是公元713年,后人可能会认为杜甫的出生比李白早一年。如果将每个化石发掘点找到的化石记录看作是一本化石编年史,每本编年史都是不完整的,有的记录了李白出生更早,有的则记录了杜甫更早。假设李白应该比杜甫更早,然后看看有多少本书里的记录与之不符,每次不符记为1,其总和就代表了“李白早于杜甫”这一假设与实际记录的不吻合程度。如果有100种化石,对每两种化石的先后顺序都进行这样的假设和比较,最后就可以得到这100种化石的一个假设顺序以及对应的总不吻合度。求取不吻合度最小的那个顺序,就是化石在全球出现的最合理顺序,在此基础上,就可以计算得到高分辨率的生物多样性曲线。
通过这种方法,可以获得时间精度为2万至3万年的多样性曲线。如果将过去6亿年的生命历史对应到人类文明的五千年,这一分辨率相当于每两个月统计一次全球的人口总数,观察变化趋势。生命演化的精度达到万年尺度,这是目前生命演化领域的世界纪录。获得这样的时间分辨率,需要巨大的计算能力支持。根据科学家的估算,如果对1万种化石的地质记录进行计算和分析,当前主流的台式机需要17年!因此,研究团队访问了中国的多个超级计算机。其中,“天河二号”超级计算机在2013年至2016年期间曾是世界上最快的超级计算机。科学家最终选择了“天河二号”,同时使用了1万多个CPU核心进行计算,原本需要17年才能完成的一次计算,最终只用了两三天。
问:据了解,我们这次研究最终得到了从5.4亿年前到2.4亿年的3亿年地球生物多样性变化曲线。能否详细介绍这3亿年间地球生命发生了什么?变化的原因可能是什么?
答:在大数据、算法和计算能力方面取得突破后,科学家团队正式开始了计算,并最终得到了从5.4亿年前到2.4亿年的3亿年地球生物多样性变化曲线。与国际同类研究相比,这条新曲线的时间分辨率提高了400倍,彻底改变了对这一时期海洋生物演化的一些传统观点。
这项研究表明,之前使用的低分辨率且不均匀的时间标尺,会直接影响对古生物多样性的估算,导致无法准确评估生物多样性的变化速度和模式,并可能掩盖突发性的严重事件以及短时间内的剧烈波动。例如,有时生物正面临多样性危机,或者生命形式正在迅速爆发、增长时,旧的曲线会显示出完全不同的规律。
新的多样性变化曲线更准确地重现了地质历史中最大的三次生物灭绝事件和三次严重的生物辐射事件的精细过程。
三次重要的生物大灭绝事件:
三次重要的生物辐射事件:
地质历史中生物多样性的重大变化,通常伴随着环境的剧烈波动。研究表明,生物多样性变化可能与多项环境因素的变化同步,如古气候、海平面、栖息地面积和大陆连通性等。重要的生物事件与环境变化之间存在一些相关性,如:
生物的演化与环境的变迁常常是相互关联的。为了探究两者之间的关系,科学家团队将一些关键环境指标参数与新的多样性曲线进行了初步比较,发现生命的兴衰与大气二氧化碳含量的变化存在同步现象:二氧化碳含量高时,生物多样性通常也较高;二氧化碳含量低时,生物多样性也会降低。目前尚不清楚究竟是什么机制将这两种变化联系在一起,但相信随着研究的不断深入,比如未来搜集更多的环境变化大数据,就能尝试揭开这两者之间的真正关系。
地球生命演化的奥秘无穷无尽,绘制高分辨率的生物多样性曲线只是第一步。科学家们仍在不懈探索,试图揭示生命演化的真相。通过研究过去,我们可以更好地理解人类自身的起源,以及地球生命未来的演变趋势。随着大数据、人工智能等新技术手段的应用,科学家们将继续揭示地球生命演化的奥秘。