生命起源与复杂性访谈
原创 刘宇 集智俱乐部
导语
在生命起源过程中,蛋白质和 DNA 谁先出现?从非生命到生命的关键一跃如何发生?从单细胞生命到人类,生命复杂性为何不断提升?北京师范大学珠海校区复杂系统国际科学中心的刘宇博士长期致力于从复杂科学视角,探索这些关于生命的终极之问。集智俱乐部采访了刘宇博士并整理为这篇文字稿。
研究领域:生命起源,复杂系统,信息论
刘宇 | 受访
梁金 | 采访
梁金、刘培源 | 整理
刘宇:现任北京师范大学珠海校区-复杂系统国际科学中心特聘副研究员,独立PI。小组目前研究神经网络和基因序列的模块演化、新药分子的设计、以及关于生命起源和信息的理论研究。
请谈谈您的研究方向。
刘宇:我是物理学出身,博士读的是应用数学,现在的研究方向是生命起源的建模,涉及生命起源理论、自我复制、信息演化、生物信息学、神经网络模块等。目前,我的主要研究课题包括:信息是通过怎样的作用产生和积累的,这种作用如何塑造了演化,以及我们如何在真实的蛋白质和基因序列中发掘这种作用的痕迹(即重复和层次嵌套结构)以应用到实际问题的解决中。
生命起源的基本问题是什么?
刘宇:生命起源的基本问题是“自我复制”(或自复制)怎样产生。因为自我复制被公认为是生命的主要特征之一,包括我在内的部分学者甚至认为,自我复制是生命最主要的特征。生命,包括组成生命的细胞,都可以自我复制:从一个变成两个,两个变成四个。但非生命物质——大到一块石头,小到一个分子——都无法复制自身。为什么一群不能自我复制的分子放在一起形成了系统,这个系统却能够自我复制?这是一种涌现现象,也是生命起源的关键。
我们可以从不同角度去研究生命起源的问题。我主要从复杂科学,也即更偏理论的角度出发来研究自我复制的机制、能力是怎样涌现的。但也有很多其他研究角度,比如合成生物学的角度, 研究如何从合成蛋白质或者合成核糖核酸(RNA)开始,逐步制造出人造细胞;再比如化学的角度,我们可以通过构造一些真实的化学反应体系并调整优化,看其能否出现自我复制的性质。
怎样理解自我复制的过程?
刘宇:关于自我复制,目前已经有相对成熟的理论解释,尤其是在微观层面,比较经典的是“自催化集”(autocatalytic sets)理论。虽然大部分单个化学反应都不能实现物质的自我复制,但通过某些方法能够把许多化学反应耦合在一起,变成一个系统,这个系统就有可能实现自我复制。
化学反应系统要实现自我复制需要具备两个条件:第一个条件是,这个系统里的每一个方程的反应物都来自系统里其他方程的生成物,相当于一个头尾咬合的过程;第二个条件是化学反应的产出比,要求方程中某种物质的产出量比消耗量多。只要一个化学反应网络满足这两个条件,就会出现“自催化”,即能实现自我复制。如果产出不比消耗多,就只是单纯的催化反应。这里所谓的自我复制,指的都是作为系统、整体的复制。如果输入的反应物充足,那么系统里的东西的个数就会以指数形式增长。从更高层次看,系统就实现了自我复制。
图1. 自我复制过程
在生命起源的过程中,蛋白质和脱氧核糖核酸(DNA)何者先出现?
刘宇:这个问题看起来像“蛋生鸡还是鸡生蛋”的问题。生命或者组成生命的细胞要实现任何功能,都需要蛋白质的参与,即便是DNA的复制也是如此。蛋白质参与实现细胞功能的过程,被统称为代谢。DNA是储存信息的物质,蛋白质的信息被编码在DNA中,所以蛋白质的形成也离不开DNA。
此前主要有两派观点,他们也代表两条研究路径:“信息为先”一派认为DNA或RNA等储存信息的遗传物质先出现,“代谢为先”一派则认为蛋白质等功能分子先出现。我们觉得这两条研究路径最终会走到一起,我们近期梯径理论(ladderpath theory)[1,2] 的工作似乎能在理论上看到这一点。这个看似悖论的问题,其实只是同一个系统在不同层次的特征而已。在低的尺度上看是自催化过程,在高的尺度上看则是自我复制。
可以简单介绍下梯径理论吗?
刘宇:我们提出这个理论最初的动机是去定量地描述生命的复杂性。假设有三种系统:晶体、生命和一个盒子里面的气体分子,你认为哪个系统更复杂?如果比较生命和气体,你可能会说是生命,因为生命是有序的结构。但晶体比生命更有序,却没有更复杂。所以不能单纯用秩序去衡量复杂性。
所以我们提出的梯径理论有两个指标:一个是梯径度,衡量复现系统的困难程度;另一个是有序度,衡量系统到底多有序。在以这两个指标为轴的坐标系中,晶体的有序度非常高,梯径度很低;气体的梯径度非常高,有序度很低。我们认为,生命应该是处于中间的对角线上,梯径度和有序度同时都比较高才行,所以就将两个指标结合起来定义生命的复杂度。
随着生命演化从简单到复杂,我们会沿着这条对角线往上走。坐标系中-45度的斜线是系统的规模S,这是由定义给出的自然而然的结果。所以随着复杂度增加,尺度也是增加的,尺度和复杂性之间存在相关性。但并不是说尺寸越大就越复杂,因为如果非常大却有很多重复结构,也不一定比稍微小一点的更复杂,我们可以用梯径理论精确地刻画生命的这种复杂性。
有许多其他的定义复杂度的方式,比如香农熵、柯氏复杂度、压缩算法。如果用香农熵来计算复杂度的话,你会发现混乱气体的复杂度是最高的,晶体的复杂度最低,生命处在两者中间——但这不符合我们的直觉。我们认为,梯径理论比较适合定量地描述生命的复杂性。除了探索生命起源,梯径理论的应用还包括搜索化学空间,设计药物[3],揭示蛋白质、基因序列的演化历史等。
延伸阅读:《如何发现不同分子结构之间的关系?用“分子树”探索化学空间》
图2. 梯径理论示意图。横轴表示梯径度,纵轴表示有序度。
能够演化出复杂性的系统具有什么特征?
刘宇:我们通过模拟发现,如果一个系统具备两个特征——能够“成核”、能够“复制”,这个系统就一定能实现从简单到复杂的演化。我们称之为梯径系统。所谓成核,就是系统产生新的组件,比如旧技术被改造成新技术,或现有蛋白质被改造成新蛋白质,改造的过程就是形成新组件的过程。生命显然具备这一特征。另外,一个系统中只要有部分组件能够复制,这个系统就具有了能够复制的特征。生命显然也具备这一特征,所以可以实现从简单到复杂的演化。实际上语言也具备类生命的特征,发明新词就是成核,别人用了你发明的新词就是复制。
这启发我们,生命起源可能没有想象中那么困难。一方面,生命没有看上去那么复杂,因为有很多重复组件;另一方面,如果系统满足“成核”和“复制”两个条件,梯径度和有序度就会自然而然地增加。
生命演化的过程是一个修修补补的过程,伴随着适应和优化,可能并不是从简单到复杂的单向演化。虽说人类从单细胞生物演化而来,比单细胞生物复杂,但这并不意味着单细胞生物消失了。甚至“人类比细菌复杂多少”这个问题也有待深入研究,二者的差异可能并没有想象中那么大。所以,如何找到合适的工具来度量复杂性是一个关键问题,我们就是朝着这个目标提出了梯径理论,这也是后续生命起源理论研究的重要议题。
这个理论的灵感来源是什么?
刘宇:这个理论的灵感来自于对大自然的观察:大自然总是修修补补的,而不是从零开始设计发明。这种思想至少可以追溯到诺贝尔生理学或医学奖得主 François Jacob 在1977年发表于 Science 的文章 Evolution and tinkering [4]。
研究生命起源问题面临哪些困难?
刘宇:从纯理论角度,要解决生命起源问题,自我复制的化学反应体系可能还不太够,因为没有考虑边界的问题,也就是细胞膜或者是其他类型的边界。
实际上从抽象的理论层面探究生命起源的研究已经挺多,比较困难的可能是实验。实验的好处在于研究真实的地球上的化学物理体系是怎么来的。我们想要解决的,首先是我们地球上的生命是怎么来的,最终答案还是需要从实证研究中来,理论需要实验验证。当然最后有可能我们既没有从实验室造出生命,也没有搞清楚地球上的生命是怎么来的,而是在其他星球上发现了某种生命形式,那也可能给我们一些启示,告诉我们关于生命起源的奥秘。
生命起源研究与复杂科学的关系是什么?
刘宇:生命起源是复杂科学中的一个很重要的问题。实际上, 生命起源及其背后的信息演化、自我复制问题,甚至是科学的终极问题之一。当然,生命起源问题不仅仅能够用复杂系统理论来解释,更可以从化学、物理学、合成生物学、人工智能等角度切入。
在复杂科学领域,我们主要用抽象理论而非实验来研究生命起源,这是复杂科学的优势。复杂科学更关注框架,而框架中待填充的实体是可变的。我们建立关于自我复制、生命起源的模型,可以不去关心具体依附的物质是什么,不去考虑化学约束或物理约束,纯粹将其抽象为数学上的客体。如果我们能在理论上解释生命怎样起源,我们还可以把它应用在其他天体上,去看上面有 没有符合生命特征的事物,而不必考虑其是否和地球生命同源或相似。
您怎么看复杂科学?
刘宇:复杂系统有点像是一个孵化器。在牛顿的时代,你可能会觉得牛顿的研究可以称为复杂性的研究。他需要从开普勒的数据和总结的定律中提炼出概念字典,然后做力学分析。牛顿处理的是质点问题,三体问题都处理不了,到了玻尔兹曼的时候,研究的是十的二十几次方的摩尔量级的分子数,这显然是复杂系统。不过这些科学分支后来成熟了,变成了牛顿力学、统计力学这些学科,就分离出去了。
《哥德尔、埃舍尔、巴赫:集异璧之大成》的作者侯世达,他的思维方式是典型的复杂系统思维,也是较早一批做人工智能、神经网络的科学家。八九十年代,他已经研究神经网络有一段时间了,后来发现当时主流观点中的一些问题,觉得走不通,就退出了人工智能的主流研究,转而到自己更认可的领域。后来神经网络飞速发展,也从复杂系统研究中分离出来。所以我觉得复杂系统是一个很强大的东西,很多好的东西最初在这里萌芽,后来逐渐成长为一个成熟的学科分出去。当然这里面很多发展历程不容易预见,不过这种未知感可能也正是科学研究的魅力所在吧。
谈谈对您影响最大的两本书。
刘宇:一个是梅拉尼·米歇尔的《复杂》,我最早是在读研究生的时候读到这本书,了解到复杂科学这个学科,后来逐渐进入复杂系统的研究,从动物的群体行为到生命起源。
另一个是《枪炮、病菌与钢铁》,这是一本有关人类历史的书,但我觉得它是典型的复杂系统的研究方式。印加帝国灭亡,不是因为欧洲人的枪炮很厉害,而是因为他们带过去的天花病毒。这必然是结合众多学科才有的认识,包括病毒、人类迁徙、经济、历史等。
参考文献
[1] 梯径:“修修补补”和“重复利用”如何增加复杂度与信息 https://www.wuyichen.org/_files/ugd/839bc7_bebf5c6900cf45a3a7627cdd5b8ff8ab.pdf
[2] Liu Y, Di Z, Gerlee P. Ladderpath Approach: How Tinkering and Reuse Increase Complexity and Information. Entropy (Basel). 2022 Aug 5;24(8):1082.
[3] Liu, Yu, et al. "Exploring and mapping chemical space with molecular assembly trees." Science advances 7.39 (2021): eabj2465.
[4] http://web.mit.edu/~tkonkle/www/BrainEvolution/Meeting9/Jacob%201977%20Science.pdf
原标题:《生命起源与复杂性 | 刘宇访谈》