离谱吗?诺贝尔化学奖也颁给了计算机科学家?

2024-10-11 14:30
黑龙江

10 月 8 日,2024 年的诺贝尔物理学奖揭晓,奖项出人意料地颁给了两位计算机科学家——普林斯顿大学的约翰·霍普菲尔德和多伦多大学的杰弗里·辛顿。颁奖委员会的理由是,两位科学家利用物理学工具开发了当今强大的机器学习的基础方法。

好吧,确实跟物理学有关系。

10 月 9 日,诺贝尔化学奖揭晓,奖项颁给了大卫·贝克(David Baker)、德米斯·哈萨比斯( Demis Hassabis)和约翰·詹珀(John M. Jumper)。获奖理由是表彰他们通过计算和人工智能揭示了蛋白质的秘密。

计算?人工智能?该不会诺奖委员会把化学奖也给了计算机科学家吧?

还真让你猜对了,虽然大卫·贝克和约翰·詹珀这二位科学家身上都有生物化学家的头衔,但他们同时也拥有计算机科学家的头衔。至于德米斯·哈萨比斯嘛,那就更不用说了,他是一名专注于人工智能的计算机科学家,在进入科研圈儿之前,他是一名棋盘游戏专家,还是业内知名的视频游戏的 AI 程序员和设计师。

以前,计算机科学家常常会被公众看成是类似程序员一样的工作,他们常常被称之为工程师而不是科学家。今年,绝对是计算机科学打翻身仗的一年。

很多人都以为,化学家应该是那种身穿白大褂,被一大堆瓶瓶罐罐围着,要么在看显微镜,要么在摇试管的人。但是,随着各种学科与计算机科学之间的交叉越来越紧密,尤其是随着计算能力和人工智能技术的发展,你可能真的分不出一个身穿宽松的便装,坐在电脑前噼里啪啦敲打键盘的人到底是一名游戏玩家,还是一名科学家了。

David Baker 在华盛顿大学的化学实验室

在我刚刚出版的新书《未来科技大爆炸》中,就专门讲过大卫·贝克的故事。他的爸爸马歇尔·贝克是著名物理学家,妈妈玛西亚·贝克是地球物理学家。1989 年他在加州伯克利分校拿到了生物化学博士学位,从那时候起就开始研究蛋白质相关的课题。

Father Msrshall Backer

Son David Baker

Mother Marcia Baker

蛋白质是构成生命的基本零件,而氨基酸又是构成蛋白质的基本零件。从微观结构上来说,蛋白质就是一团由不同种类的氨基酸拼装成的有机大分子,而不同的氨基酸就是拼装大分子的小积木。由于每一种氨基酸都有固定的三维结构,当氨基酸相互连接之后,就会让蛋白质这根长长的氨基酸链条发生折叠,形成一个更大的三维结构。

美国生物化学家克里斯蒂安·安芬森(Christian Anfinsen)就发现,蛋白质可以展开再重新折叠,每次都能保持原来相同的形状。于是他在反复试验后得出结论:蛋白质的三维结构完全是由蛋白质中的氨基酸序列决定的。这也帮他赢得了 1972 年的诺贝尔化学奖。

Christian Anfinsen (右)

这张来自安芬森论文的图显示左边是折叠的RNase(核糖核酸酶),右边是变性(未展开)的RNase。箭头指向两个方向,表示蛋白质可以在可逆过程中折叠或展开。

蛋白质的折叠有点儿像一种经典的智力玩具——百变魔尺。百变魔尺有很多节,每一节都可以向四个不同方向翻转。这样,一根长长的魔尺就可以被折叠成各种各样的形状。魔尺的节就像是氨基酸,而魔尺的节数越多,可能折叠出的三维结构的数量就会呈现出几何级数的增长。

蛋白质也是这样。即便是只有 100 个氨基酸组成的蛋白质,理论上就可以折叠出 1047 种不同的三维结构。如果氨基酸链随机折叠,那么找到正确的蛋白质结构需要的时间比宇宙的年龄还要长。但是在细胞中,蛋白质完成一次正确的折叠,只需要几毫秒即可,到底如何找到蛋白质正确的三维结构,这成了一个巨大的谜题。

百变魔尺的说明书

蛋白质的折叠过程太像是一个解谜游戏了。2008 年的时候,大卫·贝克突发奇想,既然拼装氨基酸的过程与游戏如此相似,那么干嘛不开发一款游戏,让玩家来参与蛋白质的组合和拼装呢?也许人多真的力量大呢?

说干就干,有了想法之后,大卫·贝克立即率领化学家团队,搞起了游戏开发。没过多长时间,大卫·贝克的游戏开发团队就把这个蛋白质拼装的游戏做出来了,为了吸引更多玩家,他们还升级了游戏,让游戏可以联网运行。这个游戏的名字就叫做 Foldit——折叠。

在这个游戏中,玩家的目标就是用各种各样的氨基酸,拼装出给定的蛋白质分子的三维结构。与宏观世界中的物体差不多,蛋白质的三维结构某种程度上也决定了一个蛋白质的性状和功能。比如说,我们的免疫系统在面对病毒和细菌的入侵时,会产生一种抗体蛋白。抗体蛋白的功能就是要紧紧夹住病毒身上突出的刺突蛋白,夹住之后,就能破坏刺突蛋白的特异性,从而阻止病毒进入细胞。所以抗体蛋白的样子,真的就像是一个抓娃娃的夹子,它能够精准地把刺突蛋白抓住。

图:正在瞄准和识别病毒的抗体

胶原蛋白是一种经常被我们谈论的蛋白,它能让我们的皮肤充满弹性和活力。那么根据前面说过的原理,你大概就能猜到胶原蛋白应该的样子,没错,胶原蛋白的样子就像是三股互相拧在一起的橡皮筋。这样的形态才能为我们的皮肤提供张力。

图:长相酷似橡皮筋的胶原蛋白

还有,2020 年获得诺贝尔奖的基因定点编辑技术 CRISPR,就是利用了 CAS9蛋白能够切断 DNA 的能力而发明的。那么 CAS9 蛋白长什么样呢?对了,它确实就像是一把剪刀。下图中橙色的蛋白质就是 CAS9 蛋白,而绿色的部分则是被 CAS9 蛋白切断的 DNA 分子。

图:剪刀一样的 CAS9 蛋白(橙色),紧紧地夹着 DNA(绿色)

由于蛋白质常常有着与功能匹配的三维构造,让玩家们兴趣盎然。蛋白质折叠游戏 Foldit 一上线就火了。一个个的蛋白质拼装任务,被海量的玩家一一攻破。在 Foldit 官网的论坛上,还有玩家留言说:“下一个任务什么时候出?希望有点儿难度才有挑战性。”

要知道,玩家破解的这可不是什么设计出来的游戏任务,那是一个又一个难度极高的蛋白质结构分析工程。用大卫·贝克自己的话说,当时这款游戏产出的科研成果,可以让他的团队写论文都写到手软。

2011 年,大卫·贝克发表了一篇关于猴类艾滋病毒相关蛋白结构解析的重磅文章。这也是游戏 Foldit 的功劳。这个蛋白的结构已经困扰了全世界研究者 15 年之久,但是,这个任务发到 Foldit 上之后,仅仅 10 天就宣告破解。连早已习以为常,论文写到手软的大卫·贝克本人都大感震惊。这就是群众的力量。

猴类艾滋病毒相关蛋白

当然,大卫·贝克并没有忘记一边游戏一边帮助他搞科研的游戏玩家们。为了感谢玩家们的集体贡献,他专门写了一篇论文发表在《自然》杂志上。论文的名字就叫《通过多人在线游戏预测蛋白质结构》。在论文作者一栏里赫然写着:超过 57000 名 Foldit 玩家。这回玩家可高兴了,免费玩儿了这么有趣的游戏,帮助了科学研究,还顺便成了成了顶级科学期刊的论文作者。这真是一举三得赢麻了呀。

不过,你可以别以为从蛋白质的三维结构推导出氨基酸的序列是一件容易的事情。其实在过去很长一段时间里,人类都是通过给蛋白质结晶体拍摄 X 光衍射图像,再根据衍射图案反向倒推出蛋白质结构的。这种方法虽然理论上可行,但实际上会受到很多方面因素的影响,而且实际实验精度也不高。所以在 1994 年之前的三十年间,人们已知结构的蛋白质总类只有几百种而已。

实验室中确定结构的蛋白质数量随时间的变化

当时,想要弄清楚一个蛋白质的三维结构,唯一的办法只能是耗费巨大的人力、物力,用大量的重复实验,通过观察、思考、假设、验证的循环模式一步一步逼近一个蛋白质结构的真相。而且,这事儿并不是勤奋刻苦就能出成绩的,因为解析结构的过程是否顺利有很大的运气成分。运气不好的时候,重复个上千次实验都有可能出不来结果。因此,每解析一个蛋白质结构,通常的成本在几万到几十万美元之间。

那么,1994 年到底发生了什么呢?原来,从 1994 年开始,诞生了一个名叫 CASP 的蛋白质三维结构预测大赛。这场大赛每两年举行一次,每次都有来自全世界的超过 100 个研究团队参加。研究蛋白质的科学家都会把赢得大赛当作蛋白质研究领域的至高荣誉。

CASP逐年预测蛋白质结构的得分 (蓝色是不采用AlphaFold的得分,绿色是对照组采用了AF的得分)

大卫·贝克作为预测和设计蛋白质结构算法的专家,自然每次都会去参加 CASP 大赛,也多次取得过不错的成绩。用于从头预测蛋白质结构的 Rosetta 算法,以及志愿者利用计算机空闲时间就可以参与预测计算的分布式蛋白质预测项目Rosetta@home 都是大卫·贝克的团队在这段时期开发出来的。

2018 年 12 月,第 13 届 CASP 大赛的桂冠被一个名叫 AlphaFold 的人工智能程序摘得。这一下子就成了生物学界的头条新闻,因为之前参赛的算法很多,但是从来没有过人工智能程序来 CASP 参赛。而且还一举夺冠。

2020 年 11 月,第 14 届 CASP 大赛的桂冠再次被同一支参赛团队夺走,只不过,这一次他们参赛的版本是 AlphaFold2。这次比赛,AlphaFold2 的成绩与第二名呈现出断崖式的巨大差距。他们的得分达到了惊人的 92.4 分,而上一次夺冠时,它的得分还不到 60 分。这种进步的速度实在令人震惊。AlphaFold 预测的蛋白质结构已经非常接近于真实实验做出来的结果,人类离计算机攻克蛋白质折叠问题只有一步之遥。

设计了 AlphaFold 的不是别人,正是因为开发出人工智能围棋程序 AlphaGo 而闻名的人工智能公司 DeepMind,而我们本届诺贝尔化学奖的另外两名获奖者德米斯·哈萨比斯和约翰·詹珀,正是 AlphaFold 开发团队中的两位核心科学家。

故事讲到这里,相信你也理解了本届诺贝尔化学奖的前因后果。计算机科学家的连续获奖并非偶然。在科学探索的道路上,跨学科的合作正变得越来越重要,而数据、算法和人工智能驱动的研究正在成为趋势。

大卫·贝克、德米斯·哈萨比斯和约翰·詹珀的工作展示了计算机科学与生物学的结合如何推动了我们对生命的理解。通过将人工智能的力量引入到蛋白质结构预测中,他们不仅解决了长久以来困扰科学家们的难题,也为药物设计、疾病治疗以及生物工程等领域开辟了新的可能性。

很显然,我们现在就生活在一个新旧时代交替的节点上。一个由数据驱动、由算力支撑,由人工智能推动的新时代就在眼前。在这个时代里,传统的实验室工作与先进的计算方法相辅相成,共同推进着科学研究的进步。正如大卫·贝克所展示的那样,即使是看似遥不可及的问题,也有可能通过创新思维和技术革新找到答案。而这一切才刚刚开始。

    特别声明
    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问https://renzheng.thepaper.cn。