李国杰院士:国内AI研究“顶不了天、落不了地”,该想想了

- AlphaFold 2的“临门一脚”是取得胜利的标志性突破,它用精确的预测结果显示出人工智能技术在基础科学研究上的巨大威力。

- 总的来讲,我们的研究多数是技术驱动、论文导向,目标导向和问题导向的研究较少。

- 我们与一流科学家的差距之一是选择可突破的重大科学问题的眼光不够敏锐,布局的科研项目要么是增量式的技术改进,要么是几十年都难以突破的理想型目标。

- 目前我国的大学和企业的人工智能实验室大多遇到顶天顶不了、立地又落不下去的困境。

2016年DeepMind公司的人工智能(AI)程序AlphaGo 战胜了人类围棋冠军,曾引起全世界的轰动。

2020年11月30日,DeepMind公司的另一个人工智能程序AlphaFold 2在蛋白质结构预测大赛CASP 14中,对大部分蛋白质结构的预测与真实结构只差一个原子的宽度,达到了人类利用冷冻电子显微镜等复杂仪器观察预测的水平,这是蛋白质结构预测史无前例的巨大进步。这一重大成果并没有引起媒体和广大民众的关注,但生物领域的科学家反应强烈。

中国科学院院士施一公对媒体说:“依我之见,这是人工智能对科学领域最大的一次贡献,也是人类在 21 世纪取得的最重要的科学突破之一,是人类在认识自然界的科学探索征程中一个非常了不起的历史性成就。”

蛋白质是生命的基础,了解蛋白质的折叠结构和分子动力学是生物学界最棘手的问题之一,已经困扰科学家50年之久。目前已知氨基酸顺序的蛋白质分子有1.8亿个,但其三维结构信息被彻底看清的还不到0.1%。

最近DeepMind公司在Nature期刊上宣布已将人类的98.5%的蛋白质预测了一遍,计划今年底将预测数量增加到1.3亿个,达到了人类已知蛋白质总数的一半,并且公开了AlphaFold 2的源代码,免费开源有关数据集,供全世界科研人员使用。

被释放的海量蛋白质结构信息蕴含着生命信息的密码,将有力推动生命科学的发展,大大加速针对癌症、病毒的抗生素、靶向药和新效率的蛋白酶的研发。

在AlphaFold 2问世以前,许多科学家做过用计算机预测蛋白质三维折叠结构的研究,中科院计算所的卜东波团队去年在Nature 期刊发表论文,在蛋白质结构预测方面做出了出色成果。

DeepMind团队采用的注意力机制也是计算机视觉和自然语言处理领域较成熟的技术。最近华盛顿大学推出预测准确度与AlphaFold 2差不多的新算法,只需要一个GPU,10分钟左右就能算出蛋白质结构。

蛋白质折叠问题的解决是生物学界和人工智能界长期合作努力的结果,但AlphaFold 2的“临门一脚”是取得胜利的标志性突破,它用精确的预测结果显示出人工智能技术在基础科学研究上的巨大威力。AlphaFold 2的巨大成功给我们许多耐人寻味的启示。

2017年国务院发布《新一代人工智能发展规划》以后,我国立即启动了“新一代人工智能重大科技项目”,开展数据智能、跨媒体感知、群体智能、类脑智能、量子智能计算等基础理论研究,统筹布局了人工智能创新平台和许多关键共性技术研究。

近三年我国学者发表了大量人工智能论文,申请几万件专利,在北京冬奥会、城市大脑等应用场景和抗击新冠肺炎疫情中取得显著成效,出现了一些人工智能独角兽企业,取得的成绩可圈可点。

但总的来讲,我们的研究多数是技术驱动、论文导向,目标导向和问题导向的研究较少。

AlphaFold 2的成功首先是因为10年前DeepMind团队就开始关注“蛋白质折叠”这个有重大价值的科学问题。几年前用计算机预测复杂的蛋白质折叠结构,正确率还不到40%,DeepMind团队当时就有信心攻克这个世界难题。

我们与一流科学家的差距之一是选择可突破的重大科学问题的眼光不够敏锐,布局的科研项目要么是增量式的技术改进,要么是几十年都难以突破的理想型目标,像蛋白质折叠这样的重要研究方向没有列入新一代人工智能重大科技项目。

人工智能研究可能取得重大突破的目标不只是蛋白质折叠。我认为,用机器学习的方法全自动地做集成电路的前端和后端设计也有可能十年左右取得突破,如果做到了,让人焦心的集成电路设计人员巨大缺口难题就会迎刃而解。这一类涉及经济发展的重大问题应该是人工智能界关注的焦点。

为什么重大的科学问题和国计民生问题没有进入人工智能界许多学者的视野,这涉及对人工智能这门学科的认识。

最先提出“人工智能”这个术语的麦卡锡对这门学科的定义是:“人工智能就是要让机器的行为看起来就像是人所表现出的智能行为一样。”后来的人工智能学者大多盯住了“像人”这个“原则”,以“像不像人”作为目标。

所谓衡量智能水平的“图灵测试”也是遵循这个原则。授予沙特阿拉伯公民身份的“索菲娅”和清华大学的“华智冰”机器人,都是朝着“像人”这个目标努力。但硅基的计算机和碳基的人脑终究有本质性的区别,非要把电子线路构成的机器做成与人一样,既没有必要也没有可能。

现在用于机器学习的人工神经网络与人的大脑有相似的地方,但也体现出与人的思维不同的机器“思维”方式。理性的人工智能发展模式应该承认人有人智,机有机“智”,要充分发挥机器“思维”的特长,做人不擅长做的事情。AlphaFold 在蛋白质结构预测上体现出的才能不是“像人”,而是比人高明。

人工智能是对人类的补充和增强,而非替代人类,我们并不需要复制人的智能,而是要建立一个新的智能系统。人工智能研究摆脱“模仿人”、“替代人”的思想束缚后,会有更广阔的发展空间。

AlphaFold的成功表明:疑难问题的解决不一定完全依赖于人类的先验知识,这意味着在人工智能时代,人类获取知识的逻辑将发生根本性的变革,对人类认知将产生巨大冲击。

机器学习是一种全新的、人类也无法真正理解、但能被实践检验的认知方法论。我们是相信“实践是检验真理的标准”,人机互补构建命运共同体,还是坚持机器必须给人讲明白演绎和归纳过程才是真理,人类将面临新的选择。

机器学习可以正确预测蛋白质结构,说明机器已掌握了一些人类还不明白的“暗知识”。

过去我们把可以表达的知识叫做“明知识”或“显知识”,不可表达但可以感受的知识叫做“潜知识”或“默知识”。现在又多出了一类既不可表达又不可感受但机器能明白的知识,可称为“暗知识”。

知识维度的增加大大扩充了人类的视野。如果说“明知识”是冰山显露出来的一角,“潜知识”是冰山海面下的部分,“暗知识”就如同大海。对人类而言,如何利用“暗知识”可能比弄明白“暗物质”、“暗能量”更重要、更紧迫。

蛋白质结构预测取得重大突破的另一个启示是科研范式已经开始转向。

AlphaFold团队是一个典型的跨学科合作团队,在Nature发表此重大成果的论文作者有34位,其中19位并列第一作者,包括机器学习、语音和计算机视觉、自然语言处理、分子动力学、生命科学、高能物理、量子化学等领域的知名学者。

蛋白质形成稳定折叠结构的原因是分子内部的势能会降到最低点,预测计算实际上能量最小化的优化。

深度学习的人工神经网络在计算机视觉、自然语言处理和生物信息学等领域表现优异,不仅仅源于算法和数学,背后有深层次的物理原理。因此,理论物理学家的介入十分重要。

基于最基础科学原理的机器学习需要人类多领域科学家的智慧和机器“智能”有机融合,不同于以发现相关性为主要目标的科研第四范式:数据密集型科学发现,我认为这是科研第五范式的雏形。

AlphaFold并没有提出新的科学原理,而是研究已知原理的相互组合涌现出的大量新奇结构、特性和行为,把对结构的认知抽象成各种模式的自动化识别和匹配,本质上是一种集成式的工程科学技术。过去生物学家只是把人工智能当成众多的辅助工具之一,AlphaFold的成功改变了生物学家的看法。

工程科学技术不只是工具,也不仅仅是基础研究成果的应用,而是在基础研究中可以发挥巨大作用的重要组成部分。没有像DeepMind团队一样的强大的工程技术实现能力,基础研究也难以做出重大的成果。

目前我国的大学和企业的人工智能实验室大多遇到顶天顶不了、立地又落不下去的困境。希望人工智能界的学者认真总结经验教训,在研究方向选择上多费点心思,争取获得让人眼睛一亮的重大成果。

(本文作者为中国工程院院士。本文原标题 李国杰院士:国内AI研究“顶不了天、落不了地”,该想想了)