解读|肖仰华:数理能力达到博士水平的o1模型将带来哪些影响?

澎湃新闻记者 张静
2024-09-13 15:58
来源:澎湃新闻

·专家级推理能力并非题海战术,需要具备强大的思维能力。大模型推理能力训练的难点在于人类大量的思维过程从不表达,因此思考过程的数据极度稀缺,他推测OpenAI此次应该是利用了大量的合成数据。

·人类对人工智能认知的提升速度越来越难以赶上人工智能的发展速度,这是一个巨大的治理挑战,人类是人工智能魔法的解封者,如果人工智能具备超人类能力,很可能会出现人类无法激活它的超级能力,因为这超出了人类自身的认知水平。

OpenAI推出的新模型o1具备强大的推理能力。视觉中国 图

当地时间9月12日,OpenAI推出了新一代模型系列o1,和此前的模型相比,该模型展现出了强大的推理能力,在处理物理、化学和生物方面的基准任务时,表现与博士生类似,而这一能力正是此前模型所不具备的。

9月13日,复旦大学计算机科学技术学院教授、博导、上海市数据科学重点实验室主任肖仰华在接受澎湃科技采访时表示,o1模型的出现意味着大模型的推理能力完全能够达到专家级水平,算得上是人工智能里程碑式的进展,将给模型在企业端的应用带来极大的提升。

但他同时也坦言,随着模型在知性、感性和理性三方面的能力均不断提升后,其将超越人类的能力,未来人工智能将对人类产生何种影响还很难预测,“人工智能的发展速度现在超过了人类对其认知的速度,人工智能治理将是一个巨大挑战。”肖仰华表示。

擅长推理复杂任务,表现与博士类似

作为一个早期模型,新推理模型o1虽然还不完全具备ChatGPT用有的功能,比如浏览网络信息、上传文件和图像等。但OpenAI表示,对于复杂推理任务来说,这是一个重大进步,代表了人工智能能力的一个新水平。

“通过训练,它们学会了完善思维过程,尝试不同策略,并认识到它们的错误。”大规模强化学习算法教会模型如何在训练过程中有效使用其思维链进行思考,o1模型可以在回应用户之前产生一个很长的内部思维链。随着更多的强化学习和更多的思考时间,o1性能不断提高。它学会把棘手的步骤分解成更简单的步骤。当目前的方法不起作用时,它会尝试不同的方法。

新推理模型o1在数学和编程方面表现出色,擅长精确生成和调试复杂代码。OpenAI评估了模型在AIME(美国数学邀请赛)中的数学成绩,在2024年AIME考试中,GPT-4o平均只解决了12%(1.8/15)的问题,对于每个问题单个样本,o1平均为74%(11.1/15)。在国际数学奥林匹克(IMO)的资格考试中,GPT-4o只能正确解决13%的问题,而新推理模型的得分为83%。

新模型可以对复杂任务进行推理,在处理物理、化学和生物方面的基准任务时,表现与博士生类似。OpenAI做了化学、物理和生物方面的GPQA钻石基准测试。为了将模型与人类进行比较,招募了拥有博士学位的专家一起回答问题。

“我们发现o1的表现超过了那些人类专家,成为第一个在这个基准上做到这一点的模型。这些结果并不意味着o1在所有方面都比博士更有能力,只是模型在解决博士需要解决的一些问题方面更熟练。”OpenAI表示,医疗保健研究人员可以用o1来注释细胞测序数据,物理学家可以使用o1来生成量子光学所需的复杂数学公式,所有领域的开发人员都可以使用o1来构建和执行多步骤工作流程。

里程碑式的推理能力将大幅提升应用效果

“以前的大语言模型更像一个文科生,距离理科生的水平仍然较远。但人类智能的核心能力是思考和思维,OpenAI新推理模型o1系列将人的思维过程展现出来。”肖仰华表示,新推理模型o1的本质仍是大语言模型,只是将大模型的潜力充分挖掘出来。过去,大模型的生成能力由语料决定,犹如“熟读唐诗三百首,不会作诗也会吟”。但专家级推理能力并非题海战术,需要具备强大的思维能力。大模型推理能力训练的难点在于人类很少将大量的思维过程表达出来,因此思考过程的数据极度稀缺,他推测OpenAI此次应该是利用了大量的合成数据。

“OpenAI具有明显的先发优势,其基座模型更强,收集的思维过程数据多,筛选和合成了大量优质思维数据,并且具备很强的评价能力。哪些推理过程是正确的,哪些推理过程是错误的,这就需要借助强化学习的方式,强化学习本质上是探索和试错的过程,行不通就再换一个方式。”肖仰华表示,借助这些技术和数据,OpenAI让大模型成为了真正意义上的理科生,并达到专家级水平。

达观数据董事长陈运文表示,以前的模型无法计算出复杂高等数学问题,o1增强了数学和推理能力,是很大的进步。但数理能力的提升并不意味着大模型的研发范式发生了本质变化,只是定向改进了以前的短板。

在肖仰华看来,o1的出现并未出乎预料,“实际上我们很早就判断,大模型会具备更强的感性能力和更强的理性能力。意料之外在于,没想到这么快就看到了,而且效果还如此惊艳。”他认为,未来OpenAI或许会在通用大模型基础上会分化出许多擅长做不同事情的大模型。

比如GPT-4之前的版本对所有知识和事实都了如指掌,强调知性能力;GPT-4o重多模态交互,强调感性能力;o1系列重思维,强调理性能力。模型理性能力的提升将使得To B行业将迎来巨大发展。“To B的最大痛苦和瓶颈在于大模型的推理能力,新推理模型o1系列的出现意味着To B行业的许多问题未来可以得到极大缓解。”

人工智能快速发展带来的挑战

“OpenAI真的很厉害,虽然目前为止OpenAI的技术路线并未超过认知范围,我们都知道大模型的发展方向,包括多模态、提升推理能力,但是只有OpenAI把它快速地变成了现实。他们完全是按照调教人类的方式训练大模型,对人的智力发展和认知发展有着非常强的思路,对人的成长和进化有非常清晰的认识,目前没有发现走错哪一步。”肖仰华说。

OpenAI先发优势明显,对于国产大模型的发展,“OpenAI的优势对我们而言都是劣势,但是我们仍然需要沉下心来,稳扎稳打。”但从长远来看,肖仰华表示,大模型能力单项能力的提升也是有天花板的。因为人类真实原始的数据有限、产生速度慢。“目前OpenAI是用人类数据合成出新数据,增强推理能力。但合成数据受到原始数据的限制,不能合成出无穷的数据,也无法获取本质上新颖的数据,它并不能因此发明新的学科,像爱因斯坦一样提出新的理论。”在硬件方面,推理对算力的需求小于训练,但由于思维链的延伸,对推理效率要求变高,这对推理过程的加速优化提出了更高要求。

不过伴随着大模型在多项能力方面的提升,给治理已经带来挑战,挑战在于人类对其认识提升的速度不及其发展速度。

哲学家康德将人的认识过程三分为感性、知性、理性三阶段。现在,大模型的感性、知性、理性都在提升,并且很可能超过人类,很少有人能够在这三种认知上都很强。

“目前o1已达到博士生水平,未来达到科学家水平也只是一个实现量变的过程,人类将会逐渐陷入人工智能发展的认知盲区,例如目前大模型这种推理能力意味着什么?真正能够在AI知识水平线之上的人的比例只会越来越小,全球几乎没有人能够在数理化或奥数方面都达到博士水平,我们还有多少人能够理解、认知、操控AI?”肖仰华表示,人类目前对人工智能基本认知框架都有所欠缺,这是一个巨大的治理挑战,就业、经济、伦理、社会关系等话题将引起广泛讨论,“人类是人工智能魔法的解封者,如果人工智能具备超人类能力,很可能会出现人类无法激活它的超级能力,因为这超出了人类自身的认知水平。”

 

    责任编辑:宦艳红
    图片编辑:朱伟辉
    校对:丁晓