杨天培 | 学习,和智能体一起
“通俗地说,强化学习和生物进化很像,本质上都是一个不断试错的过程。”杨天培如此形容自己的研究方向。在她看来,强化学习如同独特的探险,能够带领智能体在与未知领域的交互中不断摸索、试错,最终学会在复杂环境中做出最优决策。“这是一种强大的学习范式:智能体在与环境进行交互行动之初,并不知道行动的具体目标,而是通过不断探索来接收环境反馈,并根据反馈结果动态调整策略,从而实现学习和优化。”她说。

▲杨天培
这是一条充满魅力的探索之路。在这条路上,每一步试探都暗藏玄机,每一次回馈都指向更优的可能,而在每一个突破的背后,往往意味着千百次的尝试。早在步入这条道路时,杨天培就做好了迎接挑战的准备——不仅准备好了面对算法本身的复杂性与不确定性,还准备好了推动相关技术成果从实验室走向广阔天地的责任。
在时代湍流中锚定方向
2016年,阿尔法狗(AlphaGo)成为第一个击败人类围棋世界冠军的人工智能程序。它结合深度学习和强化学习技术,通过自我对弈的方式学习围棋策略。这标志着强化学习在复杂策略游戏中取得了突破性进展。
彼时,杨天培正在天津大学攻读硕士学位。她能感受到深度强化学习的热度,但真正的突破性工作还十分有限,尤其在如何有效促进深度强化学习效率方面,仍存在巨大的挑战。杨天培的第一篇论文就尝试从传统的矩阵博弈出发,探讨如何实现多智能体的快速协作。当她在会议上报告这项工作时,相关成果引起了与会人员的关注和讨论,杨天培第一次有了一种感觉——她也能够通过努力产出具有一定影响力的研究。“我当时非常喜欢这种正向反馈。”杨天培坦率地说。这份成就感在她心中埋下了一颗种子:她渴望寻求更深层次的突破。自此,她更坚定了要走科研之路的决心,并从2017年起,师从天津大学深度强化学习实验室负责人郝建业教授,开始博士阶段的学习。
尽管起点不低,但在整个博士阶段,杨天培仍然遇到不少挫折。“不是每次设计的算法都能收获良好的实验结果,也不是每次论文投稿都能获得正向反馈,有时负面结果会更多一些,但我也因此慢慢沉淀下来,一心要把工作做得更扎实。”如其所言,在这一时期,杨天培克服困难、稳扎稳打,利用迁移学习等算法提高深度强化学习和多智能体强化学习的效率和性能,提出通用的策略迁移框架(PTF)等成果。基于此,她多次在国际会议上发表论文,并获得中国计算机学会人工智能与模式识别专业委员会多智能体学组优秀博士论文奖。
2021年,站在毕业门槛上,杨天培再次面临抉择。在郝建业教授的建议下,她将目光投向加拿大阿尔伯塔大学——那里,正是强化学习奠基人理查德·萨顿教授坐镇的地方。她非常珍惜这个能加入强化学习顶尖国际团队的机会,此后3年,她心无旁骛地投入到博士后研究之中。而萨顿教授对人工智能发展路径的深刻洞见,也影响着她对技术发展趋势的判断。
“2016年阿尔法狗打败李世石之后,深度强化学习迎来了第一次高光时刻,但在这之后,强化学习面临的一大难题就是找不到特别合适的落地场景,它在真实问题上的训练成本太高了。”杨天培表示,直到美国开放人工智能研究中心(Open AI)、杭州深度求索人工智能基础技术研究有限公司(Deepseek)先后将强化学习用于大语言模型(LLM)训练,强化学习才再一次展示出巨大的应用潜力。如今,具身智能、人工智能智能体(AI Agent)等离不开强化学习已成共识,而我国近年来也一直在推动人工智能技术与经济社会各领域深度融合。在加拿大求学期间,通过多方面了解,杨天培意识到,随着我国逐渐步入人工智能全面赋能高质量发展的新时代,深度强化学习等相关研究将大有用武之地。
“我们可能会有许多需要学习的地方,但这种蓬勃向上的发展趋势是无可阻挡的,我希望投身到这股充满生命力的洪流中,做一个切实的参与者,贡献自己的力量。”杨天培说。
面向“开放世界”落地生根
回国后,杨天培选择了南京大学智能科学与技术学院。这是一个成立于2022年6月的年轻学院,也是南京大学苏州校区首批建设的新型学院之一。学院结合苏州校区新工科办学特色,突出多学科交叉融合,不仅专注于视觉智能、具身智能、认知智能、人工智能等前沿科学研究,还致力于在智能制造、医疗健康等领域推动技术研究和成果转化。这种定位,与杨天培的理想不谋而合。

▲杨天培(右四)参加第三届中国多智能体系统会议
2024年,以大语言模型为代表的生成式人工智能掀起热潮。杨天培迅速将研究重点锚定在一个重要的现实问题上——主流大语言模型强化学习训练算法存在显著的样本效率瓶颈。在训练过程中,每个提示(Prompt)生成的推理回复仅使用一次便被丢弃,无法实现数据重复利用,但如果直接将其放入经验回收机制又容易在大规模参数场景下的异步训练中引发分布漂移,导致模型训练不稳定甚至崩溃。面对这一业界共性难题,杨天培团队提出了一套精巧的异步高效强化学习新范式。该范式基于高熵离散单元(token)优化而诞生,在显著提升数据利用效率的同时,还能有效解决模型发散问题,保障训练全周期的稳定性。这项研究已经在代表性开源模型——Qwen 7B(阿里云研发)、Deepseek R1 7B上进行了验证,目前正与企业合作进行落地推广。
而在“基于强化学习的多模态大模型思维链推理增强方法”研究中,杨天培则另有考量。当前,多模态大语言模型在图像描述和简单问答上表现优异,但在处理需要复杂逻辑推演的任务时,常出现“思维链断裂”与“多模态幻觉”现象。传统的强化学习对齐方法往往依赖单一的最终结果反馈,缺乏对中间推理步骤的精细化指导,导致模型难以真正理解视觉感知与文本逻辑之间的内在联系,由此限制了其在复杂场景决策等高可靠性领域的应用。简单来说,就是推理时间过长,推理结果不符合预期。为此,杨天培计划引入因果推理机制和多源信息奖励函数设计,通过强化学习框架,从根本上提升多模态大模型的逻辑推理深度与准确性。她相信,这将大大拓宽其应用边界。
至此,杨天培来到南京大学智能科学与技术学院一年有余,她的工作渐入佳境。她本人入选“紫金学者” “姑苏学者”及国家级青年人才计划,并主持国家自然科学基金青年项目等多项课题。她的科研成果也推动了强化学习在国防军事、芯片设计、商业游戏等领域的应用。纵使成绩斐然,但她认为自己仍站在学习的位置,学习如何更好地教学、科研及发展团队。当前,她正在高阳教授带领的大团队中工作,团队研究涵盖了多智能体、具身智能等多个前沿方向,为跨学科交叉提供了肥沃的土壤。在这片土壤上,杨天培希望能锚定自己的研究方向。“先要能站得住脚,才能更好地反哺我们的团队。”她说。
杨天培的目标直指未来3年的核心愿景:构建一个具备强大通用能力,并能自适应地解决开放场景下复杂任务的智能体系统。在她看来,大语言模型为智能体赋予了更强的通用能力,使其走出具有强专业性的应用限制,进入“寻常百姓家”,让公众能够看得见、摸得到,真正为社会生活、生产带来便利。此时,智能体就要在如同真实世界一般复杂的开放场景中,挑战层出不穷的动态任务和交互对象。
“我们的智能体系统要在这样的环境里,学习如何自主、自适应地设计和训练出它自己的角色,自然地与外界交互,从而完成我们为它预设的目标。我希望未来3年内,能在实验室阶段构建出这样的产品原型。”杨天培深知,要实现这样的愿景,她还要不断“过关斩将”。现在,她已经带领“小团队”构建起了一个“多智能体+LLM Agent”基础框架,后续将集中力量投入到进一步的算法设计和数据评测工作中去。
无论如何,杨天培始终都沿着一条清晰的轨迹前行,直面强化学习从理论到实践的核心挑战,在“试错—反馈—优化”的循环中,推动智能体一步步走向更复杂、更开放的真实世界。在这条充满魅力的探索之路上,杨天培与她的智能体,都还在“学习”。而“学习”本身,就是智能体最动人的样子。

