中国电信:长坡正铺 厚雪将至

央企首篇自研论文入选SIGCOMM
作者/ IT时报 郝俊慧
编辑/ 钱立富 孙妍
滑雪的人都知道:只有当一条雪道足够长、坡度足够缓、雪足够湿时,才能积成厚雪,滑出极致的速度与优雅。
基础研究亦如是。
2026年4月30日,习近平总书记在上海出席加强基础研究座谈会时强调,基础研究是整个科学体系的源头,是所有技术问题的总机关,要以更大力度、更实举措加强基础研究,提升我国原始创新能力,进一步打牢科技强国建设根基。
这是党中央关于基础研究的最强音。21天后,一家央企的基础研究,在世界顶尖学术舞台上得到了回应。
5月12日,中国电信云计算研究院(以下简称云研院)资深主任研究员李赓电脑上,突然弹出一封邮件:“Congratulations on the acceptance of your paper(恭喜你的论文被顺利录用)”。
李赓为第一作者的论文《LEVELLER: Fair Communication Scheduling via Progress-Rate Awareness in Multi-Tenant Training Clusters(中文名《平权者:多租户训练集群中基于进度率感知的公平通信调度系统》(以下简称《LEVELLER》)被国际计算机网络顶会ACM SIGCOMM 2026正式录用。
这是央企历史上第一次以第一单位身份、独立自研完成的SIGCOMM论文。
自1969年成立以来,被誉为国际计算机网络领域研究“金字塔尖”的SIGCOMM,见证了互联网体系结构、数据中心网络、网络协议的每一次重大跃迁,能在SIGCOMM上发表论文,意味着研究工作同时具备了“基础性贡献、前瞻性影响与坚实的工程实现能力”。
为什么是中国电信?为什么是现在?
答案便在“长坡厚雪”四个字中。
效率与公平
效率与公平,谁更重要?这个问题,各行各业的学者争了一百年,没有答案。
阿瑟·奥肯在1975年的《平等与效率:重大抉择》中将它写成了一道“二选一”的题目——你想要效率,就得接受不平等;你想要公平,就得付出效率的代价。
50年后,智算云场景提出了一个新的“选择困难”:在多租户GPU集群中,如何保证不同训练任务之间的通信公平性?
大模型训练,正越来越像一场通信战争。智算中心的大规模算力集群中,通信开销随着模型和集群规模同步膨胀,GPU间的通信效率已成为AI训练的关键瓶颈。
阿里云在一篇2024年SIGCOMM上发表的论文《面向深度学习训练的GPU高效通信调度》中写道,36.3%的深度学习训练任务会因与其他任务产生通信竞争而导致GPU算力浪费。这意味着,在一个典型的多租户GPU集群里,超过三分之一的任务,都在默默承受“邻居”带来的代价。
当前,主流通信调度系统选择的原则是效率优先,即最大化GPU利用率,或最小化平均任务完成时间。站在基础设施的角度来看,这可以将网络利用率尽可能地榨干。
然而,站在云商用户的角度,这种策略不一定是最好的。李赓团队在调研中发现,在同一个算力池中,两个租户租用相同的资源,支付相同的账单,但因为任务特性不同(计算密集和通信密集),在效率优先的通信调度下,一个任务可能很快跑完一轮,隔壁租户的任务却需要一直等待,极端情况下,有些任务甚至会被“饿死”,进展几乎为零。
学术界和产业界不是没有尝试过解决这个问题,但沿用的原则是传统的“流级(Flow-level)公平”。这种逻辑认为,公平就是把每个数据流的速度调配均匀,类似所有任务都拖慢1秒。
“这不公平。”李赓与团队对此并不认同。
大模型训练是“任务级(Job-level)”,如果只考虑流级公平,一个100秒能完成的任务和一个1秒能完成的任务同时慢1秒,你可能只慢了1%,但对他而言,是慢了一倍。
通信不公平,不仅影响多租户的用户体验,制约集群的整体效能,更直接威胁到智算云服务的确定性(CloudIntegrity)和商业契约。
公平性,是算力从商品走向普惠性基础设施中,不可绕过的最后一道门槛。
直觉与数学
于是,李赓和团队提出了一套全新的指标——“归一化进度率”(Normalized Progress Rate),用一套极其精巧的算法,衡量任务在竞争环境下的实际进度与无干扰理想进度的比值,所有任务的“归一化进度率”尽量对齐,保障每一个任务的实际训练进度按比例同步增减,与任务本身的大小、复杂程度无关。
简而言之,LEVELLER重新定义了智算云多租户GPU集群通信调度的“公平”:大家以相同的比例共同承担代价,比如A变1.1秒,B变110秒,每个任务都慢10%,谁也没有亏欠谁。
“按比例一起慢”,说出来只需要一秒钟,听起来似乎并不复杂,甚至有点过于简单。
但简单,有时候只是“障眼法”,本质上,它是在一个正确的时机,以一种更为优雅而巧妙的解题思路,解决了一个被忽视的问题。
多租户GPU集群的大规模商业化发生于近两年,相较于传统数据中心难以预测视频、存储、微服务等不同的异构流量,LLM训练时,计算和通信的节奏高度固化,这让“公平”成为可测的指标。
另一方面,基于昂贵的GPU成本,人们天然认为应该“效率优先”,并没有在“公平”上做过多探讨。
SIGCOMM已经敏锐地发现了问题,“归一化进度率的概念化与形式化,对于解决长期存在的低层次网络指标与高层次分布式机器学习性能之间的系统性脱节问题,至关重要。”一位审稿人如是说。
但是,证明“按比例一起慢”这个直觉有效,却并不简单。
LEVELLER的贪婪算法运行逻辑同样极其简单:看一眼所有任务当下的归一化进度率,进度最慢的那个,优先让它通行。那么,这套逻辑的有效性是多少?极端情况下,是否会出现远低于预期的结果?
在长达24页的论文中,李赓和团队最终证明了一件事:运用简单的贪婪算法,公平性不会低于理论最优方案的1/2。
“50%这个下界,不是说我们实际表现只有50%,实际测试结果都接近最优的90%。”李赓解释,“但证明这个界限的意义,是让‘公平承诺’成为云服务商可以写入服务协议的数字底线:无论何种场景,我的调度性能至少可以达到最优的一半,这样客户才敢真正信任这朵云。”
Research与重新寻找
“归一化进度率”并非偶然的灵光一闪。
李赓至今仍记得,当他将研究目标定位于解决智算云通信分配公平问题时,云计算研究院院长吴杰“送”了他一个词——Research(研究),并给出很多基于经典调度的思考,“从字面意思来看,Re-search(重新寻找)就是要你翻开过去,从那些过去被大家忽视、被遗忘的旧东西里,重新找出对当下有关键价值的那个点。”
的确,“按比例分配损耗”的调度原则,在经典文献里早有踪迹。20世纪50年代至60年代的操作系统调度研究、车间任务调度理论等,都讨论过类似的思路。
重温经典之后,李赓很快便找到了灵感。
这也正是SIGCOMM最欣赏的那种“四两拨千斤”,不需要烦琐的理论和厚重的系统,而是那种“我怎么没想到”的巧劲。
实验结果显示,在10种大语言模型的测试中,LEVELLER相比行业主流方案,提升最低进度率37%,优化公平性17%,同时保持极高的集群资源利用率,且无需修改现有RDMA或TCP硬件,可直接部署。
决心与认可
“来云研院的第一天,我就朝着这个目标努力,吴杰院长也给了我足够的信任和空间,很幸运,突破来得比预期快一点。” 李赓,北京大学博士、耶鲁大学博士后、研究型助理教授,2025年2月,他告别所带领的华为网络加拿大团队,回国,入职中国电信云计算研究院。
他至今记得,2024年底接到一个越洋猎头电话的震动,对方告诉他,有一个国内的机会是中国电信云计算研究院,院长是吴杰。
他愣了几秒。吴杰,欧洲科学院院士、AAAS Fellow、IEEE Fellow,全球网络领域知名科学家,他怎么会去电信运营商?这个问题,他在面试时直言不讳地问了吴杰,而得到的答案很简单,“我看到了中国电信的决心”。
21世纪进入第三个十年,日益复杂的国际地缘政治事件和越来越高耸的科技铁幕,让中国意识到,很多“卡脖子”技术问题,根源是基础理论研究跟不上。
近几年来,中央企业全力投入基础研究领域。2026年5月7日,国务院国资委党委召开的扩大会议透露,当前央企基础研究投入占比已达9.4%,较全国水平高出2.4个百分点。
中国电信是国内最早提出转型科技型企业的电信运营商。它早在2021年便公布了自己的三步走计划:到2035年,将中国电信打造成科技领军企业,使其成为国家战略科技力量。
当前,中国电信正处于第二阶段,预计到2030年,它将建成科技型企业,其云网运营技术将领跑全球运营商,国际话语权和影响力显著提升。
2024年初,中国电信成立云计算研究院,定位为云网基础研究先锋。吴杰被中国电信集团领导特邀担任院长。
在美国工作期间,吴杰曾与走出过11位诺贝尔奖得主的贝尔实验室为邻,他清晰地看到,这家全球顶尖的工业基础研究实验室,如何在企业承压时被反复拆分、裁撤。
这位在学术界深耕数十年的网络专家,对基础研究有一个清晰的判断:基础研究需要耐心,需要无数偶然生成的必然,但基础研究在商业上的先天困境之一,是它的周期往往超出任何一个商业计划的时间窗口。
与此同时,作为国家经济柱石的央企,正在逐渐学会承担它在产业生态中的角色。
基础研究的收益是弥散的,技术红利会外溢给整个行业。对普通商业企业而言,做基础研究不划算。但对央企而言,外溢,是它的责任。
5月6日,国务院国资委党委召开扩大会议,明确推动基础研究和原始创新是中央企业科技创新中心任务。5月17日,中国电信在全国推出“Token套餐”试商用,在此之前的2025年度业绩说明会上,中国电信董事长柯瑞文首次提出,将以AI Token经营模式重塑企业业务。
让AI算力像水电一样“即插即用”,让Token有标准、可度量,这是电信运营商在Token经济时代必须统一的“度量衡”。而这种确定性,需要对底层技术的深度掌控。
《LEVELLER》为推进这个“度量衡”的统一前进了一小步。一旦“归一化进度率”这一指标被认可,成为衡量多租户GPU集群通信公平性的通用标准,受益的不只是中国电信天翼云的客户——所有在云上跑大模型训练的企业客户,无论用的是哪朵云,都可以用同一把尺子来核验自己得到的服务是否公平。它对整个AI算力产业的价值,将远超任何一家云厂商从中单独获益的部分。
2021年,时任中国电信总经理李正茂在发布“三阶段计划”时特别强调,这个科技型企业,需要国家、市场和客户的认可,且要有自身特色。
“认可”,意味着中国电信不仅要打破一个长期以来“管道运营商”的刻板印象,更要让“科技型企业”的旗帜树立在中国电信桥头。
只有当你定义的概念成为别人讨论问题的起点,你的指标成为行业普遍采纳的标准,才是一家科技型企业真正掌握技术话语权的开始。
耐心与偶然
回到中国后,吴杰被聘任为中国电信首席科学家,直接向集团董事长柯瑞文汇报,并拥有“除技术会议外的其他会议均可不参加”的特权。
过去近百年,中国电信运营商做得最好的是网络建设。截至2026年4月末,5G基站总数达500.9万个,占全球5G基站总数的60%至65%,光纤接入(FTTH/O)端口达到12.3亿个,基本实现了全国范围内的光网覆盖。这些数字放在全球任何一个坐标系里,都是令人惊叹的成就。
但这些证明的是工程能力,而不是原创科技能力。前者需要的是组织效率、规模化能力和执行纪律,而后者的逻辑截然不同:不确定的目标、未知的路径、失败的常态、以年计的时间……两种能力需要完全不同的组织土壤。
“不做基础研究,你永远只能跟跑。你想成为科技型企业,就要拿出硬东西。”吴杰坦言。
因此,吴杰非常在意,研究成果是不是真正从云研院生长出来的,履职两年多来,院考核体系中,有一条被他专门强调的规则:自研成果的权重最高。
这也让这篇《LEVELLER》的署名甚至显得有些单薄:文章归属单位——中国电信;文章作者:李赓、李泱(实习生)、臧明远、吴杰。
2026年,国资央企科技创新将正式告别“跟随式创新”阶段,全面迈入“源头引领、原创突破”的战略升级新时期。国资委提出,要切实抓好中央企业基础研究高水平人才培养、高强度研发投入、高能级平台建设,带动中央企业基础研究能力整体提升。
集团对云研院有一个朴素的要求:培养的人才,最好70%左右要留在中国电信,吴杰希望,能创造足够好的环境,留住他们。
在云研院,另一个重要的考核原则是:新进研究员半年内不设考核指标,进入正式考核期后,评估周期以年为单位。“国家现在讲耐心资本,基础研究同样也需要耐心。”吴杰表示。
目前,云研院的人才结构,呈现出一种健康的同心圆生态:
圆心,是吴杰,在欧洲科学院院士、IEEE Fellow、中国电信首席科学家等一系列头衔之外,他的存在本身,就是一种稳定的信号;往外一层,是来自全球科技巨头的资深主任研究员,他们履历光鲜,能力过硬;再往外一圈,是从国内顶尖院校和大厂引入的青年研究员,他们有的刚毕业不久,有的在工业界摸爬滚打了好几年;最外层,是一扇面向实习生和与高校联合培养的工程博士敞开的门,此次论文的第二作者李泱,便是一名北邮在读博士生,他在云研院实习不是“打杂”,而是能真正亲手触摸科技前沿,这种“开放孵化”机制,在央企中并不多见。
《LEVELLER》并不是云研院的第一次顶会突破。
2025年7月,云研院青年研究员常建慧击败3737篇投稿,拿下多媒体技术领域顶会——国际多媒体与博览会议(ICME 2025)全场唯一“最佳论文奖”;2026年初,云研院多项研究成果及论文同步入选VLDB 2026、IEEE ICDE 2026和ACM SIGMOD 2026,实现了数据库领域三大顶会“大满贯”。这些论文作者都是不超过30岁的青年研究员。
“你可以说这些是偶然的结果,但偶然的背后是无数个选择——你组建了什么样的机构,引进了什么样的人,给了多长的时间,容忍了多大的不确定性……这些选择加在一起,才有了这个必然。”吴杰说。
如今,中国电信云计算研究院的人才“同心圆”,正在形成一种正向循环:顶尖人才带来顶尖成果,顶尖成果吸引更多年轻人才,年轻人才在“耐心”中成长,最终反哺这家央企的创新能力。
最新数据显示,2025年全年,中国电信研发投入达186.04亿元,同比增长4.56%,近五年研发投入复合增长率达14.24%。
雪落的声音
为什么基础研究需要长坡厚雪?
“你要培养一个音乐家,怎么可能让他一下子就弹最难的曲子?”吴杰反问道。
先让他坐下来,听一听雪落的声音。
有些路,看起来很长,走起来很慢,但只要雪够厚、坡够长,滑下去的那一刻,风会告诉你——一切都值得。
排版/ 季嘉颖
图片/ 采访对象
来源/《IT时报》公众号vittimes
E N D

