他们甘当“人肉地毯”,只为能让天河一号“跑”起来

科技日报
2018-10-24 22:04

2010年,夏。

“天河一号”二期系统进驻国家超算天津中心首期工程——通信光纤铺设甫一开始,就遇到了大麻烦。

铺设光纤的沟槽温度高达40多度,水泥表层太粗糙,光纤的绝缘胶皮被磨出了道道裂痕,个别地方还露出了线芯。

这个问题不解决,后果不堪设想。轻者信号中断、通信短路,重则导致系统紊乱。

怎么办?工程现场指挥员的举动出人意料,他把衣裤一脱,跳进闷热的沟槽,俯卧在粗糙的水泥地上。大家纷纷效仿,很快铺就了一条“人肉地毯”,一根根光纤顺着的工程人员的身躯通畅地向前延伸。

光纤铺设过程中,几十人在闷热的沟槽里赤身裸背爬了数十天,被坚硬的水泥地和光纤刮擦得遍体鳞伤,15000根光纤却毫发无损。

等到“天河一号”二期系统试机那天,开机运行的一瞬间,全部线路畅通无阻。

不久后的11月,我国首台千万亿次超级计算机“天河一号”以惊人的运算速度在全球超级计算机500强榜单中位居世界第一,这也是五星红旗第一次插上世界超算之巅。

1983年我国巨型机实现“零”的突破,到“天河一号”大显王者风范,历经数位科学家的艰苦探索,中国超算不断冲击巅峰,高端应用连续两次获得国际高性能计算机的最高奖——戈登贝尔奖。

以“神威•太湖之光”和2017年完成技术升级和系统优化的“天河二号”为标志,我国超级计算机具备了从自主微处理器、自主互联、自主软件系统到自主应用的全方位自主研制。伴随着改革开放的时代大潮,我国高性能计算机完成了从“跟跑”到“领跑”的历史跨越。

再见!屈辱的玻璃房子

“中国要搞四个现代化,不能没有巨型机!”1978年,在中央召开的一次重要会议上,邓小平同志的这句话掷地有声。随即,他代表党中央、国务院将这一任务交给国防科技大学。

时任该校计算机研究所所长的慈云桂教授听到这个消息,当即向上级立下军令状:每秒一亿次一次不少,6年时间一天不拖,预算经费一分不超。“就算是豁出这条老命,也要把中国的巨型机搞出来!”

在中国老一代超算人的心里,藏着一段关于玻璃房子的心痛往事。

20世纪80年代,中国气象部门想从美国克雷公司进口一台计算机,美国人死活不肯卖。后来好不容易松口了,但美国政府要对出口中国的高性能计算机进行监视,即在计算机机房安装监视仪器,机器也要封在玻璃机房里,由他们自己人使用监控,不许中国科技人员进去。

“银河一号”巨型计算机

面对西方国家如此严密的技术封锁,以慈云桂教授为代表的第一代中国计算机科技人员敢为人先,率领国防科大计算机科研队伍,在1983年12月研发出中国第一台亿次巨型电子计算机,取名为“银河”。中国从此成为继美、日之后能独立设计和制造巨型机的国家。

1993年,德国曼海姆大学汉斯·埃里克教授等开始实施国际TOP500排名。彼时,国防科大银河系列超级计算机关键技术攻坚势如破竹。但每当中国跃上一个新台阶,美国或日本不久便会宣布研制出世界上运算速度最快的超级计算机。似乎,中国的超算水平总是比别人差那么一点点。

进入21世纪,世界超级计算机发展遭遇“冰封”时期。科学家们为了提高超算系统的整体性能,只能依赖于加大系统规模:比如计算机体积有几个足球场那么大、需要建一个专用的发电站才能满足它的功耗。2004年日本的“地球模拟器”,虽然一度抢占国际TOP500排名第一,但其机房竟需要四层楼,铜质电缆有上百公里长。

超算技术再跨越,需要新的体系结构理论来支撑。这也意味着中国和美、日等发达国家处于同一起跑线,中国在超算领域决战决胜、冲击巅峰的时机来临!

死磕到底,科学家“着了魔”

2006年开始,杨学军和他的团队,开始了一场极富创意甚至有点冒险的主动出击战。其时,国家制定了“先研制两台百万次超级计算机、再研制一台千万亿次超级计算机”的“两步走”战略。但以杨学军为总设计师的总师组,经过深入技术调研、反复权衡利弊,决定从每秒10万亿次直接冲刺每秒1000万亿次,走别人没有走过的CPU+GPU技术路线。这一超常决策引起一片哗然。

以10倍速度逐步递增来研制超级计算机,已成为国际惯例。从每秒10万亿次直接向每秒1000万亿次跨越,会不会有点急功近利? 杨学军的剑走偏锋,会成功吗?

CPU(通用微处理器)+GPU(专用微处理器)异构融合体系结构,形象地说,就是把众多CPU、GPU有机地连成一枚“捆绑式火箭”。所谓“一个和尚挑水喝,两个和尚抬水喝,三个和尚没水喝。”把数千个CPU和数千个GPU组合成一个“大庙”,它们还能卖力“挑水”吗?

失败的滋味,不好受。2009年3月,他们把CPU、GPU这两类“和尚”组合起来,竟发现总性能还不到600亿次,而一颗CPU就有近500亿次的性能。也就是说GPU虽然用于图像处理速度惊人,但让它与CPU放在一块用于科学计算,就变得非常懒惰,计算效能只有20%左右。

难道,这条路真的走错了吗?杨学军不信邪。他向妻子招招手:“你去把车开来,带我出去转转。”车子驶出高速收费站时,杨学军掏出手机,坚定地说:“别人不敢走的路,并不等于走不通。从技术原理分析,GPU的计算性能,通过软件优化,是可以大幅提高的……”

关键时刻,经学校党委推荐,时任中央军委主席胡锦涛任命廖湘科为每秒千万亿次超级计算机工程总指挥和常务副总师。随后,杨学军、廖湘科作出了一个超常决策:把完成研制任务的时间节点,由原计划的2010年底提前一年,即在2009年底前推出中国第一台每秒千万亿次超级计算机。

在长沙郊区的一个抗洪指挥部,国防科大超级计算机创新团队来了一次长达半年的“闭关”,成员们整天猫在那栋三层小楼里,眼睛只盯着显示屏,从早上7点盯到午夜。

功夫不负有心人,突击队连续奋战四个月,先后改进优化8万余次,创造了一个科学奇迹:GPU计算效能跃升至70%以上,达到世界最高水平!

奇迹背后的“上甘岭战役”

2009年国庆节来临前夕,每秒千万亿次超级计算机一期系统安装完毕。同年10月29日,我国第一台每秒千万亿次超级计算机横空出世,中国成为世界上第一个掌握CPU+GPU异构融合体系结构技术、第二个研制出每秒千万亿次超级计算机的国家。时任中共中央总书记、国家主席、中央军委主席胡锦涛闻讯,亲自为她题名“天河”。

除了喜悦,研究团队并不甘心。停滞,意味着被淘汰。2009年10月,国防科大计算机学院超级计算机创新团队召开“天河一号”二期系统决战动员会,时间定为一年,目标是每秒4700万亿次,并且一定要用上自己研制的CPU,逐步改变微处理器依赖进口的局面。

奇迹真的发生了。

2010年11月,在世界超级计算大会上,“天河一号”二期系统以计算峰值高出第二名 “美洲虎”两倍多的绝对优势,勇夺国际TOP500排名第一,打破了美国在超级计算机领域长期一家独大的局面,标志着我国自主研制的超级计算机综合技术水平跨入世界领先行列。

在奋起直追的路上,有多少个不眠之夜,又有多少次激流勇进,数不清,道不明。这样的奇迹,来自超强的胆魄,也来自超出常人的艰辛。参与人员说,真是打了几场“上甘岭”。比如,通信光纤的保卫战。

通信光纤铺设,是“天河一号”二期系统进驻国家超算天津中心的首期工程,时间紧迫、任务艰巨。为确保按期完成施工任务,指挥员把任务细化到天,要求大家“当天任务不完成当天不吃不睡”。

哪知施工第一天刚铺了几根,施工指挥员拿起一看,立刻傻眼了。时值盛夏,沟槽温度高达40多度,水泥表层太粗糙,光纤的绝缘胶皮被磨出了道道裂痕,个别地方还露出线芯。这个问题不解决,后果不堪设想。轻者信号中断、通信短路,重则导致系统紊乱。

指挥员做出了大胆的行为。他把衣裤一脱,跳进闷热的沟槽,俯卧在粗糙的水泥地上。大家纷纷效仿,很快铺就了一条“人肉地毯”,一根根光纤顺着官兵的身躯通畅地向前延伸。

几十个人在粗糙闷热的沟槽里赤身裸背爬了数十天,一个个被坚硬的水泥地和光纤刮擦得遍体鳞伤,15000根光纤却毫发无损。

就这样,等到“天河一号”二期系统试机那天,打开机器的一瞬,全部通信线路畅通无阻。

这样的中国超算,值得喝彩

喜悦还未退去,质疑接踵而至。

在“天河一号”取得世界第一不久后,很多国内外的专家和媒体质疑其中看不中用,甚至还有专家调侃 “天河一号”实际上就是一台大游戏机。“当时,我就怒了!”国家超级计算天津中心应用研发部部长孟祥飞立下了军令状,干不好“天河一号”的应用就卷铺盖走人。

如何让更多企业、院校、科研单位成为“天河一号”的用户?孟祥飞把自己的团队打造成售前、售后、研发的“三体”。为了让“天河一号”忙起来,孟祥飞一年常常要跑上四、五十个城市,行程最多时可以绕地球两圈。经过不懈努力,现在每天在“天河一号”平台上并发在线的研发任务有近1400项,每天要完成近万项计算任务。“天河一号”成为了名副其实的“国之重器”。

今年6月25日,新一期全球超级计算机500强榜单发布,美国超级计算机“顶点”以峰值速度每秒20亿亿次占据榜首。在上榜的超算总数上,中国以206台位居第一,美国为124台。

“天河一号”副总设计师胡庆丰分析,从“天河一号”夺冠到美国的“顶点”居首,期间经历了日本的“京”、美国的“红杉”和“泰坦”、中国的“天河二号”和“神威•太湖之光”,可以看出,美国、日本、中国同处于世界超级计算机研制的领先行列,形成了在具体系统上交替领先的格局。

同时,我国超级计算机在应用的普及性和广泛性方面发展态势良好,高端应用连续两次获得国际高性能计算机的最高奖——戈登贝尔奖。以“神威•太湖之光”和2017年完成技术升级和系统优化的“天河二号”为标志,我国超级计算机具备了从自主微处理器、自主互联、自主软件系统到自主应用的全方位自主研制。

国际超级计算机界的下一个目标是被称作“E级超算”的百亿亿次超级计算机,美国、日本、欧洲都部署了“E级超算”研发计划。按照中国的时间表,中国最早有望在2020年发布E级超算。目前中国同时启动了三大E级超算原型系统的研发,分别是国防科大和天津超算中心的“天河三号”、中科曙光的E级超算以及江南所和济南超算中心的“神威”E级超算。

胡庆丰展望,正在研发中的百亿亿次超级计算机系统将在我国的大科学、大工程、大数据和人工智能等更加广泛和深入地应用中发挥重要作用。

(原标题:他们甘当“人肉地毯”,只为能让天河一号“跑”起来)

    责任编辑:虞涵棋
    校对:徐亦嘉