国内思想周报|“智能工地”上的掘墓人;教科书删地动仪

黄蕙昭
2018-10-15 11:27
来源:澎湃新闻

AI背后的民工:挖掘自己坟墓的人?

来自《GQ报道》的一篇《那些给人工智能打工的人》,让“数据标注员”这个隐秘而庞大的群体呈现在公众眼前。在“人工智能”这一充满“高精尖”光环的名号之下,是一大批默默无闻地为人工智能发展提供数据信息的人:他们做着原始、单调、又有极高精度要求的工作——一张图一张图地拉框、标记,让计算机懂得哪里是人的眼睛、鼻子、嘴唇,又或什么是垃圾桶、红灯、斑马线。一个熟练的数据标注员每小时可能拉下300到400个框,一天标注上千张图片。

人工智能本身并不会识别物体,为了帮助AI建立认识世界的能力,需要大量数据资料来“教会”AI识别。随着人工智能在各领域的应用和发展,数据标注的需求也开始呈指数级增长,专业的数据加工服务公司应运而生。据“甲子光年”提供的业内人士统计,中国全职的“数据标注者”已达到10万人,兼职人群的规模则接近100万。

这成就了新一批踩着信息技术浪潮的流水线工人。“甲子光年”的作者咖啡猫如此描述其中大部分人和父辈相似的、悖论性的处境:他们同样身处时代的辉煌浪潮里——父辈以铁铲、挑担、拖拉机参与了中国房地产奇迹,他们则用鼠标和键盘,为风口之巅的智能科技提供源源不断的生长燃料;两代人又同样是边缘者,建设城市的人尚且难以在城市找到立足之地,而年轻的一代标注员,正活在被自己教会的人工智能所“取代”的担忧之中。

“数据标注”究竟是怎样一个行业,其中的年轻人又面临何种未来?澎湃新闻综合了来自解放日报、GQ报道、甲子光年和端传媒的各篇报道。以期综合地呈现这群时代舞台“幕后者”的境况。

数据标注员。图片来源:Gabriel/端传媒

标注业“江湖”:层层外包与畸形竞争

与公众下意识里对“数据标注”的高端想象不同,数据标注工作本身是一个低门槛的劳动密集型工种,而数据标注行业则分散在中国三四线的城市里。

据“甲子光年”《数据这点:人工智能背后的人工》,北京和贵阳,是数据标注世界里的两座“双子星”城市——算法公司和人才等“上游”资源在北京、深圳、杭州这样的科技核心区域聚集,“下游”端则以贵阳这样的城市为代表,以庞大人力提供完整的数据服务。在距离贵阳市中心50公里的百鸟河数字小镇上,便存在规模达500人的“数据工厂”。

当然,除了动辄几百人的大工厂,数据标注领域还游离着大量三五人到十几人规模不等的小作坊,它们分散在中国各级城市内。往往几万的启动资金,就可以在四五线小城内建立起一个“工作室”。

如此鱼龙混杂、门派众多的特征,源于AI数据标注行业外包风气的盛行:根据端传媒记者吴婧报道,上游的人工智能公司通常将项目交给中游的数据加工公司或众包平台,后者自行加工或分包给下游的小公司、小作坊,有的小作坊还会继续下发给“散兵”,比如学生或二三线城市的兼职人员。

层层外包,让数据标注行业趋向外扩、下潜、广泛吸纳分散的劳动力;但另一个后果也不言而喻:外包会直接折损利润,且由于准入门槛低,参与者多,团队间的低价竞争会进一步压缩利润空间。

这时常导致如下恶性状况:人工智能公司压低预算,将项目外包给不靠谱的团队,这些团队难以完成,又将任务转包给另一些小团队或公司,让质量和交期都无法保证。另一方面,那些身处数据标注产业链末端的劳动者,酬劳已经低得惊人——AI很光明,但千万小工作室却在挣扎。

“数据壁垒”则成为数据标注行业的另一锁链。端传媒记者吴婧指出,各公司都将自家数据视为机密,造成“教学材料”无法流通,虽然变相促升了数据标注行业的需求,却也加重了各个下游段“小作坊”的负担:不同公司的标注软件、需求不同,都需要重新培训工人,耗费大量时间成本不提,小作坊的专业度也逐渐显露疲态。

不可否认,数据标注行业本身一直在迭代,一些门槛更高、学科更细分的领域正露出头角;而早年如辨别车辆、行人等基本标注工作正逐渐被淘汰。受多家媒体采访的杜霖便认为,大浪淘沙,有两类机构最终会留下来:注重质量及服务的中小型数据标注公司,以及自有整套数据技术的平台。

但那些在数据标注岗位上日复一日“拉框”的年轻人呢?他们能在高度更迭的信息产业中以何种方式留存呢?

“窄门”中的年轻人:高淘汰率,高流动性与未知的未来

“学历不高”“年轻”,是媒体在描述数据标注员这个群体的常用词。当然,这些相对宽泛的概念难以穷尽其多样性:他们中有从工地辗转而来的农民工,有在读或刚毕业的职高学生,甚至有一批聋哑人——记者咖啡猫便注意到,这个新兴领域为部分特殊群体提供了新的机会:尽管听障人士需要耗费更多培训时间,但因“专注、较劲儿、对视觉信号敏锐”,能在数据标注行业中找到安身之处。

尽管工作本身门槛低、难度不高,数据标注员却有相当高的淘汰率。在接受端传媒记者吴婧采访时,杜霖表示,做图片标注的员工,淘汰率在20%到30%之间,做语音标注的淘汰率甚至接近七成。“找人难、留人难”是管理者面临的共同困境:标注工作需要足够的耐心和责任心,若马虎出错,返工成本更高;也有不少中专生、大专生,待久了觉得“屈才”,没三个月便跳槽离开。

但数据标注行业高流动性并不仅仅由于工作本身枯燥、重复、低薪,多家媒体都注意到,晋升之路的狭窄,是从业者决定离开的又一促因。

“甲子光年”的文章便指出,数据标注的晋升之路只有两条——要么数据公司,攀爬标注员-标注组长-数据经理-数据总监这个每一层都有激烈竞争的阶梯,要么进人工智能公司当数据标注员,然后凭借超人毅力自学技术曲线救国。而对大多数“智能工地”上的劳动者来说,这份工作和电子厂、服装厂流水线上的工作本质上没有区别:“没钱”,“没前途”,收入全在“多劳多得”。

一个尖锐的问题是:这数十万教会AI认识世界的人,是否会在不久的将来被AI取代?

杜霖等从业人员在接受采访时指出,至少在5年内,数据标注行业的增长空间还很大:其一,人工智能行业本身的发展将不断激发新的需要,从而进一步带动数据标注行业;其二,现有的主流算法模型仍依赖于海量数据积累;其三,人工智能的升级会提升需求的数据维度,并可能由此催生更精细的数据标注需求。

但“甲子光年”的作者认为,这一切都有赖于“有监督学习”的主流算法目前仍未被取代。若算法升级,“有监督学习”升级为无监督学习、强化学习或迁移学习,5年后,数据标注的从业者又将何去何从?在某种意义上,对数据标注行业及其从业者未来境况的困惑,暗含着一种更大的担忧——AI技术的快速发展,是否会导致社会结构的洗牌,让穷者更穷、富者更富?

教科书删除地动仪:教科书要怎么编?

一则旧新闻近日又引发讨论热潮:曾深入人心的张衡与地动仪模型,已经从2016年的部编本教材、2017年的统编本教材中移除;换言之,新版的初中历史教材,已经没有“张衡地动仪”了。

删地动仪到底是怎么回事儿?之前的地动仪有哪些问题?公众号“短史记”的作者谌旭彬较为详细地梳理了前因后果:

事实上,“张衡地动仪”早已失传,我们所有有关该发明的信息不过《后汉书》上关于地动仪的196个字。而教科书上那个广为人知的地动仪模型,实际上是学者王振铎借鉴日本地震学者荻原尊礼的“直立杆原理”在1951年制造的。

谌旭彬指出,王振铎的卵状复原模型实际上并未获得学界接受。学者冯锐便提及,中国地震学的几位奠基人李善邦、傅承义、秦馨菱曾在1976年直言不讳地当面告诉王振铎直立竿的原理性失误。然而,在尚未经过严格检验的情况下,该地动仪模型已经成了介绍地动仪时的标准配图,不仅进了教科书,还作为特种邮票在全国流传,以至“王氏地动仪”的形象深入人心。

若“王氏地动仪”与张衡地动仪相去甚远,那么真实的地动仪又该如何呢?值得注意的是,早在王振铎之前,从19世纪80年代开始,已有国外学者试图复原地动仪了,但无论是日本学者服部一三,还是英国地质学家约翰.米尔恩,均未成功复原张衡地动仪。从上世纪60年代开始,国际学界对张衡地动仪科学价值的质疑日益加深,奥地利人雷立柏甚至在1999年出版的《张衡:科学与宗教》中激烈批评道,“对张衡地动仪的迷恋正是华夏科学停滞特点的典型表现”。

作为应对,中国地震局地球物理所研究员冯锐在2004年成立了国家“张衡地动仪科学复原”课题组。2005年,冯锐团队制造的“冯氏地动仪”通过了“中国科学院、国家博物馆、中国地震局等单位的地震学和考古学专家”的验收。不过,新的地动仪复原模型目前仍未获得学界一致接受:尽管冯锐的地动仪能成功感受横波并科学地吐丸,部分学者认为,冯锐的工作与其说是“复原”,更像是对张衡地动仪的重新设计,其形制并未完全符合古史记载。

无论如何,仅就地动仪本身看来,尽管有关张衡地动仪的学界争端至今仍未平息,至少“王氏地动仪”不符科学一事已为共识,教材删除该配图也是合理之举。

王氏地动仪模型

围绕此事的一个舆论方向,是思考“我们的教科书到底应该如何编写”。公众号“光明时评”的媒体评论员敬一山则便指出,教材并非不能介绍张衡地动仪,关键是以怎样的方式呈现。在他看来,此前教材对张衡地动仪的阐释,更带有“价值宣导”的色彩:即,强调其作为“四大发明”的开创性,映衬古代科技的辉煌成就。然而,相比起纯然将地动仪作为“中国古代科技领先世界的例证”加以宣传,不如客观呈现地动仪所带来的疑问,让孩子们不仅仅止步于对中国历史成就的骄傲和自豪,而是去思考历史上地动仪的原理,思考古代科学和现代科学之间的关系。敬一山坚持,尊重事实,启发思考,或许比价值观先行的教育更有意义。

但另一方面,我们看到,有关教科书删地动仪一事舆论其实早已超出了地动仪和教科书本身,而指向了一套有关中国历史叙事的“信任危机”。自媒体上一篇《既然把地动仪删了,麻烦把这些也改改》便指出,除了地动仪外,教科书上有关司南、灞桥纸、活字印刷、巫师扁鹊之类的叙述都应该删掉,甚至有关中国到底有几千年文明的叙述也未必准确,“四大古国”、“四大发明”则更像是出于民族自豪的一种修辞。

新浪微博博主“仗剑天涯新垣平”迅速对此文提出批驳。作者指出,《既》一文看似公允地揭露“史实”,却在历史事实陈述上存在诸多偏颇和误差,有过分贬低中国之嫌。在作者看来,尽管我们确实应避免过分美化历史,从历史的成就中找寻民族自信,但对历史问题应保持平心静气的剖析态度——有时候,“从迫不及待、断章取义的自我否定中寻找看破真相的优越感,同样是一种荒诞”。

    责任编辑:伍勤
    校对:丁晓