我在赛博流水线工作,月薪三千,身心俱疲
办公室里几排电脑闪着荧光,屏幕上划过相似的街景图片,文蓬昕和同事们紧盯着屏幕,房间里充斥鼠标点击的“沙沙”声。
这是文蓬昕的第一份实习——数据标注。2020年3月,包括“数据标注员”在内的“人工智能训练师”正式成为国家职业分类目录中的一个新职业。“无所不知”的AI模型并非凭空获得知识与智慧,而是有赖于海量数据集的“喂养”,这背后是数以万计的人力劳动。
文蓬昕今年读大四,专业是计算机。他原本希望自己能够在这份与“人工智能”“程序”“算法”相关的岗位上发挥课堂所学专业技能,然而入职后他才发现,他的工作其实是用画图软件描出道路图片中的车、人行道、马路,打上不同的标签。这些标签将作为“饲料”投入人工智能的训练。
当世界都在关注人工智能掀起的技术革命浪潮,鲜有人看见黑箱幕后的人工——赛博流水线上的数据标注员。
一份不需要门槛的工作
如何才能成为一名数据标注员?
《人工智能训练师国家职业技能标准(2021年版)》描述了数据标注员应当具备的能力特征:“具有一定的学习能力、表达能力、计算能力;空间感、色觉正常”,普遍受教育程度则是“初中毕业”。
我们爬取了boss直聘、前程无忧、猎聘招聘平台,以“数据标注员”“人工智能训练师”为搜索关键词,从招聘信息中得到了一幅数据标注员的“工作画像”。
688条招聘信息中,近半数公司对求职者的学历要求是大专。根据招聘详情的描述,成为一名数据标注员只需“具备基础电脑操作技能”。超1/3的公司在招聘启事中提及,会为新入职的标注员提供培训。可以说,这是一份几乎不需要门槛的工作。
“简单”“易操作”“好上手”是众多受访者对数据标注工作的印象。曾经从事数据标注兼职的刘木只用半天就完成了入职培训,对照公司提供的资料,他很快能熟练将地下车库中的车辆、车位、缓冲带、地锁分门别类框选出来。在他看来,“能用电脑,就能做标注。”
根据不同的标注类型,标注员们在电脑上的操作方式有所区别。视觉类标注主要是用鼠标拉框、描点,自然语言类标注是在软件上对语句划分,打上分类标签;语音标注则要戴上耳机进行语音转写。这些电脑操作在简单培训后基本都可以迅速上手。
▼具体操作方式见视频
对于这样一份对员工自身技能几乎没有要求的工作,招聘信息对标注员的要求更多在于员工个人的性格与素质,“工作认真负责”“细致、有耐心”“吃苦耐劳”被提及的频率位居各公司招聘细则前列。这些对个人素质的要求,与数据标注工作的体验分不开。
▼数据标注操作示意
“不需要学历,没有含金量,也不需要智商。”文涛大专毕业后一直从事数据标注工作,他对自己的定位是“办公室里的流水线工人”,无聊、乏味与重复构成他每日工作的底色。
知乎、豆瓣关于“数据标注”的169条关联文本中,“枯燥”是最常出现的关键词:八小时连续坐在电脑前,几百张图片里是相似的街景,只有手和鼠标不停地动。操作熟练后,一名数据标注员一天能拉1000-3000个框,都是同样机械的重复。
事实上,简单好上手并不能与“轻松”画上等号。一张人脸图片上,往往需要准确标出几十甚至上百个点;普通的街景图片中,除了车辆与马路,每一道栏杆,每一条线,路上的行人、电动车,甚至途经的一条小狗都要被分门别类框选出来,打上标签。一些远处的物体放大后模糊到只剩几个像素点,只有精神高度集中才能不出错。
亦有曾经从事语音标注的网友在社交平台表示,公司提供的语音素材中有时存在噪音甚至脏话,耳机里充斥着不同方言的辱骂,不断消耗标注员们的心情。
工作过程中,标注员们需要承受“质量检测”带来的压力与挫败:未能与物体契合的框线,未被准确分割的语音都会被判定为不合格,打回全盘重做。标注员杨宽就遇到过这样的情形,整整两天都用来修改不合格的项目,对于计件收费的标注工作而言,这意味着之前花费的时间和精力“一分钱都拿不到”。
久坐在电脑前,数据标注带来的职业病同样令标注员担忧。与数据标注身体感受相关的文本中,多数标注员都提及长时间盯着屏幕对视力造成的损害:“时间长了直接就是机器人视角,走到哪里都是框框。”
视力下降,头晕眼花,一连数小时头戴耳机带来刺痛,颈椎、脊椎的不适......结束一天的工作,来自开封的数据标注员武晓仪的眼睛里常常布满红血丝,每天早晨起床“疼得要命”。三个月实习期过去,与文蓬昕一同进入公司的实习生已经戴上眼镜。
“工资太低了,不如干客服”
身心体验之外,数据标注员还面临着更多现实困境。
巨大的标注任务量往往与绩效挂钩,加班、单休甚至无休成为标注员的工作常态。望不到的职业前景则进一步制约他们在行业深耕的意愿。与一般的劳务派遣不同,数据标注常以项目为单位,收入并不稳定,项目结束后就可能面临“失业”。文涛认为,数据标注只适合作为过渡性的工作,学不到技能,亦没有升职空间。如今,他辗转于不同的数据标注项目,坦言这份工作“就是混日子的人来做做”。
169条关联文本中,不少标注员表达了对薪资的不满:工资发放标准模糊,五险一金等补贴缺失。部分公司以“有责底薪”的方式对员工进行约束,标注员们必须在固定时间内完成指定的标注任务量,否则会被扣除部分底薪。
武晓仪所在的标注公司就实行了有责底薪。公司规定员工每个月最少需要标注3000张图,以她的速度,一天最多只能画50张,即使“除了吃饭、上厕所,其他时候一刻不停地画”,依旧会被扣除工资。手腕被鼠标磨得红肿,坚持二十多天后,她决定辞职。
AI行业走在时代的前沿,赛博流水线上,数据标注员们的薪酬却并不如“人工智能”的头衔一般光鲜。根据招聘网站信息,在北上广深四个一线城市,数据标注岗位的平均最低薪资只有6050元;而在人力成本更为低廉的四、五线城市,如山西临汾、江西新余,数据标注员的平均最低月薪只有2000多元。
文涛的月薪通常在税后3000元左右,待遇不好时则只能拿到2500元。对于文涛工作、生活的无锡市,他认为这份薪资还是“太低了”——“不如去干客服”。根据“boss直聘”统计,无锡客服专员平均月薪在4870元至5256元之间。
李安琪从2018年开始做了5年数据标注员,辗转三家公司。她知道,由自己标注的数据会被用在机器人上,这让她“很有成就感”。说完,李安琪顿了一下,又说:“但这个工资没有成就感。”她现在已经离开这个行业,回到山西老家做一名销售。
数据标识公司本身被视为利益潜力大增的投资标的。据国际数据公司(IDC)预测,到2025年中国数据标注市场规模将突破102亿元。面对一片“蓝海”,为何数据标注员的薪资待遇依旧有限?
这与数据标注的行业模式有关。目前,数据标注行业的主流模式是外包。由于成本高、管理难度大等原因,科技公司很少完全自建数据标注团队,而是将订单交给专门的数据标注公司和团队来执行。
据观研天下《中国数据标注市场发展深度调研与投资战略预测报告(2023-2030年)》整理,第三方数据标注服务商提供了整体数据标注市场79%的服务。以外包为主的项目运营模式,也影响了数据标注企业的规模大小:以中小企业为主,多数只是工作室和几十人的小团队。
真正承担标注任务的中小企业往往经过层层外包才能接到标注任务。从有标注需求的甲方公司到数据标注员,每层外包抽取一定费用后,标注员最终到手的工资就所剩无几。根据新京报贝壳财经报道,有甲方公司项目负责人透露,一条报价9毛的数据,最后分到标注员手中单价可能只有几分钱。多位受访对象表示,标注一个框或者描点的单价在3-4分钱左右。
“教会徒弟,饿死师傅”?
数据标注作为AI基础数据服务,在整个AI数据服务产业链中处于中游,衔接着上游的数据生产和下游算法研发。
现存的大量数据为图片、视频、音频等非结构化数据,无法直接应用于人工智能算法研发。数据标注员作为“人工智能的老师”,将从上游获取的数据转换成计算机可识别的结构化数据。而结构化数据是人工智能算法开发的基石,可以让AI应用模型训练结果更加准确。
数据标注员通过拉框、标点等方式为人工智能提供学习材料,使其理解人类世界。他们教会自动驾驶的车辆在红绿灯停下,逐步解放驾驶员;教会医疗设备通过智能影像识别自动读片,快速进行疾病筛查;教会日常使用的电子设备通过扫描面部自动解锁,教会AI录音转文字复述我们说过的话。
人工智能技术依旧在向前奔驰,数据标注员们教会的人工智能,是否会取代自己原有的工作?
随着数据标注量增大,纯人工标注在成本上不再具有优势,AI自动标注成为数据标注服务商的新工具。数据采集标注行业发展至今,机器学习已经开发出了可以自己为数据打标签的模型,从而实现自我标注、自我投喂,这意味着可能将不再需要众多人工标注员。重庆一家数据标注公司的负责人梁成透露,公司的技术团队已在开发用于取代基础人力的程序。
复旦大学数据科学学院副教授陈思明接受采访时表示,人与机器共同完成的“交互式标注”已经投入使用。在交互式标注场景下,人工只需要将最复杂的部分数据进行标注,剩下的数据则基于机器算法主动学习完成。在人工智能前沿领域,研究者们还在致力研发仅需少量人工标注数据的“小样本学习”甚至无需人工标注的“零样本”模型,最终希望实现机器自主标注。
在自然语言处理领域,这可能即将成为一种现实。上海交通大学计算机科学与工程系教授赵海认为,当前自然语言处理对人工数据标注的需求压力“基本上快要消失了”,大量模型可以在没有前期标注数据的条件下被成功训练。除部分专业性很强的领域以外,数据标注员可能不再有存在的意义。
不过,这种担忧似乎还有些遥远。陈思明表示,目前而言,人工标注数据在质量上更胜一筹,从而能训练出更优越的模型,“在工业产业的运用上,其实还是需要依赖(人工标注)”。一家标注公司的负责人木马也表示,目前在2D标注的情景中,“可供人做的越来越少”,但3D点云标注过程更复杂,人工需求量依然很大。
木马清楚自己从事这种密集劳动力性质的工作,始终存在被替代的可能性,但他并不感到灰心:“目前一些软件可以初步筛选部分数据,但我们人工标的更加复杂,替代可能还远远不够。”
他隐约知道自己曾经标注过的数据都去了哪里:它们有可能在无人驾驶的系统里,也有可能在百度app右上角的相机标识背后。如果有一天遇到了不认识的动物或者植物,人工智能识别下的“拍照识图”功能会告诉他答案——“可能答案不完美或对,但肯定会有用的。”
注:文中文涛、武晓仪、木马、梁成、刘木为化名。
插画借助AI绘画工具Midjourney完成。特别鸣谢标注公司负责人小马哥、AI绘画工具Midjourney的支持。
陈诗雨,李一钒,吕晨安,吴萌萌,赵睿佳
指导老师:周葆华,徐笛,崔迪