• 简中
    • 繁中
  • 注册
  • 查看作者
  • 智能时代嘅手工劳动者:调教AI、月薪三千

    转载:本文嚟自微信公众号“放大灯”(ID:guokr233),作者:吴云飞,编辑:李拓,转载经授权发布。

    白女士坐在电脑面前,佢嘅全部嘅工作内容,就是“教”人工智能认图、认字,仿佛佢是初识呢个世界嘅小孩子。

    在佢所供职嘅县城公司,同佢一样重复住简单机械工作嘅同事,近200人,如果将视野放到全国嘅“人工智能数据标注公司”,已有上百万人从事呢个职业:人工智能数据标注师。

    佢哋是智能时代最后嘅手工业者。

    数据标注师嘅主要工作是——调教AI。

    佢哋嘅任务一开始比较最简单,比如判断句子意思系咪通顺;进阶任务是识别图像、验证码。其中识别图像包括做人脸标识,这要求佢喺各种角度、遮挡、清晰度嘅条件下,标注出五官、脸型嘅轮廓同位置,每张脸上要标出100多个识别点。

    智能时代嘅手工劳动者:调教AI、月薪三千

    人脸识别示意丨arXiv:1706.01789

    咁调教AI嘅本质,系对图像数据做结构化处理。

    一粒苹果在不同光照、遮挡嘅环境下,人只要睇一眼都可以准确识别。虽然人类脑部处理其信号嘅原理在学界仍有争议;但计算机睇见苹果,只能接收到一张由不同像素点组成嘅网络,而无办法从整体进行识别;并且晴日下嘅苹果同雨日下嘅同一粒苹果,会系计算机输出不同嘅像素点阵。

    因此只有人哋将视频、图像、文字、声音等信息进行标注嘅结构化处理后,先能为计算机所识别。

    呢种对人工智能系统投放有标注嘅数据嘅过程,就是人哋常说嘅“训练”。人工智能嘅先进程度同其训练嘅数据规模同准确度密切相关,数据越多、越准确,系统就越智能。

    智能驾驶、病例诊断、名片OCR、手势符号、农产品、商品信息、金融服务……高大上嘅人工智能已经应用到‌城市生活嘅方方面面。科技巨头哋围绕人工智能,展开‌奋力嘅竞逐。

    分布在全国各地百万“人工智能标注师”哋嘅标注效率,正左右住科技巨头人工智能竞赛嘅胜负。

    百万青年做数据

    清涧县,黄河边仅20万人口嘅一座小县城,位于陕西省榆林市。2019 年,阿里巴巴在此同当地政府政府合作开发‌名为“Ai 豆”嘅扶贫项目,根据协议,阿里提会为产业园供订单并且负责培训,而当地政府出场地同设备参同共建。项目招聘会明确倾向社会就业弱势群体,并且要将80%嘅收入用于薪资发放,并唔得进行利润分红[1]。

    Ai豆员工嘅主要工作内容就是为人工智能做标注,是县城入面雇佣人数最多嘅一家企业。除此之外,全国7省8县都设立‌Ai豆扶贫合作项目,截至2020年底,共计吸纳近800人就业。

    Ai豆项目是个纯粹嘅扶贫项目。但阿里巴巴相关人士都坦陈,但剩只靠数百人嘅“Ai豆”扶贫项目,远远唔可以保障阿里人工智能嘅后勤供畀。“成个行业嘅需求量实在太大嘎啦。”

    事实上,包括阿里在内,每一个拥有大量数据需求嘅科技巨头均建立‌各自嘅数据标注供应链。其中众包平台是佢哋获得标注服务嘅重要方式,例如腾讯搜活帮、百度智能云、京东众智、科大讯飞爱标客等,均是咁。

    众包是一种灵活用工模式,参同者无需同平台或数据需求方建立雇佣关系,仅通过网络完成协作,根据完成嘅任务包获取记件收入。

    智能时代嘅手工劳动者:调教AI、月薪三千

    腾讯搜活帮截图

    通过众包模式,科技巨头能快速聚集大量闲散、弹性嘅劳动力,无论是全职或是兼职,剩系要完成培训便可直接上岗。对企业而言,先完成任务再付费都是非常稳妥嘅选择,并能外化企业薪资负担。

    笔者都试下在腾讯搜活帮平台上体验众包任务。喺通过文本识别、搜索相关性、时鲜性、内容判断等多种考试后,就可以抢单对应任务。喺通过难度相对较高嘅文本识别考试后,完成‌两套奖励为150元宝嘅任务,耗时约3分半钟。

    每1000元宝能兑换1元钱,按正常工时计算,每月收入能在1800元左右。随住操作熟练度嘅提升、高难度题目奖励嘅提升,完成任务嘅效率都会随之提高。以目前嘅任务奖励计算,熟练嘅标注师有望获得3000元甚至更高嘅薪水。

    智能时代嘅手工劳动者:调教AI、月薪三千

    腾讯搜活帮任务界面

    选择众包或者第三方公司提供标注服务可以更灵活,但如果需要高质量或稳定嘅标注服务,或涉及核心知识产权嘅内容,自建团队更稳妥。

    有媒体报道,喺百度山西人工智能数据产业基地,就拥有超过3000位标注师,主要涉及自动驾驶、人脸识别等内容标注,其中86%嘅员工为90后。今日头条公司在日津、济南、武汉各地,都招募‌4万名数据标注师。

    除咗大型互联网公司自建同组织众包标注师,市场上仲活跃住诸如龙猫、云测、数据堂、爱数智慧、海日瑞声等第三方服务商。

    林林总总,全国标注师就业总人数已超过百万。

    2020年4月26日,人力资源同社会保障部发文正式宣布,“人工智能训练师”正式成为新职业,并纳入国家职业分类目录。该文同时披露,仅阿里巴巴业务生态内,人工智能训练师从业者已逾20万人;预计到2022年,国内外相关从业人员有望达到500万[4]。

    智能时代嘅手工劳动者:调教AI、月薪三千

    人社部发布通知

    人社部发布新职业信息,标志住呢个群体规模同影响力都在壮大,以至于全面进入‌监管视野,相关嘅职业规范、行业培训体系规划好可能接踵而至。

    最后嘅手工业者

    日空嘅颜色、路边嘅风景、交通路况、CT 片显示嘅病灶……所有视觉、声音或者文字信息,都隐含住呢个星球嘅秘密。若是数据嘅标注不需要成本,人类应该想等机器感知成个物质嘅星球。

    在机器学习嘅过程度,参同嘅数据集被分为训练集、验证集同测试集,机器嘅任务就系对根据训练集嘅数据点进行拟合、通过验证集调教预测模型,并测试集进行准确度评估。

    像白女士那样手将手教人工智能学习嘅方式,被称为“有监督”嘅机器学习。但当人工智能被逐渐养熟后,佢自身嘅识别能力同模型拟合准确度将不断提高,进入人机协作模式。

    直至人工智能会在某模型嘅注准确度同效率完全超过人类,此时佢便要走人工标注,进入无监督机器学习。

    理论上说,每一个垂直场景随住技术发展,人工智能都有可能进入无监督学习状态。

    今年两会期间上汽集团董事长陈虹嘅提案显示,一辆自动驾驶测试车辆每日产生嘅数据类型包括车辆行驶数据、车身数据、操控数据、视频数据、图像数据、坐标数据等数十类,总量最高可达10TB[5]。

    2020 年 8 月 15 日,特斯拉创始人马斯克宣布要建立名为“Dojo”嘅神经网络训练机器项目,用于处理特斯拉汽车驾驶过程中摄像头产生嘅数据,并鼓励 AI 以及计算机芯片工程师加入该团队[6]。

    目前每辆新款特斯拉配置有八粒摄像头,产生嘅数据量更是远超10TB。

    所以标注师呢个职业,未嚟会消失么?

    一位不愿透露姓名嘅自动驾驶公司工程师向笔者表示,人工智能应用嘅领域好广泛,每个细分领域嘅处理方式好不一样,“至少在短期内,我所在嘅图像识别领域仲唔可以走标注师。”

    佢例举‌四点理由:

    1. 计算机视觉领域仍然处于早期阶段,神经学习领域在最近5年才有‌飞跃式提升,目前仲喺度积累数据;

    2. 在计算机视觉领域,学术层面的确有无监督学习嘅训练方式,但是在实际图像识别训练嘅角度上,目前每一家都仲是进行有监督嘅学习;

    3. 在市场嘅角度睇,无论是车企本身仲是自动驾驶解决方案供应商,仍处于构建自己核心能力嘅阶段。喺呢种竞争环境下,大家都没有建立公用数据库嘅动力,因此自有结构化标注嘅数据嘅价值就会更加凸显;

    4. 从技术嘅角度睇,目前市场上识别技术仲未有出现公认嘅最优解。各家嘅算法都有不同嘅技术路线,一旦算法嘅更迭,仲要是需要新数据去训练同进化。因此在算法公认最优解出现之前,人工对数据做标注依然非常必要。

    佢仲补充道,真实世界总有意想不到嘅情况。没人知道人工智能会将挂载自行车嘅吉普车或是运载住住好几辆小车嘅重型卡车识别成乜嘢样。更准确嘅人工智能,仍然需要海量、多样且真实嘅数据持续补充。

    另有数位相关领域从业者认为,目前人工智能应用场景仲喺度不断深化,诸如疫情期间大量公司嘅人脸标注工作就重新围绕口罩遮挡嘅场景做‌处理,喺工业垂直场景、医学诊断等场景度,人工智能嘅应用仍处于萌芽阶段。因此公司对标注师嘅技能要求可能会越嚟越高,但在可预见嘅3~5年,数据标注产业嘅规模应该会确定性嘅成长。

    曾几何时,人哋担心AI嘅终局将将人类从简单、机械、重复嘅劳动中解放出嚟,从此人类剩系要要专注于需要创造、情绪、社交互动嘅岗位。

    却未曾想过,构建人工智能嘅过程,竟然创造出众多简单、机械、重复嘅劳动岗位。

    或者,佢哋就是人类最后嘅手工业者。

    后记

    白女士已经工作一年多嘎啦,佢形容这份工作嘅感觉就是——“刷题”。不过刷住刷住,都慢慢觉得有‌些意思,比如在遇到不认识嘅图片或文字时,查查资料都可以学到点新嘢。

    相关人士都表示,由于收到‌好多县级政府嘅合作邀约,阿里今年都有意持续扩大Ai豆扶贫项目,拓展更多试点。但作为扶贫项目,呢个简单、机械、重复嘅行业能否做到“授人以渔”?

    佢回复‌以下几点:

    1. 绝大多数标注师文化程度较低,通过培训佢哋起码掌握‌电脑嘅基本操作能力;

    2. 业务嘅订单分细分‌好多诸如金融、医疗、交通等行业领域。如果唔系标注工作,佢哋可能永远都唔会接触到呢啲行业,而理解行业专用词汇嘅过程就是学习;

    3. 最关键嘅系,标注师是佢喺县城就业普遍嘅最优解,标注师收入通常比当地销售或收银员要高一啲。

    至于外界对标注行业嘅“数据富士康”评价,佢回应讲:“是唔系好事,仲要是要企喺佢哋嘅立场去睇问题。”

    当机械代替人力成为时代嘅强权,有批人失去‌工作,但围绕住机械新创造出‌能源、制造、维修、运输等产业,另一批工作又诞生嘎啦。

    在可预见嘅将嚟,人工智能都许会成为新嘅时代权力高点,届时围绕人工智能,全新嘅职业秩序又将被重新建立。

    至于人工智能会带嚟乜嘢样嘅未嚟,都只能交畀更远嘅未嚟去回答嘎啦。科幻电影《银翼杀手 2049》度,华莱士有一句话:Every leap of civilization was built on the back of a disposable workforce——每一次文明嘅跃进,都建立在可被抛弃嘅劳动力基础之上。

    且睇睇标注师哋喂养长大嘅人工智能,将反哺畀我哋一个点样嘅世界。

    References:

    [1] 清河县Ai豆项目招聘

    链接

    [2] 锐图:等自动驾驶学会“科目一”:探访人工智能背后嘅数据标注师. 2020.8.18

    链接

    [3] 石三香:没有呢啲脏乱累,边儿嚟嘅“今日头条”.2020.3.12

    链接

    [4] AI战“疫”崭头角——“人工智能训练师”新职业正式发布

    链接

    [5] 搜狐汽车:聚焦两会|上汽集团陈虹:提高车规级芯片国产化率 加强汽车数据安全保护.2021.03.03

    链接

    [6] 吴昕,力琴. 在线招聘AI或芯片人才、扩充数据标记团队,马斯克嘅「超级怪兽」1.0最快明年完成. 机器之能.2020.8.17

    链接

    cantonese.live 足跡 粵字翻譯

    2021-03-23 11:35:19

  • 0
  • 0
  • 0
  • 173
  • 请登录之后再进行评论

    登录
  • 任务
  • 发布
  • 偏好设置
  • 单栏布局 侧栏位置: