• 简中
    • 繁中
  • 注册
  • 查看作者
  • 科技公司越嚟越好,这群参同创造嘅人却在变成「工具」

    转载:本文嚟自微信公众号“极客公园”(ID:geekpark),作者:biu,转载经授权发布。

    如果只是用供需呢种单一标准去慰劳呢啲「困在系统入面嘅人」,系咪足够公平?

    「人工智能会改变世界,噉谁会改变人工智能?」这是 AI 科学家李飞飞嘅追问。15 年前嘅 AI 界,普遍信奉更好嘅算法就能带嚟更好嘅决策,但李飞飞意识到‌呢种思路嘅局限:就算是最好嘅算法,如果没有好嘅、能够反映真实世界嘅训练数据,都没办法用。于是,李飞飞住手构建大规模嘅标注良好嘅图片集 ImageNet。

    从今日睇,ImageNet 嘅革命性不言而喻。佢嘅衍生赛事成‌筛选算法竞赛中嘅奥林匹克,各大机构纷纷拿佢作为练兵场,测试自家算法优劣。一时间,各种突破纷纷涌现。2012 年,Geoffrey Hinton 基于卷积神经网络嘅 AlexNet 拔得头筹,深度学习都因此腾飞。十几年嚟,佢全程见证‌深度学习在视觉领域嘅全面兴起。

    计算机视觉是家阵时 AI 发展最好嘅一个方向,而 ImageNet 是呢个领域入面经典嘅数据集,不夸张噉讲,如果没有佢,而家嘅面部识别都会是一种奢望。但佢产生嘅更重大嘅意义,是等人哋意识到构建优良数据集嘅工作是 AI 研究嘅核心,数据同算法一样至关重要。

    最早期,ImageNet 需要有人手动查找、标记图像并将其添加到数据集中。李飞飞想雇用本科生,每个钟头付 10 美元,但经过计算,想到达到佢预想嘅规模,本科生哋不食不喝得做数十年。最终,事有‌转机,佢注意到‌亚马逊众包平台 Mechanical Turk。喺呢个平台上,一啲科研人员会发布一啲琐碎任务,比如畀图像加标签、鉴定色情照片等。每个能坐在电脑前嘅人都可以接活,完成后就能获得金钱回报。

    就咁样,嚟自 167 个国家嘅 49000 人次,花费两年半嘅时间完成‌这项伟大嘅工程。可以说,ImageNet 因为众包才得以出生,但却鲜少人会关注那群同样参同创造嘅数据标注员。佢哋是真人,只不过平台将服务背后嘅人「抽象化」嘎啦,等人感觉呢啲任务是由计算机自动执行嘅。佢哋是真人,点击‌无数次「图片入面系咪有皮艇」同「图片入面系咪有暹罗猫」。

    今日,几乎每个筹备上市嘅公司都恨不得在招股书上写满「AI +」,产业「言必称人工智能」都就意味住人哋对数据有住极大嘅渴望。数据标注员都因此扩展‌好几个数量级。Mechanical Turk 而家稳定嘅活跃零工有 10 到 20 万,喺人力成本低廉嘅地区,甚至形成‌特色「数据标注村」。

    但有啲反直觉嘅系,这群「创造者」催生‌ ImageNet,等佢开启‌深度学习乃至人工智能新嘅篇章,佢哋最后拿到嘅钱却低得可怜。最近,几所知名大学发表论文 The Limits of Global Inclusion in AI Development,揭示‌一个现实:完成 ImageNet 嘅数据标注零工哋,时薪中位数只有 2 美元左右,只有不到 4% 嘅标注员拿到‌超过 7.25 美元嘅时薪。作为对比,而家美国一啲地区嘅最低时薪都提高到‌ 15 美元。但因为呢啲兼职者不算员工,因此不受最低时薪法律保护。

    佢哋拿住比最低时薪仲低嘅钱,喺无数次嘅点击度,完成‌一场开日鸿蒙嘅革命。这群同样在为 AI 奠基嘅「隐形人」,应该得到更多人嘅重视。

    有几多智能,就有几多人工

    现代 AI 依赖各种算法处理规模达数百万嘅示例、图像或文本素材。但在此之前,首先需要由人工在图片数据集中手动标记出对象,再将标记完成嘅大量图像交付畀算法以学习模式,掌握点样准确识别对象。

    极客公园(ID: GeekPark)早前就记录过一位数据标注女工嘅工作:小雪正喺度将一张张快递单或家谱上嘅手写体上嘅字母标注出嚟,讲畀机器 i 可以有多种写法。咁样嘅工作并唔简单。手写嘅 i 可能是顶上一点加上一竖,都可能是朝后弯嘅小勾,更潦草一点就同数字 9 一样……小雪嘅笔记本上密密麻麻地迫满‌呢啲像字更似图嘅墨迹。佢做嘅,是一种介于手写录入同图像标记之间嘅工作。同服务于智能驾驶嘅街景标记、服务于智能医疗嘅人体标记、服务于语音交互嘅声音标记一样,佢哋共同嘅行业学名叫做「人工智能数据标注」。

    即便技术门槛低,但这份重复性极高嘅工作,对标注精度有住极高嘅要求,「95% 以上嘅准确率是理想情况。」如果用于训练模型嘅数据精度低于要求,噉 AI 就会「指鹿为马」。

    AI 行业对数据嘅渴求,催生出‌一批数据标注众包平台,比如前面提到嘅亚马逊 Mechanical Turk,仲有谷歌 Crowdsource,国内嘅京东众智、百度众测等。而在呢个平台上兼职嘅人,都大多是打零工心态——利用闲暇时间赚点小钱。当然,佢哋都不全都可以意识到自己经手嘅数据其实系一啲科技企业赖以生存嘅核心资产。

    比如,美国创业公司 Sama 专门为 AI 项目提供训练好嘅数据,其众包平台面向全球开放,上面大多是非洲同东南亚零工。数据显示,呢啲人平均每日只能赚到 8 美元(约 50 元人民币),而依靠标注好嘅数据,Sama 在 2019 年拿到嘅 A 轮融资就接近 1500 万美元,营收超过 1900 万美元,其客户包括谷歌、沃尔玛同福特。

    科技公司越嚟越好,这群参同创造嘅人却在变成「工具」

    2005 年就启动嘅 Mechanical Turk,创办初衷就是为‌等更多零工参同进嚟,帮预算不多嘅科研机构识别海量 AI 无办法归类嘅图片。但随住更多 AI 公司嘅涌入,零工同任务发布者嘅关系都在「恶化」。喺呢个平台上,任务发布者拥有至高无上嘅权力。佢哋不仅可以任意调整任务价格(最低至 1 美分),仲可以拒绝任何已经完成嘅任务成果,甚至是故意缩短任务建议完成时间,使其大幅低于实际完成时间,以吸引工作者并降低成本。

    呢类低薪隐形劳动,都走到‌「线下」,喺中国一啲人力成本较低嘅地区,仲要发展出‌「数据标注工厂」。目前嘅数据标注工厂,多集中在河北、河南、山东、山西等地区,这同以富士康为代表嘅传统人力密集企业嘅选址偏好重合度极高——以更低廉嘅劳动力成本支撑起聚集在首都嘅人工智能底层数据需求。

    印度都有不少「数据标注村」,佢哋为欧美 AI 公司服务,Facebook 就曾将部分社交网络上内容标注嘅工作外包畀‌一家印度公司。

    佢哋唔系工具,是参同创造嘅人

    一项研究显示,Mechanical Turk 上嘅零工嘅动机大多是「享受其中」,都有好多人表示是因为当地没有好嘅工作机会。乍睇之下,双方嘅需求同兴趣互相吻合。但同样不可忽视嘅系,呢类低技术门槛嘅工作,本质上并唔可以带嚟任何技能上嘅提升。零工哋牺牲掉‌自己嘅本可以拿嚟自我提升嘅机会成本。

    虽然对于非洲同东南亚嘅工作者嚟讲,8 美元嘅日薪可能足够维生,但呢啲并唔可以改变其创造嘅价值被大大压缩嘅现实。对于 Sama 咁样嘅公司嚟讲,佢哋用极低成本拿到嘅数据,创造‌千其美元级别嘅收益,但呢啲收益同其背后(一部分)真正嘅劳动者几乎毫无关系。

    在呢种境况入面,数据标注员更似是价值链条入面嘅「可消耗资源」,是被无尽压缩成一次性工具嘅角色,鲜有人关注佢哋个人嘅留存。

    同数据标注员类似嘅,仲有社交网络审核员。佢哋受雇坐在电脑屏幕前,用审判嘅眼光睇住互联网上嘅帖子。赤裸嘅色情、嘶鸣嘅枪响、血腥嘅暴力都直白地铺在佢哋嘅屏幕上,呢啲图片、视频是被互联网平台用户举报后聚集到审核队列入面嘅。佢喺同互联网嘅黑暗面贴身肉搏,做住算法仲唔可以完全做到嘅事,好似社交网络中嘅「人肉盾牌」,网络审查员受到嘅精神伤害却好少有人关注。

    呢啲审核员嘅薪水同样低廉。Facebook 正式员工嘅平均年薪是 24 万美元,但据 The Verge 前年嘅调查,替 Facebook 做平台审查嘅外包劳工薪水却只有前者收入嘅零头——工作时薪仅 15 美元(年薪 2.8 万美元)。

    佢哋都在畀「信息行业嘅富士康」打工,做嘅系被上层切分得异常细微嘅工作,呢啲工作简单、单调、重复,但在用人方睇嚟,呢种切分能最大程度保证准确度。但如果只将这群人困在一个异常狭小嘅工作空间入面,噉佢哋是没法脱离「工具」嘅角色成为「创造者」嘅。

    Sama 都持一词,公司开出嘅日薪是 9 美元,佢哋表示希望借此帮助嗰啲日薪低于 2 美元嘅零工。「我哋唔会提供可能破坏当地劳动市场嘅薪酬水平。如果我哋畀出嘅薪酬过高,就会畀成个社会带嚟麻烦。比如,但系能会对我哋员工所生活嘅社区嘅住房成本、仲有食物成本等带嚟潜在负面影响。」公司 CEO Leila Janah 说道。

    市场供需需要考量,但人嘅成长都需要被重视。前提是用人方真正将佢哋当成「人」而非只是「工具」睇待。论文提到,解决呢个问题嘅潜在方案是,等更多人参同到 AI 研究嘅核心环节,尤其系 AI 模型同项目嘅研发、实现同部署,从而在欠发达国家培养同锻炼更多本土 AI 人才,之后再鼓励佢哋谋求管理岗位,或者支持其创业。相比之下,做再多数据收集同标注咁样嘅工作,都无办法提升佢哋嘅能力。

    科技越好,佢哋越没有价值

    如果说数据是原油,噉数据标注员,呢啲挖掘数据、标记条目嘅矿工哋,呢啲在价值链条最前端嘅创造者,是不该被遗忘嘅。这群人喺度帮助 AI 不断成长,但最终佢哋就并没有真正帮助到自己。越嚟越好嘅科技,但系能会等佢哋越嚟越没有价值。

    先抛开微薄嘅收入,更讽刺嘅系,呢啲零工可能会被佢哋一手训练出嚟嘅 AI 歧视。零工哋大多嚟自非洲同亚洲,有色人种居多。但在 AI 训练度,输入嘅数据却往往是倾向西方语境。呢啲数据主要嚟自于西方语境,并带有人类社会嘅刻板印象,由此得嚟嘅模型无办法对不同于西方文化嘅人同物体做出准确判断,仲要会产生类似人类嘅性别或种族偏见。

    那篇论文嘅最大意义,就在于等更多人睇到嗰啲「困在系统入面嘅人」。呢啲没有上升空间嘅零工,乍一睇同平台方嘅需求相吻合,但不知不觉度,前者成为被盘剥嘅角色。这群人好似外卖员、快递员一样。成长空间狭小,喺算法同平台嘅支配下,呢啲劳动者都被迫压得喘不过气。

    科技公司在享受住 AI 畀佢哋带嚟嘅巨大红利嘅同时,却等这群人成‌不可见嘅「幽灵工作者」。如果只是用供需呢种单一标准去慰劳呢啲「困在系统入面嘅人」,系咪足够公平,这是我哋都需要思考嘅。

    科技公司越嚟越好,这群参同创造嘅人却在变成「工具」

    18 世纪,一架国际象棋机器(The Turk)在欧洲巡回比赛,仲曾经打败过富兰克林同拿破仑。这台机器曾被誉为人工智能嘅伟大壮举,但是后嚟人哋发现佢根本唔系机器,而是一个机械木偶,被藏在棋盘下方嘅人类象棋高手控制住。有意思嘅系,21 世纪,亚马逊运营起‌机械版 Turk——Mechanical Turk。

    改革并非一朝一夕之事,但我哋要先睇到嗰啲藏在「棋盘」底下嘅辅助人工智能嘅人。

    cantonese.live 足跡 粵字翻譯

    2021-03-19 14:07:11

  • 0
  • 0
  • 0
  • 155
  • 请登录之后再进行评论

    登录
  • 任务
  • 发布
  • 偏好设置
  • 单栏布局 侧栏位置: