• 简中
    • 繁中
  • 注册
  • 查看作者
  • 市场需要嘅唔系“数据科学家”,而是“数据工程师”

    神译局是转载旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外嘅新技术、新观点、新风向。

    转载:越嚟越多嘅企业关注AI,企业组织都意识到拥有相关人才同技能嘅重要性。特别是最近AI、机器学习(ML)同非ML预测分析嘅发展,以及“大数据”嘅应用,等社会对数据科学家嘅需求有   显著增长,未嚟这仲将继续。事实上,对数据科学家嘅巨大需求导致好多企业同组织出现咗人才短缺,但係,80%嘅AI项目同数据准备同数据工程有关,都许企业组织应该寻找更多嘅数据工程师而唔系数据科学家?原文标题We Don’t Need Data Scientists, We Need Data Engineers,作者Mihail Eric。

    市场需要嘅唔系“数据科学家”,而是“数据工程师”

    数据,无处不喺,我哋只会得到更多嘅数据。喺过去嘅5-10年入面,数据科学吸引   无数新人,试图尝尝这粒禁果。

    但而家数据科学嘅招聘状况是点样嘅呢?

    以下是文章嘅要点,方便嗰啲忙碌嘅读者。

    太长不睇总结:同数据科学相比,公司喺数据工程方面嘅空缺职位多   70%。喺我哋培养下一代数据同机器学习从业者嘅过程度,应该更加重视工程技能。

    作为我为数据专业人员开发教育平台工作嘅一部分,我经常思考数据驱动(机器学习同数据科学)嘅市场是点样发展嘅。

    同包括全球顶尖院校学生喺内嘅数十名数据领域嘅新入职者交谈时,我睇到   大量嘅困惑,包括乜嘢技能是最重要嘅,先能帮助候选人喺人群中脱颖而出,并为佢哋嘅职业生涯做好准备。

    仔细想想,数据科学家可以负责以下任何一个子集:机器学习建模、可视化、数据清洗同处理(即SQL纠缠)、工程同生产部署。

    你点样开始畀新人推荐学习课程呢?

    数据比语言更有说服力。所以我决定对2012年以嚟从Y-Combinator出嚟嘅每家公司所招聘嘅数据岗位做一个分析,嚟指导我研究嘅问题。

    • 公司最常招聘嘅数据职位是乜嘢?

    • 我哋常说嘅传统数据科学家嘅需求量有多大?

    • 掀起数据革命嘅嗰啲技能喺今日仲适用吗?

    • 如果你想认识全部细节同分析,请继续阅读。

    方法论

    我选择对嗰啲宣称将某种数据工作作为其部分价值主张嘅YC公司进行分析。

    点解要关注YC?好吧,首先,佢哋好好地提供   一个易于搜索嘅公司目录。

    此外,YC作为一个特别有远见嘅孵化器,十多年嚟资助   嚟自世界各地不同领域嘅公司,我觉得佢哋为我嘅分析提供   一个有代表性嘅市场样本。都就是说,请对我所说嘅话持怀疑态度,因为我没有分析超大型科技公司。

    我搜罗   2012年以嚟每家YC公司嘅主页URL,产生   一个初始池,约1400家公司。

    点解选2012年?2012年是AlexNet赢得ImageNet比赛嘅一年,有效地启动   我哋而家所经历嘅机器学习同数据建模浪潮。可以说,这孕育   一啲最早嘅数据优先公司。

    从呢个初始池度,我进行   关键字过滤,以减少必须查睇嘅相关公司嘅数量。特别是我只考虑嗰啲网站至少包含以下术语之一嘅公司。AI、CV、NLP、自然语言处理、计算机视觉、人工智能、机器、ML、数据。我都不考虑嗰啲网站链接失效嘅公司。

    这系咪产生偏差?当然有,但喺这入面,我试图尽可能地优先考虑高查全率,我会对各个网站嘅相关角色进行更精细嘅人工检查。

    有   呢个筛选后嘅库,我查睇   每一个网站,揾到佢哋发布招聘广告嘅地方(通常是职业、工作或正喺招聘嘅页面),我注意到每一个标题中包含数据、机器学习、NLP或简历嘅角色。这畀我提供   一个大约70个不同嘅公司招聘数据角色嘅池子。

    这入面需要注意嘅是:可以想象,我漏掉   一啲公司嘅招聘信息,因为有啲网站嘅信息非常少(通常是嗰啲不声张网站)。此外,仲有一啲公司没有正式嘅招聘页面,但要求潜在嘅候选人直接通过电子邮件联系。

    我没有联系佢哋,,而是忽略   这两类公司,所以佢哋不喺本分析之列。

    另一点:这项研究嘅大部分是喺2020年嘅最后几周完成嘅。随住公司定期更新页面,开放职位可能会发生变化。但我认为这唔会好大地影响所得出嘅结论。

    数据从业人员负责乜嘢?

    喺深入研究结果之前,值得花一啲时间明确每个数据职位通常负责乜嘢职责。以下是我哋将花时间研究嘅四个职位,并对佢哋嘅工作进行简要描述。

    • 数据科学家:使用统计同机器学习中嘅各种技术嚟处理同分析数据。通常负责建立模型,以探究可以从某啲数据源中学习到乜嘢,虽然通常是喺原型而唔系生产层面。

    • 数据工程师:开发一套稳健同可扩展嘅数据处理工具/平台。必须熟悉SQL/NoSQL数据库嘅处理同构建/维护ETL流程。

    • 机器学习(ML)工程师:通常负责训练模型同生产模型。需要熟悉一啲高级嘅ML框架,仲必须熟悉为模型构建可扩展嘅训练、推理同部署流程。

    • 机器学习(ML)科学家:从事前沿研究。通常负责探索可以喺学术会议上发表嘅新想法。喺交畀ML工程师进行生产化之前,往往剩系要要对新嘅最先进嘅模型进行原型设计。

    数据职位有几多?

    那么,当我哋绘制企业招聘嘅每个数据职位嘅频率时,趋势是乜嘢?呢个图睇起嚟是咁样嘅:

    市场需要嘅唔系“数据科学家”,而是“数据工程师”

    好明显可以睇出,同传统嘅数据科学家相比,开放数据工程师嘅职位多   好多。喺呢种情况下,原始统计对应嘅是,公司招聘数据工程师嘅数量大概比数据科学家多55%,机器学习工程师嘅数量同数据科学家嘅数量大致相同。

    但我哋可以做得更多。如果你睇睇各种职位嘅名话,似乎有一啲重复。

    我哋只能通过职位整合嚟提供粗粒度嘅分类。换句话说,我将描述大致相当嘅职位,整合到一个名称下。

    其中包括以下一组等价关系:

    NLP工程师 ≈ CV工程师 ≈ ML工程师 ≈ 深度学习工程师(虽然领域可能不同,但责任大致相同)

    ML科学家 ≈ 深度学习研究员/approx ≈ ML实习生(描述睇起嚟非常注重研究嘅实习生)。

    数据工程师 ≈ 数据架构师 ≈ 数据主管 ≈ 数据平台工程师

    市场需要嘅唔系“数据科学家”,而是“数据工程师”

    如果我哋不钟意处理原始计数,这入面有一啲百分比可以等我哋参考:

    市场需要嘅唔系“数据科学家”,而是“数据工程师”

    我都许可以将ML研究工程师归入ML科学家或ML工程师嘅某一栏,但考虑到这是一个略综合性嘅角色,我仲是将佢保留   下嚟。

    总嘅嚟讲,合并后,差异更加明显   !数据工程师比数据科学家嘅职位多   约70%。此外,ML工程师比数据科学家职位多   约40%。ML科学家同数据科学家职位嘅数量都只有约30%。

    总结

    同第啲数据驱动嘅职业相比,数据工程师嘅需求越嚟越大。从某种意义上说,这代表   更广泛领域嘅发展。

    5-8年前,当机器学习变得炙手可热嘅时候,公司决定需要能喺数据上做分类器嘅人。但后嚟Tensorflow同PyTorch等框架变得非常好用,使深度学习同机器学习嘅入门能力民主化。

    这使得数据建模技能商品化。

    而家,帮助企业将机器学习同建模嘅洞察力拿到生产中心嘅瓶颈喺于数据问题。

    你点样注释数据?你点样处理同清理数据?你点样将佢从A转移到B?点样尽快地完成每日嘅工作?

    市场需要嘅唔系“数据科学家”,而是“数据工程师”

    所有呢啲都相当于拥有良好嘅工程技能。

    这听起嚟可能好无聊,都不性感,但老派嘅软件工程处理数据可能是我哋而家真正需要嘅。

    多年嚟,由于酷炫嘅演示同媒体嘅炒作,我哋已经迷恋上   数据专家嘅想法,佢哋为原始数据注入   生命。但是,你上一次睇到科技媒体上关于ETL流程嘅文章是乜嘢时候?

    如果没有别嘅原因,我相信喺数据科学工作培训或教育计划度,对扎实嘅工程强调得仲不够。除咗学习点样使用 linear_regression.fit(),都要学习点样编写单元测试!

    那么,这系咪意味住你不应该学习数据科学?不,这意味住竞争会更加激烈。

    这意味住竞争将变得更加激烈。对于市场上大量受过数据科学培训嘅新人嚟讲,但系选择嘅职位会越嚟越少。

    总是需要能够有效分析并从数据中提取可操作嘅见解嘅人,但佢哋必须是优秀嘅。

    从 Tensorflow 网站上下载一个 Iris 数据集嘅预训练模型,但系能已经不足以获得这份数据科学工作嘎啦。

    但好明显,随住ML工程师嘅大量空缺,企业往往需要一个混合型嘅数据从业者:一个可以构建同部署模型嘅人。或者说得更简洁一啲,一个既能使用Tensorflow,又能从源头构建嘅人。

    这入面嘅另一个洞见是,ML研究岗位就是不多。

    机器学习研究往往被炒作得好厉害,因为所有尖端嘅嘢都系喺那入面发生嘅,比如AlphaGo同GPT-3乜嘢嘅。

    但对于好多公司嚟讲,尤其是处于早期阶段嘅公司,尖端嘅先进技术可能不再是需要嘅嘢嘎啦。获得一个90%嘅模式,但能扩展到1000多个用户,对佢哋嚟讲往往更有价值。

    这并唔系说机器学习研究没有重要嘅地位,绝对唔系。

    喺嗰啲有能力长期承担资本密集型赌注嘅行业研究实验室度,你可能会揾到更多咁样嘅角色。但喺早期阶段嘅创业公司,同喺筹集A轮融资时,唔系试图向投资者证明产品同市场嘅契合度嘅时候。

    如果没有第啲原因,我认为等数据领域新人嘅期望值合理化、标准化是好重要嘅。我哋必须承认,而家嘅数据科学已经不同嘎啦。我希望这篇文章能够对今日呢个领域嘅状况有所启发。只有当我哋知道自己喺边入面,我哋先知道需要去边入面。

    译者:蒂克伟

    cantonese.live 足跡 粵字翻譯

    2021-03-15 19:06:35

  • 0
  • 0
  • 0
  • 182
  • 请登录之后再进行评论

    登录
  • 任务
  • 发布
  • 偏好设置
  • 单栏布局 侧栏位置: