• 简中
    • 繁中
  • 注册
  • 查看作者
  • 计算机架构嘅新黄金时代,点解到‌2021年仲未有开始?

    转载:本文来自微信公众号“机器之心”(ID:almosthuman2014),作者:泽南,转载经授权发布。

    一面是客观嘅技术差距,一面是无办法忽视嘅机会。

    4 月 21 日,英伟达发布‌ A30 和 A10 GPU 系列 GPU,其安培(Ampere)架构、最新制程嘅性能和软硬件体系加持,为众多科技公司喺 AI 推理和训练时带来‌新嘅选择。该公司预计喺今年夏季,新款芯片即将会出而家众多公司嘅云服务器中。

    对于熟悉机器学习领域嘅人嚟讲,每隔一两年推出嘅新一代 GPU,系佢们最为关注嘅新动向。英伟达嘅旗舰芯片算力也总是第啲芯片创业公司用来比较嘅标杆。

    但对嗰啲希望寻找人工智能最合适算力嘅研究者们嚟讲,GPU 因为「过于通用」,常常会被认为并非 AI 嘅最终解决方案。但迄今为止,英伟达 GPU 仍然占据市场嘅主流。喺 GPU 引领深度学习技术爆发之后,AI 芯片领域还会出现新嘅变化吗?

    和 AI 算法应该点样写一样,人对于芯片应该点样造嘅思考其实一直都无停止,芯片领域里下一个大方向可能喺于「特定领域嘅体系结构(DSA)」。

    计算机架构传奇人物、2017 年图灵奖获得者 John Hennessy 和 David Patterson 喺 2019 年发表于 ACM 杂志上嘅文章《计算机架构嘅新黄金时代》中曾提出:当摩尔定律唔再适用之后,一种更加以硬件为中心嘅设计思路——针对特定问题和领域嘅架构 DSA 将会展现实力。这系一种特定领域嘅可编程处理器,佢仍是图灵完备嘅,但针对特定类别嘅应用进行‌定制。

    计算机架构嘅新黄金时代,点解到‌2021年仲未有开始?

    John L. Hennessy 和 David A. Patterson,两人合著有《计算机体系结构:量化研究方法》一书。

    从定义上来睇,DSA 同专用集成电路 ASIC 唔同,后者仅适用于单一功能,运行其上嘅代码好难进行修改。DSA 板卡通常被称为加速器,因为同喺通用 CPU 上执行成个应用程序相比,佢们可以加速某啲应用程序。此外,DSA 可以实现更好嘅性能,因为佢们更贴近应用嘅实际需求。DSA 嘅例子包括最常见嘅图形加速单元(即 GPU),用于深度学习嘅神经网络处理器,以及软件定义处理器(SDN)。喺特定领域嘅应用度,DSA 嘅效率更高,能耗更低。

    通常,适用于 AI 推理嘅 DSA 处理器无办法应用于高性能通用计算、光线渲染等任务,但又唔像 ASIC 那样只能胜任好少嘅一啲固化算法任务。喺人工智能嘅任务上,DPU 芯片可以有好高嘅通用性,既支持 NLP,又支持计算机视觉和语音嘅任务处理,仲要可以通过 TVM 等工具覆盖各种机器学习框架。

    如果说体系架构大师展望嘅技术方案是 DSA 成立嘅充分条件,噉样科技公司对于 AI 算力嘅需求就是 DSA 芯片形成突破嘅必要因素。

    目前,想要通过各种方法来构建一块 GPU,同英伟达实现相似嘅性能仍然非常困难。但喺以数据中心为核心嘅互联网新时代,国内头部互联网公司嘅规模为成个行业带来‌前所未有嘅 AI 落地场景。如果能够准确揾到落地需求,构建高效嘅 AI 加速器,唔仅可以大幅提升机器学习嘅价值,或者仲可以催生出潜喺嘅新市场。

    喺呢种情况下,能够搞清应用方向就成为‌ DSA 能否成功嘅关键。而家科技公司需要深度学习推断嘅业务包括推荐系统、内容审核、AI 教育、人工智能客服、图文翻译等各种方面。围绕呢啲业务,所有互联网厂商都产生‌大量算力需求。

    对于一家半导体公司嚟讲,要想打造一块能够完成呢啲任务嘅芯片,其设计要符合客户应用场景、底层需求,具备高效嘅实现方式,同时都要喺交付成本、维护服务、更新迭代嘅速度、软件友好嘅程度,甚至销售策略上具备竞争力。

    体系结构之外,另一个契机喺于指令集,RISC-V 兴起也喺让芯片领域发生住变化,佢嘅模块化和可扩展性完美地匹配 DSA 灵活高效嘅技术需求。

    诞生于 2010 年嘅 RISC-V 系一个开源嘅精简指令集架构,适用于创建微处理器和微控制器。最早由美国加州大学伯克利分校(UC Berkeley)嘅 Krste Asanovic 教授、Andrew Waterman 和 Yunsup Lee 等开发人员于 2010 年提出,又得到‌计算机体系结构大师 David Patterson 嘅支持。呢个架构允许开发者免费开发和使用,包括直接喺芯片上进行商业化实现。

    今年 1 月,外媒报道称顶级芯片设计大师 Jim Keller 加入‌初创公司 Tenstorrent,担任 CTO 以及董事会成员。

    计算机架构嘅新黄金时代,点解到‌2021年仲未有开始?

    据认识,Tenstorrent 设计嘅系高性能 AI 训练和推理,异构架构 AI SoC。该公司设计‌针对机器学习优化嘅 Tensix 处理器内核,为‌运行传统嘅工作负载,Tenstorrent 嘅 SoC 使用 SiFive 嘅新型通用智能 X280 内核,而 X280 系一个 64 位嘅 RISC-V 内核,集成‌ 512 位宽嘅 RISC-V 矢量指令扩展(RVV)。

    无独有偶,美国嘅芯片设计公司 Pixilica 已同 RV64X 团队合作,提出‌一套新嘅图形指令集,旨喺融合 CPU-GPU ISA,并将其用于 3D 图形和媒体处理,从而为 FPGA 创建‌开源参考实现。Europena 工具开发商 Codasip 嘅高级市场总监 Roddy Urquhart 表示,呢是 RISC-V 生态系统嘅优势之一:「如果要创建特定于领域嘅处理器,关键任务之一就是选择符合软件需求嘅指令集架构(ISA)。」

    「有啲公司选择从头开始创建指令集,但是如果你有咁样嘅 ISA,则可能要付出移植软件嘅代价。而家,RISC-V 开放式嘅 ISA 可以提供一个好好嘅起点和一个软件生态系统,」Urquhart 表示。RISC-V ISA 以模块化嘅方式设计,使处理器设计人员唔仅可以添加任何标准扩展,仲要可以创建自己嘅自定义指令,同时保持完整嘅 RISC-V 兼容性。

    「为特定领域嘅处理器选择‌起点,然后有必要弄清楚需要边啲特殊指令来满足你嘅计算要求。这需要仔细分析你需要喺处理器核心上运行嘅软件。概要分析工具可以识别计算热点,一旦认识,设计人员就可以创建自定义指令来解决呢啲热点。」

    虽然基于 Arm 架构设计嘅处理器已出而家几乎所有智能手机及数十亿电子设备度,但越来越多人喺将目光转向 RISC-V。Linux 嘅主要开发者 Arnd Bermann 就认为,到 2030 年我哋将睇到三种体系结构:Arm、RISC-V 和 X86 占据市场大部分份额。但係对于 DSA 而言,显然 RISC-V 拥有巨大嘅优势。

    科技公司自造芯片系唔系最合理嘅方式?一啲公司已经提出‌深度结合自身业务,并同软件体系绑定,可以进行 AI 模型训练嘅芯片,包括亚马逊嘅 Inferentia 和 Trainium、谷歌 TPU 等等。但呢啲算力仅限于对于各家公司自有业务体系进行特化,面向嘅范围有限。

    从一啲大厂最近嘅行动度,我哋可以睇出人嘅思考变化:百度等公司嘅 AI 芯片业务已经独立,而腾讯、字节跳动等公司则选择‌投资创业公司嘅方式,希望能够培养出面向广泛市场嘅新体系。

    自 2010 年左右深度学习技术大发展至今,我哋见证过寒武纪、昇腾等芯片横空出世,又被谷歌、亚马逊嘅技术能力所惊艳,但喺无尽嘅算力需求下,国内 AI 芯片爆发嘅时代似乎依然仲未有到来。

    但喺最近,指令集、体系架构和人工智能应用嘅落地已经让情况发生‌变化。随住字节跳动等投资 AI 芯片创业公司快速流片成功,专属推理芯片嘅应用获得良好效果,喺科技领域里发展 DSA 芯片嘅新风向正喺度出现。

    喺芯片产品生命嘅周期度,如果有一家创业公司可以更加理解场景,定义出最合适嘅方案,最快地做出实现,就可以获得相对领先嘅位置。同时,如果呢种新嘅机制催生出‌足够高效嘅算力,科技公司嘅开发者们也可以创造出更多嘅 AI 应用。

    根据目前嘅估算,国内市场每年会出现 20-30 万片嘅 AI 推理计算版卡需求。对于国内嘅创业者嚟讲,呢或者会系一个前所未有嘅发展机会,实力强大嘅工程师团队将会喺新嘅竞争过程中脱颖而出。

    cantonese.live 足跡 粵字翻譯

    2021-04-27 17:06:43

  • 0
  • 0
  • 0
  • 172
  • 请登录之后再进行评论

    登录
  • 任务
  • 发布
  • 偏好设置
  • 单栏布局 侧栏位置: