叫板英特尔，英伟达发布首个 CPU，集齐“三芯”！

转载：本文来自微信公众号“CSDN”（ID:CSDNnews），作者：马超，转载经授权发布。

昨日，喺英伟达嘅新品发布会大会上，英伟达 CEO 黄仁勋如期拿出‌首款 CPU 芯片 Grace，剑指 AI 云计算，其实笔者喺前文《英特尔火线换帅、苹果搅动乾坤，国芯路喺何方？》就曾指出，英伟达收购 ARM 预示住 N 厂必然进军 CPU 领域，喺云计算市场有所作为。而本次发布会上除咗 Grace 之外，英伟达还发布‌ Transformers 框架——NVIDIA Megatron；药物研发加速库 Clara Discovery 模型等产品，也侧面印证‌笔者嘅观点，英伟达正喺度软硬齐发为进军云数据中心领域铺平道路。

英伟达 CEO 黄仁勋，来源：NVIDIA GTC

无独有偶，上礼拜英特尔也发布‌ 10nm 嘅至强三代处理器，喺新任 CEO 帕特.基辛格嘅带领下，英特尔也要加强自身喺云计算领域嘅优势，不过喺呢场英特尔对阵英伟达嘅“双英”大战度，双方嘅策略明显不同，英特尔注重于全面，除咗 AI 以外仲喺度安全、虚拟化及调度能力以及存储性能等等方面全线开花；但是英伟达则喺专注于 AI 云及低功耗超级计算机几个重要领域进行定点突破。

虽然目前还无办法预测“双英”大战嘅结局，不过 AI 云计算嘅发展空间还是有目共睹嘅，从最新嘅 AI 发展趋势来睇，最新嘅人工智能模型对于算力嘅要求往往都系非常高，比如可以自动写代码嘅 GPT-3 其参数规模突破‌ 1000 亿，而 GPT-3 嘅变种，可以将文字描述转化为图像嘅跨模态生成模型 DALL.E，其模型参数数量更是达到‌惊人嘅 1500 亿，唔少 AI 方面嘅科学家指出，越大嘅模型往往表现更好，扩大规模可能仍然是实现更好性能嘅方式。用黄仁勋喺发布会上嘅话嚟讲“三年间大规模预训练模型嘅参数量增加‌ 3000 倍。我哋估计喺 2023 年会出现 100 万亿参数嘅模型。”目前资金实力一般嘅创业公司将越来越难以通过自身嘅算力去训练最新、最好嘅 AI 模型。

从另一个角度讲，AI 模型越来越大嘅趋势也推进‌ AI 同云嘅结合，只有充分发挥云计算降本增效嘅特性，先能降低门槛，促进 AI 行业创新性发展。也只有做好 AI 云，先能让 AI 充分发挥威力，体现价值。我哋睇到本次英伟达围绕住 AI 云计算，喺 CPU、智能驾驶及配套软件方面同都有唔少嘅进展，接下来，本文会系大家逐一进行解读。

Grace 打破内存同显存之间嘅墙

由于 ARM 使用 RISC 风格嘅精简指令集， ARM 核心喺指令预测等方面同天然比 X86 更有优势，能耗也比 X86 更低。当然呢啲都系 ARM 相对于 X86 嘅传统优势，本次 Grace 最大嘅创新点喺于将 CPU 同 GPU 之间嘅通信速度提升‌近 10 倍。根据黄仁勋嘅说法，“这系一万名工程人员历经几年嘅研发成果，旨喺满足家阵时世界最先进应用程序嘅计算需求，其具备嘅计算性能和吞吐速率是以往任何架构所无办法比拟嘅。”

CPU 和 GPU 嘅通信速度嘅重要性，可以用苹果 M1 嘅例子来加以说明，我哋知道苹果 M1 显卡同内存加喺一齐只有 16 个 G，对比上一代 Mac PRO 内存128G，光是显存都有 16G，不过搭载 M1 嘅入门版 Mac 喺进行图像处理等需要 CPU 同 GPU 进行协同嘅运算任务时，至少比上一代顶配嘅 Mac 性能高出近一倍。其中嘅秘决就是将内存同显卡进行统一管理，从而大大提高‌ CPU 同 GPU 嘅通信效率。

当然苹果将内存同显存混用嘅做法，喺云计算呢种多租户共存嘅场景下并唔系几适用，但是现有 GPU 同 CPU 共享内存嘅做法效率确实不佳，喺共享内存嘅方案下，CPU 和 GPU 必须轮流访问内存，呢就意味住佢哋要争夺数据总线嘅使用权。因此 GPU 和 CPU 不得不轮流使用一个狭窄嘅通信管道来做数据交换。而英伟达嘅 Grace 喺这方面做出‌突破性嘅进展。

类似于 DMA 控制器喺磁盘同内存之间搭建‌一条快速通道一样，Grace 体系中 GPU 核心同 CPU 核心之间嘅通信不需要 CPU 嘅调度，也不需要占用数据总线嘅带宽，之前 CPU 必须将数据从其内存嘅区域复制到 GPU 使用嘅区域，而喺 Grace 嘅加持下，CPU 剩系要要讲畀GPU喺内存嘅某位置有 30MB 嘅向量数据，然后就可以去做第啲事嘎啦，GPU 则可以通过 Grace 复制通道迅速开始计算任务。

可以说 Grace 嘅快速能道基本仲喺度笔者嘅射程范围之内，而英伟达马上要推出嘅 L5 级别自动驾驶芯片，就只能令人仰望嘎啦。

英伟达自动驾驶Orin-剑指L5嘅雄伟蓝图

钢铁侠马斯克上礼拜啱啱宣布特斯拉全新嘅自动驾驶系统 FSD Beta9.0 已经接近完成，有消息称 FSD 嘅自动驾驶能力要达到 L5 级，呢真系一个震惊世界嘅消息，因为目前特斯拉嘅 AutoPilot 仲未有达到 L3 嘅程度。

喺业界公认嘅自动驾驶 L 级分类标准度，依据驾驶任务中 AI 同人类嘅角色分配以及有无设计运行条件限制等因素，将驾驶自动化分成 0 至 5 级。其中0级为应急辅助级喺应急情况下帮助驾驶员进行辅助操作，喺 0 级至 2 级自动驾驶度，监测路况并做出反应嘅任务都由驾驶员和系统共同完成，并需要驾驶员接管动态驾驶任务；3 级为有条件自动驾驶，4 级高度自动驾驶仅喺特定条件下需要驾驶员参同；5 级完全自动驾驶嘅驾驶自动化系统喺其设计运行条件内，能够持续地执行全部动态驾驶任务和执行动态驾驶任务接管，驾驶员可以完全退化为乘客嘅角色。

L5 级别嘅自动驾驶睇似唔系从0到1嘅开创性工作，但从实践上睇，想真正实现全天候嘅自动驾驶难度极大，从谷歌嘅公开资料中我哋可以知道一台自动驾驶测试车辆每天至少会产生10T嘅数据量，平均每分钟都要处理几百M嘅数据，而且自动驾驶嘅决策延时必须要控制得极低，汽车以80公里/个钟头嘅速度运行时其机械制动距离就接近30米，想保证安全留畀自动驾驶嘅反应时间通常只有0.1秒，而且作何一点决策上嘅失误都可能造成极其严重嘅后果。

简单说 L5 级别嘅自动驾驶系一个每秒数据处理能力 1 个 G，数据处理延时唔可以超过0.1s，而且可靠性还唔可以低于 99.999999% 嘅极精密系统，再考虑其 AI 模型嘅上百亿个参数，呢个系统对于算力嘅要求是十分惊人嘅，不过更惊人嘅系黄仁勋表示英伟达就是要干呢个。

根据计划，英伟达将于 2022 年投产支持 L5 自动驾驶嘅汽车计算系统级芯片NVIDIA DRIVE Orin，同样哋英伟达仲喺度发布会上展示‌搭载 3 个 Orin 核心嘅 Hyperion 8 自动驾驶汽车平台，据称 Hyperion 8 是业内算力最强嘅自动驾驶汽车模板，当然这款芯片目前仲未有量产，也没有具体细节嘅发布，因此笔者这里只能先对英伟达表示 Respect。

AI 软件嘅背后：感知智能向认知智能嘅演进

从实现快速计算、记忆同存储嘅“计算智能”，到识别处理语音、图像、视频嘅“感知智能”，再到实现思考、理解、推理和解释嘅“认知智能”，人工智能发展嘅终极目标是赋予机器人类嘅智慧。近年来，语音识别、人脸识别等“感知智能”技术已相对成熟，甚至喺好多领域已经达到或超出‌人类嘅水平。但呢啲技术仅喺工具、模型层面实现‌突破，对诸如需要专家知识、逻辑推理或者领域迁移等需要去思考、规划、联想、创作嘅复杂任务时，表现不佳。不过随住大数据、云计算、深度学习等技术嘅蓬勃发展，探索喺点样保持大数据智能优势嘅同时，赋予机器常识和因果逻辑推理能力，实现“认知智能”，成为当下人工智能研究嘅核心。

从人机协作嘅角度上睇，人类喺处理抽象化、情绪化、非逻辑性嘅问题上有住不可逾越嘅优势，而大量重复、海量计算和海量记忆则是人工智能嘅强项。而AI目前一个重要嘅发展方向就系等人机两者嘅强项联合，取长补短，比如金融行业嘅呼叫中心需要分析客户嘅语气，喺必要时引入人工服务；出行类 APP 遇到客户说出某啲关键词时,则需要立刻同 110 人工报警台联动报警。咁样嘅大趋势下也就更需要 AI 由单纯嘅感知世界向认知世界去进行升级。我哋睇到阿里、腾讯嘅论文，近年来喺 KDD 及 CVPR 咁样嘅 AI 顶会上获得不俗嘅成绩，多半都系源于对于认知智能嘅突破性贡献，而英伟达本次推出嘅同 AI 系统对应嘅配套软件中也顺应‌呢一潮流。

本次发布嘅 Transformers 训练框架 NVIDIA Megatron、Morpheus 数据中心安全平台、新一代人工智能对话机器人 NVIDIA Jarvis、推荐系统是 NVIDIA Merlin、隐私保护加强嘅 AI 辅助套件 NVIDIA TAO，从本质上讲都系认知智能嘅一种体现。

纵观整场发布会，英伟达真可谓是 AI 同智能驾驶齐飞，CPU 同 GPU 跨界。新时代嘅计算机需要新嘅芯片、新嘅系统架构、新嘅网络、新嘅软件和工具。英伟达全新嘅数据中心路线图已包括 CPU、GPU 和 DPU 三类芯片，将英伟达也将被重新定义为三芯片公司。

叫板英特尔，英伟达发布首个 CPU，集齐“三芯”！

Grace 打破内存同显存之间嘅墙

英伟达自动驾驶Orin-剑指L5嘅雄伟蓝图

AI 软件嘅背后：感知智能向认知智能嘅演进

最新内容