• 简中
    • 繁中
  • 注册
  • 查看作者
  • 智能汽车“底盘”之上,蔚来、长城、宝马谁能更好诠释“语音交互”?

    文 | 智能相对论(aixdlun)

    作者 | leo陈

    前几日,微软官宣‌一项重量级收购,花费160亿美元收购Nuance,呢都系微软继260亿收购Linkedin之后嘅第二大收购。Nuance是美国最大语音识别公司,被称为美国版“科大讯飞”。

    智能汽车“底盘”之上,蔚来、长城、宝马谁能更好诠释“语音交互”?

    除咗Nuance本身在医疗领域嘅能力,其分拆出去并独立上市后嘅车载语音部门Cerence都系本次收购嘅动力之一。这不禁让人联想,未来微软会在车载语音上有所动作。或者,呢是微软在汽车行业嘅一次隐秘“落子”。

    目前,全球科技巨头纷纷布局智能汽车行业,车载语音交互赛道也随之产生剧烈变化。

    从触碰到语音,掀起一场供应商交互纷争

    随住智能电动车崛起,座舱更加智能,更多车辆搭载拥有大量功能嘅车机系统和不同级别嘅驾驶辅助,造成座舱内信息大爆炸。面对海量嘅信息,智能汽车嘅中控大屏越来越大。

    但细想,呢啲屏幕嘅内容集中高且有多个层级,输出信息是高效嘅,可做信息输入显然系低效嘅。而语音交互,理论上指令可以有无数条,可以实现一步直达任何功能。正因咁,语音交互嘅价值再次浮现。

    高工智能汽车研究院监测数据显示,2020年国内新车(合资+自主品牌)前装搭载语音识别及交互功能上险量为1206.4万辆,同比增长17.88%。喺搭载率方面,则从2019年嘅49.82%提升至63.25%,车载语音已成为汽车继中控屏外嘅第二交互手段。

    实际上,近两年语音交互迎来新一轮发展,不仅因为其较屏幕交互有住独特优势,更是由于可以和“智能”做到深度融合,升级为“语音助手”。

    智能汽车接入嘅生态服务资源广泛,司机和乘客使用服务会变得高频,语音交互系统可以从中获取海量嘅数据。而数据来源于司乘日常嘅对话,相对丰富详细,系统通过深度学习培养后也就越“智能”。

    这同屏幕交互好大嘅不同在于,数据必然会加速汽车交互系统嘅更新迭代。而交互系统使用体验嘅提升,会令到司乘进一步提高使用频率,产生新嘅数据。两者之间相辅相成,互相促进。

    另一个不同在于,语音助手可以更好地同内容生态连接,将移动互联网嘅产品和服务搬到汽车上,让自身商业体系嘅优势得以凸显。哩个都系除咗体验外,汽车厂商住眼语音交互嘅关键动力。

    但随住产品不断推进,车载语音供应商之间嘅竞争愈发白热化。喺技术链路上,语音交互大致包括声学前端,语音识别(ASR)、自然语言处理(NLP)等。当下竞争不仅集中在自然语言处理,而且衍生到背后数据和计算能力嘅比拼。

    2020年数据显示,排名前八嘅供应商市场份额超过99%。Cerence和科大讯飞继续占据市场份额嘅前两位,合计份额超过70%,不过数字已经开始出现下滑迹象;百度排名第三,份额为7.24%。

    呢一块目前嘅问题是,喺一啲高频对话嘅定义上,整体效果较好,但喺一啲低频嘅对话上,受限于语料、数据量不足,体验上不尽人意。点样利用AI更好地推进自然语言处理,对公司嘅技术研发实力和积累提出高要求。

    也因咁,该领域具备天然嘅竞争壁垒,先发优势和规模效应尤为明显。这是BAT等科技巨头难以实现快速渗透,市占率无办法提升嘅主要原因。

    而Cerence目前是全球唯一专注呢个方向嘅企业,有住超过20年技术积累,兼顾科技巨头以及细分领域玩家两方嘅优势。一方面,早有住科技巨头从生态上集成第三方应用协作嘅能力,利用认知仲裁技术实现‌第三方内容在系统上共存,简化‌助手执行任务嘅流程。

    另一方面,具备科大讯飞等传统玩家丰富嘅集成经验和规模优势,合作全球主流OEMs和Tier1供应商。这不仅有助于加强成本优势,同时帮助自身积累丰富嘅语言数据,目前Cerence和科大讯飞已建立数十种语言嘅语音数据库。

    汽车厂商不同嘅实现路径,带来不同嘅想象空间

    汽车进入数字化和自动驾驶新时代,电子架构从分布式架构到域集中架构,再到跨域融合,汽车厂商开始掌握更多嘅主导权。随之,作为需求侧嘅厂商同语音供应商合作时,不再单一地走通用方案,而转向深入理解应用场景、联合深度定制。

    在“智能相对论”睇来,未来汽车厂商嘅语音助手前装方案将主要呈现两种实现路径:

    一方面,一部分将倾向于打造自研嘅交互平台,并融合多家供应商如科大讯飞和思必驰嘅优势技术支持。

    自研呢种做法劣势在于成本问题,改变核心领域嘅交互逻辑并将语义处理能力建立起来,需要不断地研发投入。为‌打造强大嘅智能AI服务于系统,大量嘅数据沉淀也会拉长系统嘅更新周期。

    而部分厂商选择“偏向虎山行”,原因简单概括就是“闭环”二字。

    相比向供应商采购,自研平台进一步符合车辆嘅特性,有住相对自由嘅权限以及更好嘅适配。同时,其迭代升级会更为迅速,响应速度也更快。若要“全双工”、“连续对话”、“免唤醒”、“全场景”等技术能力更好地实现,自研就显得尤为重要。

    部分厂商会选择这条实现路径,都系为‌更好抓住行业中长期嘅趋势。因为车嘅量产周期好长,如果厂商唔可以“独具慧眼”,未来车上搭载嘅语音方案就是落后嘅,和同时期嘅产品比就丢失‌部分竞争力。

    以蔚来、理想、小鹏为代表嘅造车新势力是最典型嘅例子,佢们仍需借助语音供应商,但自研比例在逐渐提高。

    蔚来有住NOMI Mate小机器人嘅车载AI系统,而家其已升级至2.0版本,解锁‌更多嘅功能和表情显示。蔚来较早选择车载语音“拟人化”呢个思路独树一帜,但的确走出‌预想嘅效果,引发‌后续多家效仿。通过“拟人化”,语音被抽象为人物形象嘅情感表达,反过来加深用户对品牌嘅印象。

    智能汽车“底盘”之上,蔚来、长城、宝马谁能更好诠释“语音交互”?

    小鹏嘅“玩法”似乎“直接且硬核”。上年10月,其发布‌自己嘅全场景语音,包括多轮对话、语义打断、双音区锁定和可见即可说4个功能。喺技术层面,小鹏自主搭建‌一套语音框架,以便自主定义语音嘅全流程体验,不受限于供应商嘅开放能力范围限制。但必须承认,呢需要长期投入人力物力财力。

    另一方面,第啲品牌则更多倾向于直接或间接选择提供整体解决方案嘅供应商,比如Cerence、科大讯飞、BAT等供应商。

    一般嚟讲,整体解决方案仅小量自定义即可交付,特别适合车型品类和数量都非常丰富嘅汽车品牌,性价比相对更高。

    当下,吉利汽车和长城汽车等我国自主品牌主要是走这条实现路径。以长城汽车为例,上年4月,其战略合作伙伴仙豆智能选定Cerence ARK来提供数字助理方案。同全球领先嘅供应商建立合作后,自主品牌嘅语音交互并唔逊色于造车新势力。

    在呢场语音交互“智能化”趋势下,传统豪华品牌如奔驰、奥迪、宝马反而唔系话语权嘅掌管者,和国内消费者对佢们根深蒂固嘅认同感形成强烈反差。

    传统豪华品牌在汽车数字化上相对保守,往往选择某一个车系嘅一款车型尝试升级。不选择自研能够将开发周期大幅缩短,加上自身嘅汽车量产能力,可以快速将产品向市场铺开。

    2020款奥迪A4L语音系统由出门问问提供,同时搭载‌Cerence和天猫精灵嘅相关能力。整体体验比第啲豪华品牌要好,但远算不上第一梯队。

    Cerence和出门问问分别为这款车提供‌一套ASR和NLU能力,两者算是并行关系。所以用户输入任何一个指令,两个通道都要跑一遍,最后统一口径实行指令,流畅度不佳。

    当下,传统豪华品牌嘅智能化升级迫在眉睫,车内人机交互嘅体验,已然成为各大厂商竞争嘅焦点。新势力搅动市场,自主品牌纷纷发力,智能汽车市场嘅竞争如火如荼。

    下一代交互盯住“主动多模态”,仍需迈过“鸡肋”这道坎

    激烈嘅竞争一定程度上推动住语音交互产品提高用户体验,也令到愈多用户长期接受呢种交互方式。智能电动汽车时代,“软件定义汽车”呢句话深入人心,但“语音”远远唔可以定义交互。

    在整车底盘之上,仲有摄像头、HUD、玻璃、车灯(氛围灯、外饰灯)等有望成为未来座舱端嘅交互产品。而语音交互能够承载海量数据、带来驾驶更高安全性等等,更会是交互产品生态嘅中心。

    智能汽车“底盘”之上,蔚来、长城、宝马谁能更好诠释“语音交互”?

    所以“智能相对论”认为,以语音交互为中心嘅“主动多模态交互”会是未来嘅方向。

    不同功能嘅摄像头好比多双“眼睛”,能够进行手势识别、情绪识别,发现你嘅需求。呢种情况下,摄像头带来嘅系交互系统“主动”提供服务,同第啲地交互方式截然相反。当语音呢种“被动式”和视觉嘅“主动式”融合,成个交互产品生态会为用户提供更丰富嘅服务和信息。

    例如,将车辆、行人、车道、标志识别融合导航信息进行实时渲染,提供行车预警及导航指引等系列功能,并通过HUD投影至挡风玻璃上,带来更直观嘅导航驾驶体验。

    同样哋,通过视线追踪、手势交互等操作对舱内座椅、灯光、空调、音乐等所有功能进行控制,从而在保障安全驾驶嘅情况下让人机交互更易用,并配合人脸识别身份认证技术,提供驾驶员身份检测以支持个性化功能实现。

    愿景是美好嘅,但现实是,当下视觉交互落地嘅案例屈指可数。宝马嘅手势识别在2015年率先登陆宝马7系,2019年下放到3系,通过摄像头主要识别确认、调节音量大小、接听和挂断电话。识别率好高,但屏幕系统流畅程度和反应非常流畅,手势识别反而显得鸡肋。

    点样平衡好语音、视觉等多模态之间嘅交互逻辑,是现阶段各家一直在探索嘅问题。

    体验参差不急,导致成个产品生态嘅价值没有真正凸显。最重要嘅系语音和视觉没有从根本上融合,仍然是单打独斗嘅状态。

    实现功能嘅整合并非易事,尤其系从被动指令到主动提供服务,需要成熟嘅AI技术嘅支撑。如果呢种细微嘅服务能做好,体验会有大幅提升,用户粘性会随之提高。

    若抛开技术先睇交互嘅目嘅,是为‌提供更多嘅服务。而服务背后,则是广泛嘅内容生态,社交、地图、音乐等等。因此,如果能够为用户提供更多嘅生态内容服务,交互产品生态嘅数据逐渐积累,人机交互也将更加智能。而这,必然需要几方嘅共同努力。

    cantonese.live 足跡 粵字翻譯

    2021-04-15 10:07:18

  • 0
  • 0
  • 0
  • 145
  • 请登录之后再进行评论

    登录
  • 任务
  • 发布
  • 偏好设置
  • 单栏布局 侧栏位置: