• 简中
    • 繁中
  • 注册
  • 查看作者
  • 唔用唤醒词就能激活,谷歌助手又要放大招

    转载:本文来自微信公众号“三易生活”(ID:IT-3eLife),作者:三易菌,转载经授权发布。

    “Hi,Siri,放首歌“、”天猫精灵,讲个笑话“、“小爱同学,打开空调”,呢啲语句想必好多朋友都唔会感到陌生。自从2011年Siri伴随iPhone 4S亮相后,语音助手而家也早已成为‌智能手机产品中嘅标准配置,并且除咗智能手机之外,包括智能音箱、智能电视等产品中呢一功能嘅普及,也令到语音交互一度被业界认为好可能成为未来嘅潮流。 

    唔用唤醒词就能激活,谷歌助手又要放大招

    但係而家语音助手却似乎风光唔再,也越来越少有手机厂商会喺发布会上提及呢一功能,虽然这其中嘅原因尚不足外人道,但喺公开场所使用时嘅唔便,也被外界认为或者是语音助手“失宠”嘅关键所喺。大家唔妨设谂一下,喺公共交通工具、公司、餐厅等场景度,来一句“Hi,Siri”或“Hey Google”无疑有啲让人尴尬。因此对于目前仲未有大量使用智能家居硬件嘅用户嚟讲,语音助手嘅存喺略显鸡肋,而使用手机嘅习惯更多嘅则还停留喺触屏交互上。 

    但如果唔需要特定唤醒词就能让语音助手执行命令,则或者会让更多用户产生使用语音交互嘅想法。作为目前人工智能领域嘅领军者之一,有消息显示谷歌方面正喺度悄然实现唔用唤醒词就能激活语音助手嘅操作。呢排据9to5google嘅报道显示,喺谷歌嘅应用程序中出现咗一个代号为“Guacamole”嘅Google Assistant(谷歌助手)功能,其可以让用户执行时间敏感嘅语音助手“快速任务”,例如接听电话或系等手机静音,而呢一切则无需用户先说一声“Hey Google”来唤醒语音助手。 

    唔用唤醒词就能激活,谷歌助手又要放大招

    事实上,需要特定词语来唤醒语音助手无论系喺手机、智能音箱,仲要是电视上都系标配,好似每个人都有自己嘅名一样,呢个功能同样也需要对应嘅“称呼”。喺某种程度上嚟讲,唤醒词也成为‌各家语音助手嘅招牌之一,是品牌形象嘅一个组成部分,通过喺每次激活语音助手时所说出嘅唤醒词,消费者关于品牌嘅记忆也将喺这日复一日嘅复读中被强化。 

    那么点解智能语音助手一定需求唤醒词呢?这是因为喺我哋同Siri或小爱同学等语音助手进行对话前,佢们首先需要被唤醒,从休眠进入工作状态,然后才能正常处理用户所发出嘅各种指令。相比于用按键唤醒或点击图标唤醒呢一机制,使用特定嘅唤醒词来激活语音助手,无疑是最具科幻感嘅一种方式,同时哩个都系语音交互嘅起点。 

    唔用唤醒词就能激活,谷歌助手又要放大招

    语音唤醒被称之为keyword spotting(下文简称为KWS),即喺连续语流中实时检测说话人嘅特定片段,呢个特定片段就是唤醒词。通常如果唔系手动禁用语音助手,后者作为系统级服务是会长时间驻留喺后台嘅,但係语音助手作为一个需要大量算力支撑嘅功能,长时间开启势必会对SoC嘅APU会造成唔小嘅压力,同时也就会大幅提升功耗。 

    面对呢一问题,开发者想出嘅办法,就是通过专用于语音唤醒嘅低功耗协处理器来实时监听麦克风,一旦收到到类似“Hi,Siri”、“小爱同学”,以及“Hey Google”呢类唤醒词后,就会将语音助手从休眠转换到工作状态。呢一策略嘅好处除咗降低对于续航嘅压力外,同时也会避免一直处于工作状态嘅语音助手,处理并唔系命令嘅音频信息。 

    唔用唤醒词就能激活,谷歌助手又要放大招

    语音唤醒嘅难点,主要是低功耗同高效率需求之间嘅矛盾。想必大家已经发现,目前国内主流嘅智能语音助手唤醒词通常都系4个字,例如“天猫精灵”、“小爱同学”、“小度小度”,呢是因为汉语发音同音节嘅关系,可以简单将字数理解为音节数。那么点解唤醒词普遍是4音节,而唔系大家更习惯嘅3音节或2音节呢?这是因为音节越短,语音中信息嘅含量就往往越少,语音助手理解嘅难度就越大,误唤醒就会越严重,并且如果音节再长就会从短语变成句子,降低交流体验。 

    既然唤醒词本身嘅设计都系有讲究,直接消除唤醒词也就意味住未来谷歌助手需要直接理解用户嘅口语化表达方式,再进行针对性操作,而这其中则有唔少嘅难关需要迈过。首先,用户实际嘅使用场景同实验室显然完全唔同,所谓唤醒率高达99%往往系喺实验室中得到嘅结果。想要喺真实环境中实现无唤醒词,直接使用打电话、停止等口语化嘅操作,就要求更高精度嘅声纹识别,准确捕捉到复杂声学环境下真正用户嘅声音。 

    唔用唤醒词就能激活,谷歌助手又要放大招

    事实上,谷歌方面早喺2018年就提出‌一个名为“VoiceFilter”嘅技术,可以利用声纹识别技术实现定向人声分离,再通过卷积神经网络,搭配声纹识别编码器,喺嘈杂乃至多人说话嘅情况下,准确捕捉到目标用户嘅声音,并辅以出色嘅端点检测模块,来判断声音嘅起点同结束点,最终从复杂嘅声学环境中准确地捕捉到相关词汇。 

    并且由于有唤醒词仲可以令到设备喺未被使用语音助手时保持一定嘅低功耗,所以这对于谷歌嘅Guacamole嚟讲,如果没有低功耗表现就将变得毫无意义。目前,语音助手实时监听麦克风声音嘅基础,就是需要协处理器嘅帮助,而相比于第啲语音助手所使用嘅协处理器,谷歌想要喺谷歌助手上实现无需唤醒词即可让语音助手工作嘅愿景,显然对于协处理器本身嘅要求会更高。 

    唔用唤醒词就能激活,谷歌助手又要放大招

    但好喺谷歌喺自研芯片领域已经有所建树,例如喺Pixel2系列上搭载嘅专用图像处理芯片Pixel Visual Core,喺Pixel3上配备嘅独立安全芯片Titan M,甚至有传言称其已同三星联手打造自研SoC嘅消息,也意味住谷歌喺自家嘅Pixel系列机型上搭相关芯片并唔系完全没有可能。 

    当然,大家暂时也无需对谷歌嘅Guacamole抱有太高期望,毕竟根据9to5google嘅说法,目前喺内测阶段嘅Guacamole功能还较为简单,仅能支持例如“Stop”、 “Snooze”, 以及“Answer/decline the call”呢类相对较为简单嘅命令。 

    唔用唤醒词就能激活,谷歌助手又要放大招

    相比于唤醒词呢种将语音助手从被动休眠转为主动工作嘅模式,谷歌目前针对已经处于工作状态嘅手机,或是已经有电话接入等使用场景来进行嘅无唤醒词操作,显然应该算是“easy”模式。想要真正实现同语音助手嘅心意相通,唔需要喊佢嘅名(唤醒词)就可以开始工作,现阶段来睇依然还系一件任重而道远嘅事。 

    cantonese.live 足跡 粵字翻譯

  • 0
  • 0
  • 0
  • 190
  • 请登录之后再进行评论

    登录
  • 任务
  • 发布
  • 偏好设置
  • 单栏布局 侧栏位置: