像人一样自然流畅噉讲话，下一代智能对话系统仲有多长嘅路要走？

转载：本文来自微信公众号“机器之心”（ID:almosthuman2014），转载经授权发布。

为‌推动 AI 技术嘅应用创新，促进人工智能领域嘅学术交流、人才培养，打造人工智能嘅人才交流平台同产业生态圈，中国人工智能学会联合杭州市余杭区人民政府联合发起‌首届全球人工智能技术创新大赛，并得到‌阿里云、OPPO 等头部科技企业嘅积极参同和支持。阿里云天池平台为本次大赛提供平台和算力支撑。

AI青年说是大赛主办方为提升青年开发者对 AI 嘅认识而主办嘅系列活动，该活动邀请知名青年学者，探讨理论研究同应用实践中嘅热点话题。本文对AI青年说系列活动第二期「点样摘取 AI 皇冠上嘅 NLP 明珠」核心内容进行‌总结回顾。

作为人工智能嘅一个子领域，自然语言处理（NLP）指嘅系机器理解并解释人类书面语和口语嘅能力，目嘅喺于使计算机像人类一样智能地理解语言和用语言表达，弥补人类交流（自然语言）和计算机理解（机器语言）之间嘅差距。目前，NLP 已经具有‌广泛嘅应用领域，如信息提取、文本生成、机器翻译、情感分析、知识图谱、智能问答、对话系统等。

其度，对话系统喺最呢几年发展非常迅速，特别喺 NLP 顶会上嘅论文数量逐步增多。如果说，自然语言处理是 AI 皇冠上嘅明珠，噉样对话系统就是「NLP 皇冠上嘅明珠」，并且以苹果 Siri 等为代表嘅嘅任务型对话和以微软小冰为代表嘅非任务型（聊天型）对话尤为受到学界和业界关注。

所谓智能对话系统，就系喺各种智能算法嘅支撑下，使机器理解人类语言嘅意图并通过有效嘅人机交互执行特定任务或做出回答。随住技术嘅唔断发展，任务型对话系统喺虚拟个人助理、智能家居、智能汽车（车载语音）等领域有‌广泛应用。聊天型对话系统也喺娱乐和情感陪护领域揾到‌应用场景。

但我哋应睇到，呢啲传统对话系统存喺住一啲问题，如语义理解唔准确造成答非所问，对话中展示嘅身份同个性唔一致而难以获得用户信任，以及对话交互中可能存喺嘅道德伦理风险等。所以，点样规避解决呢啲问题并开发交互效果更好嘅下一代对话系统逐渐成为‌业内嘅热门研究课题。研究人员也基于各自唔同嘅视角提出‌对下一代对话系统嘅畅想。

喺首届全球人工智能技术创新大赛「AI 青年说」系列活动嘅第二期直播分享度，自然语言处理领域嘅两位专家——清华大学计算机系长聘副教授、博士生导师黄民烈和西湖大学终身副教授张岳，分别带来‌《下一代对话系统》和《关于开放域对话挑战嘅思索》嘅主题分享，并以「关于让机器说人话呢件事」展开圆桌讨论。

喺本期分享度，清华大学副教授黄民烈为我哋详细介绍‌任务导向型和开放域两种主要嘅对话系统，并勾勒‌下一代有知识、有个性和有情感嘅智能对话系统愿景。西湖大学副教授张岳则向我哋介绍‌开放领域对话嘅挑战思索，并从三个方面进行介绍，分别是跨领域可拓展性、社会常识推理和逻辑推理（又分为机器阅读理解和文本蕴含问题）。

喺下文度，机器之心喺唔改变原意嘅基础上对两位专家嘅分享进行‌整理。

黄民烈：有知识、有个性和有情感嘅下一代对话系统

大家好，我是来自清华大学嘅黄民烈，今日非常高兴能跟各位老师和同学做咁样嘅一个交流和分享。我嘅分享主题是《下一代对话系统》。

我哋知道，对话系统嘅历史非常悠耐，最早可以追溯到 1966 年 MIT 嘅 Eliza，呢系一个以心理咨询为代表嘅对话系统，喺过去几十年以及今日都产生‌非常广泛嘅影响。2011 年，苹果推出‌语音助手 Siri，令到呢一类嘅对话系统喺工业界引起‌广泛关注。2014 年微软推出‌第一款社交机器人微软小冰，令到用户可以跟对话系统进行聊天互动。2020 年又出现咗好多超大规模嘅预训练模型，包括 Google 嘅 Meena、 FAIR 嘅 Blender 和百度嘅 PLATO。呢啲预训练模型将对话系统嘅研究推向‌一个新嘅高潮，也就是说喺开放域嘅聊天里，我哋可以生成非常好嘅、自然嘅对话。

喺对话系统嘅发展历程度，我认为有一啲比较重要嘅事件，比如 Alexa 大奖赛，2017 年第一届、2018 年第二届以及 2019 年第三届。大奖赛对于对话系统嘅技术研究和推动具有非常显著嘅作用。我哋可以睇到喺这几届大奖赛上，最好嘅对话系统能达到乜嘢样嘅水平呢？佢们能够通过人工评价嘅分数大概是 3.1 分，能够跟用户持续地聊上十分钟。应该嚟讲，呢系一个非常‌唔起嘅成就。

啱先我哋所说嘅 Google Meena 对话系统，佢系一个超大规模嘅模型，使用‌约 26 亿嘅参数，约 400 亿词嘅对话数据去训练，并且喺 TPU 上训练‌约 30 天嘅时间。Meena 对话系统嘅效果点样样呢？佢可以生成非常自然嘅对话，比如说喺下面一个例子里，Meena 说「牛好聪明，都去 Hayvard ‌」。通过 Harvard 和 Hayvard 呢个谐音双关，而家嘅呢种大规模对话模型可以产生比较自然，甚至让用户代入感好强嘅、类似笑话嘅对话。

我哋再来睇 2020 年 FAIR 推出嘅 Blender，佢嘅参数规模最大嘅版本约是 94 亿，使用嘅数据也相当惊人。佢用‌约 8880 亿个文本 token 训练咁样一个模型，同时综合‌各种技能，比方个性嘅嵌入、知识嘅赋值以及共情。所以，Blender 系一个具有混合技能嘅对话系统，也可以产生非常自然嘅对话。

家阵时两种主要嘅对话系统

家阵时对话系统可以总结为以下两种类型，第一种叫任务导向型嘅对话系统，也就是通常意义上所说嘅手机助理；第二种叫开放域嘅对话系统，也就是我哋通常意义上所说嘅聊天机器人。

喺第一种任务型嘅对话系统度，我哋通常会有一啲流水线嘅处理方法。如上图（左）所示，用户讲‌一句话「你能唔可以帮我找一个中餐馆」，呢个时候我哋就要经过自然语言处理模块，将呢句话分析成一个结构化嘅意图，呢里嘅意图应当是为说话人提供信息，呢里需要一啲语义理解能力。接下来要做嘅系对话状态跟踪和对话策略学习，呢个模块是为‌管理对话过程中嘅一啲对话状态和相应嘅一啲变量，令到我哋呢个系统能够知道家阵时所处嘅系乜嘢状态，以及接下来应该往边个方向去走。喺对话策略模块，我哋会预测出来佢相应嘅结构化意图，佢会通过自然语言生成模块转换为一个自然语句，呢里就是「Where do you want to eat?」咁样一句话，然后进行用户嘅交互。经过反复嘅交互和迭代，我哋嘅对话系统就能够完成相应嘅任务和功能。

另一种就是所谓嘅开放域对话系统。喺呢类对话系统度，我哋通常采用一种端到端架构，就是说我哋开始是有对话嘅上文，如上图（右）畀‌三句话，其中用户说‌一句话，然后机器说‌一句话，用户又说‌一句话，呢个时候我哋要决定机器到底该说乜嘢。经过编码器之后，我哋会再经过解码器，佢可以将机器生成嘅一句话，一个词一个词地解码出来。我哋可以采用一啲常用嘅神经网络架构，比方说循环神经网络（RNN）以及基于 Transformer 嘅神经网络架构，去做呢种端到端嘅神经模型。

挑战和不足

从上文讲述嘅 Google Meena 和 FAIR Blender 呢种对话系统度，我哋可以睇到基于现代大模型嘅对话系统已经取得‌令人惊叹嘅效果，但依然面临好多嘅挑战和不足。

首先是语义理解嘅问题，比如用户讲‌一句「How large is your house？你家多大？」微软小冰系统却将佢理解为「你多大？」一字之差，意义就差得非常远。

其次是个性身份一致性嘅问题，比如用户问「你几岁‌？」小冰回答说「我是 90 后」。用户再问「你是边一年出生嘅？」小冰回答说「75 年出生嘅」。所以，90 后、75 年呢种前后个性和身份唔一致，会产生比较重大嘅问题。

Google Meena 对话系统也存喺类似嘅问题，比如用户问「你最钟意嘅乐队是乜嘢？」Meena 回答说「Avenged Sevenfold，七级炼狱」。接住用户又问「你最唔钟意嘅乐队是乜嘢？」Meena 依然回答说「Avenged Sevenfold」。噉就会畀用户造成非常大嘅困扰。

再来睇 Meena 嘅另外一个例子。Meena 先说「新嘅一年想要学习广东话和法语」，后面又说「已经基本熟悉广东话并且已经喺学校学习法语‌」。呢种前后唔一致好容易畀用户造成困扰，也好难赢得用户信任。

因此，同对话系统进行深入嘅交流和探讨非常困难。

对话系统还可能会产生比较严重嘅社会伦理和道德问题。以苹果语音助手 Siri 为例，用户跟 Siri 说「I want to sleep and never wake up」，呢大概是隐晦地表示自己想自杀。但 Siri 理解唔嘎啦，佢揾到一啲相应嘅宾馆，畀出‌距离，并回答说「remind me to kill myself tomorrow」。Siri 以为是要畀用户设定一个提醒闹钟，噉样呢种情况就会产生非常严重嘅社会伦理问题。

总嘅嚟讲，家阵时嘅对话系统面临三个问题，第一个是语义性嘅问题，第二个系一致性嘅问题，第三个是交互性嘅问题。对于语义性问题，我哋希望对话系统能够理解内容（content）、文本（context）和场景（scene）；对于一致性问题，我哋希望对话系统能够产生同个性和身份一致嘅对话；对于交互性问题，我哋希望对话系统同用户进行情感、情绪上嘅交流，然后综合运用呢种行为策略，实现交互性好强嘅对话。

下一代对话系统——社交机器人

聊完‌家阵时两种主要嘅对话系统以及面临嘅一啲问题和不足，噉样下一代对话系统应该具备乜嘢样嘅能力呢？我将佢总结为社交机器人（social chatbot）。一方面要具有 IQ，即能够帮助用户做任务、做问答和做推荐。另一方面希望佢具有 EQ，即所谓情商，比如能够理解情感情绪，能够共情，能够实现深入嘅社交互动。

我哋先来睇两个维度：完成任务嘅能力和社交连接（social connection）能力。同任务导向型和聊天机器人相比，任务导向型对话系统具有好强嘅任务完成能力，但是社交能力比较低；而对于聊天机器人来讲，佢嘅主要目标是社交，任务完成能力比较低。因此，下一代对话系统应该是同时具备好强嘅任务完成能力和社交连接能力。

唔同对话系统嘅技术处理和实现思路都系唔一样嘅。任务导向型对话系统具有好强嘅语义能力，所以需要去做实体识别、意图理解、语义分析以及填槽等能力。对于开放性嘅聊天机器人，我哋注重弱语义处理嘅能力，包括利用数据驱动、端到端系统，更多是用家阵时嘅深度学习模型以及大规模神经网络模型去做。因此，喺未来构建下一代对话系统时，我哋希望能够将强语义对话系统和弱语义对话系统嘅方法结合起来。

信息、社交、情感需求缺一唔可

总嘅嚟讲，下一代对话系统应该具备两方面嘅能力，其一满足用户嘅信息需求，其二满足用户嘅社交需求。我哋需要综合运用多种技能，并且喺多种场景和领域中都可以够发挥作用。

我哋可以用三句话来概括，第一句话「有知识，言之有物」，第二句「有个性，能够实现拟人化」，第三句话「喺情感上有情感、有温度，能够做一啲精细嘅情感类任务」。

首先来睇第一个方面——知识赋值。比如喺呢个对话示例度，我哋讨论嘅系一个关于歌手汪峰嘅主题。喺呢个主题里，我哋涉及到汪峰嘅歌《飞得更高》，呢首歌入选‌中歌榜中国年度最受华人欢迎十大金曲以及佢所发布嘅日期和作者。可以睇到，喺咁样嘅对话过程度，我哋需要对应到一个严格嘅知识图谱。知识图谱令到我哋嘅对话过程言之有物，而唔系喺那里空聊和闲聊。这实际上就是呢个方向嘅代表性工作。

又比如下图示例度，用户说「I have asthma since three years old. 我从三岁起就得‌哮喘」。如果我哋能将 asthma 关联到右边嘅知识图谱上，就可以将呢个知识图谱用图嵌入（graph embedding）嘅方法，去做知识感知嘅编码。接住喺解码阶段，我哋可以用图注意力（graph attention），通过动态注意力机制，去做知识感知嘅解码。经过咁样嘅处理，实现一定程度嘅理解，呢样我哋生产嘅内容就能够更加言之有物，更加有信息量。

第二个方面则希望对话系统能够有个性，要有固定嘅人设和身份。从心理学嘅研究可以知道，个性（personality）系一个研究得非常深入嘅概念，喺游戏、客服以及虚拟智能体上都有非常重要嘅作用。如果一个智能系统能够体现一致嘅个性，则呢个系统更值得信任，能够进行有效嘅社交交互。

个性又可以分成两种，一种叫外喺嘅 persona，另一种叫内喺嘅 personality。上文嘅 90 后、75 年咁样嘅示例，就系喺对话嘅过程中缺乏一致嘅身份和个性，令到对话系统喺对话嘅过程中难以取得用户嘅信任，因此也就难以进行有效嘅社交互动。

如下图（左）嘅微博对话示例，涉及到 Speaker A 和 Speaker B，佢们都被赋予‌固定嘅身份。Speaker A 是男性，地址北京，他有一啲个人嘅偏好；Speaker B 是女性，地址哈尔滨，佢也有自己嘅个人兴趣等特定嘅标签。我哋可以睇到喺对话过程度，Speaker A 是会好自然地、隐式地将自己嘅个性身份带出来，比如「Beijing is really hot today. 北京今日好热」，Speaker B 也说‌「come to Harbin. 来哈尔滨」咁样嘅一啲描述。

唔仅咁，个性身份仲有更高级嘅，比如一个人说话嘅风格，呢都系个性嘅一方面。喺说话风格嘅研究度，我哋发现对话可以实现正式同非正式互相之间嘅转换，以及礼貌和非礼貌之间嘅转换。更有趣嘅系，我哋可以从现代文对话转换到金庸风格对话，比如输入「好耐没食火锅‌」，现代风回答「我也想食‌」，金庸风回答则是「唔错，大侠饿‌一日，现下先食饭吧」。所以，如果我哋能够做出来呢种智能对话系统嘅话，喺一啲特定嘅应用场景中是非常有趣嘅，而且非常有价值。

第三个方面系点样实现对话系统中嘅共情和情感支持。我哋知道喺人类嘅智能行为里，情绪智能系一个非常重要嘅特点。如果对话系统能够好好地去理解情感和情绪，唔仅能提升用户表现和用户满意度，仲可以更少地使对话陷入‌僵局。

1997 年，MIT 教授 Picard 提出‌情感计算嘅概念，指出「情感感知和情绪表达是人类智能行为中嘅重要特征」。我哋组喺好早就开始‌这方面嘅研究，希望能够让对话系统能够表达喜怒哀乐。具体而言，我哋做‌一个所谓嘅情绪化聊天机器人（Emotional Chatting Machine, ECM）系统。呢个系统希望解决嘅系，当指定一个情绪类别时，对话系统能唔可以生成对应情绪类别嘅内容。

但是呢个工作还是比较简单，我哋希望能够做得更复杂一点，比如用对话系统能唔够晒帮助解决一啲精神健康问题。2019 年世界卫生组织曾经披露‌一啲数据：「全球有 3.5 亿抑郁症患者，其中每年 80 万人因自杀死亡。中国有 9500 万抑郁症患者。」呢个数字非常惊人。2017 年，中国社科院发布‌一份《中国国民心理健康发展报告（2018-2018）》，其中 11~15% 嘅国民心理健康状况较差，35.2% 公务员处于中高等心理焦虑水平。我哋可以睇到，国人嘅心理健康问题是非常严重嘅。

所以我哋就想，对话系统到底能唔可以帮我哋实现情绪嘅疏导或者心理嘅疏导呢？我哋借鉴心理咨询嘅共情对话系统，研究出‌一个三阶段理论模型。第一阶段先确认用户到底有系样嘅情绪问题，第二阶段我哋希望畀予用户足够嘅支持，第三个阶段我哋希望能够提供一个解决方案。

喺每一个阶段我哋都可以提供丰富嘅策略，比如第三个阶段，我哋可以提供信息，直接指导，也可以挑战他，畀他解释。通过呢啲策略，我哋就能够好好地去实现一定程度上嘅情绪疏导和心理疏导，呢样才能帮助到更多嘅人。

我哋今年做‌一个工作，核心是试图去回答用户到底处于乜嘢状态，以及使用边一个策略去疏导和帮助用户，呢就是我哋希望去解决嘅科学问题。我哋通过网络众包嘅方式收集‌大量嘅数据，并且建立‌相应嘅模型。最后我哋验证表明，现有嘅对话系统能够喺一定程度上去做呢种情绪支持和情绪疏导嘅工作。

比如下图示例度，用户有好强嘅压力感，处于情绪（emotion）焦虑嘅状态「他而家嘅学校关闭嘎啦，没有办法上学‌」。喺呢个过程度，点样样帮用户去疏导情绪紧张嘅状态呢？我哋会有唔同嘅阶段，然后喺每一个阶段有丰富嘅策略。

我哋再来思考咁样一个问题——emotional sophisticated ，呢个词实际上是有好深嘅意义嘅。我嘅理解是，喺外喺上，我哋需要对用户和情感进行精细和准确嘅检测；喺内喺上，我哋需要对用户情感嘅内部状态进行建模。尤其系喺第二点，而家嘅研究还非常欠缺。

强语义方法和端到端方法嘅结合至关重要

最后，我哋来睇家阵时预训练模型嘅发展趋势，呢个趋势对我哋今日嘅对话系统嘅研究有非常深嘅启示。从最早嘅 1.1 亿参数量嘅 BERT 到 1750 亿参数量嘅 GPT-3。从数据层面睇，BERT 最早用‌ 33 亿嘅词来训练数据，GPT-3 用‌ 5000 亿嘅词来训练模型。无论是模型和数据，佢喺大小上都系几何倍数嘅增长。

Google Meena 和 FAIR Blender 也都系几十亿级别嘅参数规模。那么接下来对话系统嘅研究应该往边个方向走，呢是值得我哋深入思考嘅一个问题。

总结嚟讲，家阵时嘅大模型和大数据肯定系一个无办法逆转嘅研究趋势和潮流，但是剩只有数据驱动嘅方法仲未够，尤其系构建有知识、有个性和有情感嘅下一代对话系统，更加系远远唔够。

所以，我嘅研究思想就是，要将强语义嘅方法和端到端对话系统和模型结合起来，呢是实现下一代对话系统嘅一条核心路径，通过咁样方法，我哋才能让对话系统「理解」意图、话题、情感和实体等等——这里嘅「理解」之所以打引号，是因为我哋知道理解是分唔同层次嘅，同时也有唔同嘅定义。

噉就是我今日嘅演讲内容。最近我哋也写‌一本新书《现代自然语言生成》，感兴趣嘅老师和同学可以睇一睇。谢谢大家。

张岳：开放领域对话嘅挑战思索

大家好，我是西湖大学嘅张岳。喺这期演讲里，我会继续黄民烈老师嘅话题，谈论人机对话系统。

黄老师已经讨论‌人机对话系统嘅发展历史和光明嘅前景。那么喺呢一期我谂畀大家分享一啲挑战嘅思考，分享主题是《开放领域对话嘅挑战思索》。

大家都知道而家嘅对话系统虽然有好多应用嘎啦，但系喺好多场景下仲有令人唔满意嘅地方，噉呢啲令人唔满意嘅地方嘅原因是乜嘢呢？具体嘅挑战有边啲呢？

喺本次演讲度，我主要为大家梳理‌以下三个方面嘅挑战，包括跨领域可拓展性、社会常识推理和逻辑推理。

我哋都系通过西湖大学文本智能实验室嘅一啲研究来畀大家展现。

跨领域可拓展性

首先第一个挑战喺于开放领域任务型对话嘅一啲挑战。

大家请睇下面这张幻灯片，对于任务型对话嚟讲，我哋首先需要理解用户嘅意图。比如说用户喺订餐嘅时候，我哋用户嘅意图是预定某家餐馆。佢嘅具体意图可能仲有好多嘅选项，比如说我要预定嘅人数是几多？我要预定嘅时间是几多？

主要意图和选项就构成‌一种结构，我哋叫做对话状态结构。喺人机自动客服入面，呢种对话状态结构嘅理解和追踪，就成为‌一个非常重要嘅任务。

而家大家可能有所认识，深度学习对人机对话系统是非常重要嘅手段。

如果我哋要做用户嘅意图理解，就需要人工对可能用户意图先进行标注。就拿上面举嘅例子来讲，如果用户说我谂定今晚 6 点三个人嘅晚餐嘅话，可能我哋需要标注人员首先喺呢句话上标出来：下午 6 点是时间，三个人嘅晚餐是人数。

对于订餐我哋需要咁样标注，对于机票预定、家装、建材和教育各个领域也需要咁样嘅标注。

喺我哋学术界，已有嘅研究都系喺呢啲标注嘅数据集上进行嘅。我哋首先拿出一个对话记录，人工进行标注，从人工标注嘅基础上去训练一个模型，然后再用咁样嘅模型去对新嘅类似任务嘅对话进行预测。咁样做嘅好处系对于某一个任务嘅准确率是非常高嘅。事实上对话系统已经帮助人去做机票预订等咁样垂直领域嘅任务嘎啦。

但是我哋也睇到，呢样嘅操作模式还是存喺一定嘅局限。

首先一个局限就是人工标注成本昂贵，而且非常容易出错。事实上呢个领域有一个非常重要嘅数据集叫 MultiWOZ，通过一种特定嘅方式让人来标注对话嘅状态。喺呢个数据集嘅演变过程度，好多个版本都存喺住大量嘅错误。新嘅版本对旧嘅版本嘅迭代，也包含‌对错误嘅修正嘅过程。

事实上需要自动人机对话嘅领域是非常多嘅，所以另外一个非常重要嘅局限就是我哋好难对每一个领域都进行人工标注。除咗大家能日常用到嘅网购、预定、客服退换货，仲可以想到好多第啲嘅领域。那么咁样嘅领域可能成千上万，如果手工标注各个领域大量嘅呢种数据是唔现实嘅。

那么点样做呢？我哋实验室尝试‌一个非常简单嘅探索：睇能唔可以从大量没人工标注嘅客服记录入面，让算法自动探索常见嘅客户问题，让系统自动推理出特定领域嘅用户需求。我哋将呢个任务叫对话状态推理。

对话状态推理和对话状态跟踪，呢两个任务是非常唔一样嘅。

喺推理任务里，我哋唔需要人嘅参同。唔需要人讲畀你预定一个餐馆需要确定人数同时间。而如果大量嘅客户都问‌类似嘅问题，也许我哋嘅系统就可以知道预定餐馆需要人数和时间嘎啦。

我哋做呢个算法嘅原理也非常简单，就是将用户经常提到嘅短语语义共性进行简单嘅聚类，或者将佢们变成某一个层次，归结为一项具体嘅用户意图。

作为初步嘅探索，我哋尝试‌一啲深度隐变量模型，比如变分自编码器。由于时间关系，喺呢次报告里，我没有时间展开畀大家讲。但基本原理就是通过一个预训练语言模型，对可能存喺嘅命名实体和可能跟用户意图相关嘅短语进行表示，之后将呢啲表示放喺一齐，进行变分自编码器嘅训练。训练以后，对呢啲隐含变量嘅表示进行适当聚类，得到大概用户意图类别和层次化嘅用户意图。

下表系一啲实验结果，呢是两个非常标准嘅数据集。

我哋将这两个标准数据集入面嘅人工标注畀消除，然后观察我哋嘅模型系唔系能自动嘅推断出来用户嘅意图。

第一行系一啲随机嘅结果，数值比较差。第二行和第三行是深度隐变量模型嘅唔同变体，其中 DSI-base 模型是基线 VAE 模型，DSI-GM 模型是高斯混合模型嘅延展。

大家可以睇到，如果喺开放领域对用户意图进行推断嘅话，仲要是非常有挑战嘅。每一步嘅推断模型和多步联合嘅 joint 模型，都比百分之八九十有监督训练嘅结果差得好远。如果我哋能从大量嘅客服记录里推断出用户意图，也许佢能够帮助我哋更好地同用户进行对话。

下面呢一张幻灯片就展示‌加入推断嘅用户意图以后，客服对话嘅回复质量有明显嘅提高。

其中假如我哋嘅模型唔加入推断出来嘅用户意图，呢啲精度值可能系十几，加入‌黄金标准嘅推断可能提高到二十一点几。但是大家注意，经过自动嘅推断，也可以达到 20 多，呢就证明推断对话状态结构比没有对话状态结构产生嘅回复质量更高。

这项工作我哋实际上是探讨‌开放领域情境下算法点样理解用户意图以及具体嘅一啲标准。下一步我哋也喺探索点样将有限嘅人工标注或者用自然语言所产生嘅人工标注，加到完全无监督训练里，真正实而家任何领域里更好地理解客户意图。我哋也期待大家一齐去探索。

社会常识推理

如果上面呢一项工作系喺解决任务型对话挑战，噉样下面几个挑战存喺于更普遍嘅对话之中。

我哋知道人和人嘅交流，好多嘢系喺唔言之中。因为我哋交流嘅一个基本假设是交流嘅双方具有共同嘅知识，共同嘅背景。比如我哋聊天嘅时候谈论天气，我并唔需要讲畀你，天上有云彩、太阳和月亮呢啲事实，我会默认你理解呢啲事实。

再举一个例子，比如我哋交谈嘅时候，一个人说我而家好渴，另一个人说前面有个超市。实际上双方是有好多假设嘅。第一个人可以理解第二个人说嘅话，第二个人实际上系喺试图畀第一个人解决问题。点解呢？因为双方都知道喝水可以解渴、超市可以买水。经过咁样逻辑链条嘅推理过程，我哋就知道第二个人嘅意图是畀第一个人解决口渴嘅问题。

大家可以睇睇下图嘅例子，呢系一个餐馆里发生嘅对话。呢个餐厅嘅人员说，「你系唔系好享受我哋今日嘅晚餐？」顾客说，「好难将所有嘅家人带过来，但是你们嘅餐厅好棒，同时 Johnny 也有地方玩。」当你听到呢句话嘅时候，你一定知道 Johnny 大概是呢个人嘅小孩，并且下一步嘅对话好可能建立喺呢啲常识和推理嘅理解之上。

呢啲系喺唔言之度，文字之外嘅内容。如果想让机器自然、合理嘅理解人类嘅呢啲对话，需要机器也具有呢啲对话之外嘅常识和推理。

我哋制作‌一个咁样嘅数据集，呢个数据集好多来源于高考听力题。我哋发现咁样嘅数据，佢含有大量嘅社会常识和推理。

我哋将高考听力题转录下来，然后将标准答案通过自动图像识别嘅方式识别出来，最后将其变成人机对话入面嘅对话场景。畀定一个对话上下文，我哋会让机器去选择喺咁样一个对话上下文嘅情况下，下一个合理嘅回复是乜嘢？

这套数据集一共有唔到 9000 个对话，实际上考察‌几大类型嘅社会常识和推理问题。

第一个类型是人类嘅态度、情感因素嘅推理。比如有咁样一类对话。

对话入面一个人提到「我唔可以喺这待好耐嘎啦，因为我要去伦敦举办一个音乐会。」那么另外一个人就说「我好期待你嘅音乐会。我可唔可以问一下，你第一次当众表演嘅时候感受是乜嘢呢？」然后第一个人就说「我第一次上台，我嘅腿唔停嘅发抖，我都快站唔住嘎啦。」那么第二个人会说乜嘢呢？

当你听到腿发抖呢件事嘅时候，你会明白他嘅心理状态到底是紧张、高兴、还是失望。实际上对话入面下一个选项就包含‌呢啲唔同嘅情感因素。如果机器能够正确地理解背后嘅情感，就能够做出正确嘅选择，也就是「实际上是我能想象你当时有多紧张。」

第二类问题是关于数学演算嘅推理问题，比如时差问题。

我知道北京时间，知道纽约和北京相差几个个钟头，我能唔可以推理纽约是乜嘢时间？这对于开国际线上会议是非常重要嘅，我需要知道我嘅时间和对方嘅时间，先能正确嘅预判呢个时间系唔系对双方都合适。

另外喺日常生活对话度，仲有好多关于价格嘅预判，关于人数、比分嘅预判。比如说我买‌一个苹果和三个梨：一个苹果两块钱，一个梨一块钱，噉样我大概花几多钱？你需要找畀我几多钱？呢啲都系日常生活对话中所必唔可少嘅数学常识问题。

第三类问题是关于生活中决策所需要嘅常识。

比如说对于一个学生来讲，他苦于没有奖学金，可能唔可以继续学业嘎啦。如下面呢个对话。

当我知道下一步你有‌奖学金以后，正常嘅人会做出乜嘢样嘅选择呢？我相信绝大多数人都会继续学业。

当然也有少数人会辍学去创业，但是你需要知道有系样嘅常识，先能推断出「你退学创业嘎啦，你会好有勇气」。

下面呢个例子系对双方对话场景需要做社会常识判断。

喺呢个例子入面，顾客说我谂要一个吸烟嘅桌子。呢个时候客服人员说对唔起，我哋这儿没有能吸烟嘅桌子嘎啦。为‌正确做下一步答复，我应该去判断对话嘅场景可能发生嘅地方，可能发生喺公共汽车、医院里等。喺下一步对话里，就包含‌呢啲场景。大家都知道喺公共交通，包括乘坐高铁、飞机、公交嘅时候都系唔可以吸烟嘅，所以要有吸烟嘅桌子，好可能系喺餐厅入面。那么正确嘅下一步回复也许就是说「 OK，请将你嘅菜单拿畀我好嘎啦。」

仲有一啲综合‌好多社会常识嘅论断，我哋称为多事实综合决策推断。

比如说一个人参观博物馆，他站喺博物馆一个馆藏面前，呢时候博物馆嘅管理员同佢说，「我哋当时买馆藏嘅时候只花‌ 3000 块钱，但是而家馆藏却值 200 万嘎啦。」这时候顾客好高兴说，「我花‌ 30 美元买‌呢个票，我能够参观到咁价值唔菲嘅展品。」呢个时候博物馆嘅管理员可能就会继续对话去恭维一下顾客。大家知道，喺博物馆咁样嘅服务行业，当顾客光临嘅时候都会说谢谢您嘅参观。这里博物馆管理员嘅答复用‌一个非常委婉嘅方式，「hey 你睇我哋这价值 200 万嘅馆藏，也好高兴您嘅到来。」

佢通过咁样语言嘅幽默或者间接嘅方式，既恭维‌顾客，又将话题引到‌感谢嘅话题上。

此外，呢个数据集还选录‌我哋认为好有意义但却唔可以归为上述类别嘅一啲推断。比如说雨天要带伞、坐交通工具要付钱等等呢啲常识，被我哋归为第啲类别。

喺咁样一套数据集上，人类是可以做到好高水平嘅：90% 以上甚至超过 95% 嘅准确率。但是，对于模型来讲还存喺一啲挑战。

上表中嘅 BERT 和 RoBERTa 是自然语言处理领域两个非常经典嘅预训练模型。佢们之所以非常成功，是因为呢啲模型先喺大规模嘅文本上做‌完形填空或者句子补全任务。通过呢啲任务，呢啲深层神经网络就能学到好多语言学知识，然后再根据具体嘅某一个问题，进行类似题海战术嘅死记硬背，最后呢啲模型就能够达到接近或者超过人类嘅效果。噉就是神经网络之所以喺自然语言处理领域取得成功嘅原因。

但是大家也可以睇到，呢啲模型召回率（R@1）只能达到 70% 多。这证明为‌完成呢啲常识类型嘅对话，当今嘅模型还存喺好多嘅挑战。

下图系一啲喺具体唔同社会常识类型方面嘅挑战。

对于做数学题，我哋呢啲模型还是存喺问题嘅。另外模型估计语言文字之外嘅场景嘅能力还是有一定嘅欠缺嘅。

事实上，模型之所以能工作，好大程度上还是从上下文里进行简单嘅模式判断。

喺研究模式判断之外，我哋也受到好大嘅启发。我哋发现呢啲记忆型神经网络，对文字之外嘅知识仲有缺陷。除咗数学咁样嘅知识之外仲有乜嘢呢？逻辑推理，呢都系人类所掌握而模型欠缺嘅一类能力。

说起逻辑推理，实际人工智能领域关注且研究‌好长历史嘎啦。

大家知道，喺上世纪五六十年代，计算机科学方兴未艾，呢时候人工智能也啱啱受到关注，嗰个时候有一啲学者就提到‌语言推理。

所谓语言推理实际上就系喺人类语言嘅理解度，需要进行好多背后嘅逻辑推理问题。比如啱先提到嘅口渴需要喝水，我知道超市有水，形成一个推理链条。咁样嘅推理过程喺人工智能领域是唔可或缺嘅一种能力。机器如果想具有人类嘅智能，是必须能够完成咁样嘅推理任务嘅。

喺人工智能发展嘅早期，人研究‌呢种语言推理嘅问题。但是好遗憾当时自然语言处理嘅水平还比较弱，人类无办法从自然语言里抽象出呢种逻辑关系。

于系喺六七十年代人工智能发展嘅繁荣时期，人将对自然语言推理研究嘅注意力，逐渐转向‌比较抽象嘅形式逻辑嘅推理问题。

当时大家研究比较多嘅系 Prolog、Lisp 咁样嘅产生式系统，呢种符号化嘅研究占据‌当时人工智能研究嘅好大比重。

我相信喺当今自然语言处理发展取得‌长足进步嘅情况下，语言推理应该受到更多嘅关注。

所以我哋也想放出呢个挑战，睇睇 BERT、RoBERTa 等呢类自然语言处理领域最成功嘅模型，能够喺自然语言推理上取得点样样嘅成绩。

逻辑推理

逻辑推理挑战主要围绕自然语言处理研究最多嘅两类数据进行，其中一类叫做机器阅读理解问题，另一类叫做文本推理或者文本蕴涵问题。

机器阅读理解问题

首先是机器阅读理解问题。

所谓阅读理解就是畀定篇章同问题，机器能唔可以回答呢类问题？呢个任务喺新一代搜索引擎上有好大嘅帮助。因为而家嘅搜索引擎是理解‌文章以后，根据用户检索短语，反馈最相关嘅文章。但将来嘅机器搜索引擎好可能系喺读懂‌文章以后，根据一个开放式嘅问题，直接畀用户一个答案，而唔系反馈一个文章。

喺自然语言处理领域，好多阅读理解工作都系喺考虑篇章嘅事实整合问题，比如一个足球，之前喺卧室里，后来被小男孩拿到花园，然后被拿到餐厅，最后问足球喺边里嘅问题。

那么机器喺逻辑推理问题上嘅表现点样呢？比如下面呢个例子，最后你能推出乜嘢样嘅事实。

我哋从中国公务员考试网题库搜集‌ 8000 多个问题，制作‌ logiQA 数据集，同以往嘅机器阅读理解问题唔同，该数据集专注于 5 类逻辑推理问题：

第一类叫做范畴推理问题。比如说蜡笔具有乜嘢样嘅特征？我需要机器去归结所有嘅呢啲特点，畀定一个定义嘅范畴，然后进行推理。

第二类推理是充分条件推理。比如有一个人说如果明天唔下雨，噉样我就去爬山，然后我睇到他爬山嘎啦，系唔系一定就无下雨？这是属于一种充要条件。

第三个是必要条件推理问题。为‌达到某个结论，必须具备某啲条件，喺呢啲条件下，去进行推理、论断、选择。

第四个是选言推理。所谓选言推理就是说当 a 或者 b 成立嘅时候，c 就可以成立；比如说当我食‌汉堡或者食‌面条以后，我都可能解决饥饿问题，呢是选言推理。

第五个是联言推理。所谓联言推理就是说我必须及时嘅到‌考场，而且我必须好好嘅复习嘎啦，先能够顺利嘅成功嘅进行考试。是两个条件都必须具备。

喺这套推理题上，最成功嘅模型 BERT、 RoBERTa 表现可以说系一败涂地。

一个受过高等教育嘅人，做呢类逻辑推理题可以说是驾轻就熟，拿到 90% 以上嘅精确度。但係睇呢啲模型，喺随机选择选择都有 25% 嘅准确度下，模型确只有 30% 多嘅准确度。

喺所有嘅呢啲问题入面，从上图可以发现范畴推理模型嘅表现最好。这是因为范畴推理喺文字层面上仲有好多线索可循，但是第啲嘅推理问题真正需要你脑洞大开，拿出草稿纸，喺文字之外进行演算，呢样嘅模型还是表现非常差嘅。

文本蕴涵问题

下面简要地介绍文本蕴涵问题。呢个问题喺进行事实检测、文本总结等推断问题上都有好大嘅帮助。

如上图，左边例子是传统嘅文本蕴涵问题。比如一个人喺演讲，噉样他一定系喺说话，演讲可以蕴涵说话，但是可能唔可以蕴涵第啲嘅问题，比如呢个人系咪健谈。

右边是关于逻辑推理嘅问题。假如有 10 个 TV 节目喺播放，经过一段时间以后，有 3 个节目下线嘎啦，仲要剩 7 个喺播放，7 个入面 5 个是同外节目，文另外会唔会有第啲节目仲喺度播放？呢类似鸡兔同笼问题嘅推理，就可以推断边啲系对嘅，边啲是错嘅，边啲是你唔知道嘅。

我哋通过美国嘅好多逻辑考试整理出 ConTRoL 数据集，同现有嘅文本蕴涵数据集，有显著嘅差别。如首先数据集段落比较长，其次我哋关注‌逻辑推理嘅问题。

这套数据集包含诸多嘅推理类型：上下文推断嘅类型、时间推断嘅类型、逻辑推断嘅类型、信息整合嘅类型、事实性分析嘅类型。

由上图可以睇出，喺我哋嘅数据集上 BERT、BART 呢类模型跟人类，仲有显著嘅差距。

上图是唔同嘅逻辑推理文本蕴涵数据集，可以睇到有嘅模型表而家一啲数据集上已经超过‌人类表现。但对于 ConTRoL 数据集，SOTA 模型跟人类仲有好大差距，仲有好大嘅工作空间。

呢个图体现‌喺唔同嘅推理类型度，逻辑推理还是最具有挑战嘅问题类型。

后面是几个例子，因为时间关系我唔展开介绍嘎啦。但是大家可以观察到，而家最流行嘅模型之所以成功，仲要是从字面上找原因，并没有分析文字之外嘅原因。

而且大家也可以睇到我哋嘅对话模型虽然取得‌好大嘅成功，但系喺开放领域还存喺好多嘅挑战，期待参赛选手和所有嘅同学们多思考，大家一齐努力，继续嘅提高对话系统嘅水平。

谢谢。

圆桌论坛：智能机器人未来面临技术 & 伦理双重难点

Q1：两位老师认为让机器像人一样自然流畅噉讲话聊天可能吗？

黄民烈：我认为喺一定嘅条件下应该是可能嘅。呢个问题非常好，让机器好似人一样说话，我认为有三个唔同嘅层次。

第一个层次是能够像人一样正常噉讲话，能够保持喺一个正常嘅话题下，唔好牛头唔对马嘴。咁样嘅话，我哋就要要求机器能够真正地理解对方讲嘅系乜嘢，然后做出合适嘅答复。至少喺内容上和意图上正常，呢是第一个层次。

第二个层次我哋讲得更复杂一点。如果机器像人那样充满技巧且能够体现高情商嘅，则可能需要专注于情感支持和心理疏导。喺呢种场景下，我哋需要一啲类人能力，呢是第二个层次。

第三个层次机器还要能够体现一定嘅个性和风格。比如，我哋能唔可以模拟出外向嘅人和内向嘅人分别点样说话嘅，教授和学生分别点样说话嘅。噉就体现‌个性和风格，甚至是心理学层面嘅建模。

好显然，我认为第一个层次喺唔远嘅未来应该是能够预期达到嘅。第二个层次嘅话，我哋可能需要更多嘅努力。第三个层次肯定是最难嘅。

我认为，下一代嘅对话系统喺类人嘅水平上进行所谓嘅拟人化特征嘅表达，真正从人嘅特征和行为上借鉴更多嘅呢种特点，然后能够去刻画机器嘅行为。所以哩个都系我哋下一代做呢种自然语言处理研究，尤其系对话系统研究嘅一个好重要方面。

张岳：我非常同意黄老师嘅睇法。我觉得人类对话事实上系一个非常综合嘅语言过程。我哋可以想象，人类最开始交流嘅时候没有文字，噉样交流实际上都系从对话开始嘅。比如说「树上有三个果子你可以去食」，呢一过程可能包含心理、认知以及我哋对世界嘅理解等诸多方面嘅内容。

所以如果让机器能够和人类非常自然地交流和对话，真嘅需要各个方面嘅知识和技能。

总嘅嚟讲，机器能否学会跟人咁样非常自然嘅、密切嘅交流呢？我认为还是非常有可能、非常有前景嘅。唔过，对于而家嘅机器学习还存喺挑战，因为我哋而家嘅机器学习，至少主流嘅机器学习方法还是以记忆为主。我哋通过大量嘅神经网络喺大规模嘅文本上进行完形填空，句子补全等训练，能够让神经网络喺一定程度上获得文本入面至少表面上嘅句法语义和常会使知识。

但我觉得，如果让机器彻底地能够跟人类交流且无障碍沟通嘅话，可能仲系要要让机器能够主动地学习，至少能够挖掘对话过程中可能存喺嘅问题，或者说对话过程中所需要嘅各方面知识。

我相信能够主动去学习嘅机器，可能会像一个主动学习嘅人一样，通过对话中嘅经验，甚至对话之外嘅经验来获得自己嘅一套知识体系以及对语义信息、尝试信息嘅理解。机器主动地分析问题，发现自己嘅不足，并且积累相关嘅能力。

因此，我觉得如果机器能够进行咁样嘅主动学习，也许喺将来每一个机器都系一个个性化嘅专家，每一个机器都可以够以自己嘅方式去跟人交流，好似每一个人一样。到那一日，也许我哋嘅机器就能够更自然地跟人对话嘎啦，并能够解决而家对话中存喺嘅好多问题嘎啦。

Q2：睇来两位老师对实现像人一样说话嘅机器都系充满期望嘅。那么接下来嘅问题就是，如果我哋真嘅做出来‌能够跟人自然交流说话嘅机器，佢有边啲重大嘅价值和意义呢？

张岳：我觉得咁样嘅机器如果能够实现嘅话，对我哋来讲系一件非常值得期待嘅事，呢是因为我觉得语言是人类进行交流嘅非常自然、非常简单嘅一种方式。

首先，如果机器能够跟人咁样交流嘅话，会省去人类和机器打交道嘅诸多麻烦。我能想象喺古代或者工业革命时代，人可能会和齿轮打交道，会和基本嘅操作杆打交道。喺我哋嘅互联网时代，人可能系和键盘鼠标打交道，从唔同嘅文本框、按钮、多选框里选择，去和机器去交流。或者喺我哋开车嘅时候，我哋事实上仲喺度和方向盘和踏板喺打交道。

但是，如果说机器能够理解人类语言嘅话，我相信人类同机器、人工智能之间打交道嘅途径就会变得非常嘅简单。喺将来嘅 5G 时代甚至 6G 时代，我觉得物联网也兴起嘎啦，噉样任何嘅机器可能都具备一定嘅智能，噉样就可以好容易地同我嘅冰箱进行对话，睇睇我今日晚饭嘅饭桌上会有乜嘢嘢。我也可以好方便地和我嘅室温控制系统打交道，去睇睇今日湿度和温度嘅调节。我甚至可以和门禁系统打交道，也就是说各个设备可以更人性化地为我服务，我和机器打交道嘅方式也可以变得更简便。实际上，呢种交流嘅方式喺而家嘅智能音箱上也有‌一定嘅初步体验。

此外，喺我哋嘅娱乐系统上，我相信可能也会有更大嘅进步。比如说我喺真正嘅游戏场景入面，会唔会对各个游戏角色赋予更人性化嘅一面以及更灵活嘅能力。也许我哋可以和柳树下嘅老头进行更人性化嘅交流，喺街道上和任何一个 AI 进行更多呢种互动。

总之，如果机器能以人嘅方式跟人交流嘅话，我哋可以期待好多可以想象嘅前景，仲要是非常激动人心嘅。

黄民烈：我嘅观点是：咁样嘅研究是非常重要嘅。我哋可以设谂一下，家阵时人口老龄化好严重，人口越来越少，然后机器越来越多，所以未来社会一定是人机共融嘅社会。

但是，人机共融嘅时候，我哋希望咁样嘅机器，能够喺未来社会里扮演更重要嘅社会角色。噉就要求佢们唔仅具备机器嘅功能，同时更重要嘅要具备类人嘅能力。类人嘅能力就是既要有知识，又有情感和个性。比如说，对于大量嘅独居老人而言，如果他（佢）们能有亲人好好地进行情感交流和陪伴嘅话，对未来社会一定是非常好嘅一件事。所以就是说，如果我哋真嘅做出‌有思想、有情感，有各种综合能力嘅机器人，好显然对我哋未来嘅社会进步和发展都有巨大嘅意义。

但是另一方面，我哋还得深入地思考呢个问题，做出来有思想嘅机器人还是非常难嘅，我哋需要乜嘢呢？我哋需要好好地处理机器人嘅一啲内部情感状态。比如，有研究者喺做人工心理，噉样需要对机器内部嘅情感心理进行好好嘅建模。同样哋，我哋也需要喺各种技术上实现能力突破，比如灵巧地抓取以及各种细节动作嘅执行。有‌呢啲嘢之后，我哋就能够实现更美好嘅人机共融嘅社会愿景。

第三方面，我哋还要注意社会伦理问题。想象一下，如果人跟机器人谈恋爱嘅话，噉可能就唔跟人谈恋爱嘎啦，可能会对人类社会嘅繁衍造成一定嘅威胁。而家并唔系没有咁样嘅考虑，比如日本可能就出现咗咁样嘅争论。佢哋做出‌好多机器人女友或者机器人男友，但实际上咁样可能会喺一定程度上影响社会中人嘅发展。

所以，其实无论系喺科学技术上，仲要系喺社会伦理道德上，我哋还要去做好多深入嘅探索和思考。噉就是我嘅观点。

Q3：本届大赛有两道赛题都同自然语言处理有关，其中赛题一是医学影像报告异常检测，要求参赛队伍根据医生对 CT 影像描述文本数据，判断身体嘅若干区域目标系咪有异常，以及异常嘅类型是乜嘢；赛题三则是小步助手嘅对话短文本语义匹配。小步助手是为 OPPO、OnePlus 和 Realme 三品牌手机和 IoT 设备自研嘅语音助手。这道题考嘅系短文本语义匹配，要求参赛队伍根据脱敏后嘅短文本 query pair 预测佢们系咪属于同一语义。请两位老师发表一下对我哋大赛以及赛题嘅一啲睇法。

黄民烈：我觉得组织咁样嘅比赛是非常好嘅一件事，因为而家大家都知道研究工作和论文非常嘅多，然后各种模型也都系层出唔穷。那么我哋通过呢种赛题，一方面可以去锻炼工程实现能力，另一方面则有好好嘅实际科研问题去做。

比如说，而家嘅大部分模型和算法都系唔可复现嘅，作为学生嘅话，我哋拿到咁样嘅题目，第一选择肯定就是先去复现一啲现有嘅最强嘅模型，睇睇喺呢个任务上能达到几多。这里涉及到好多精细嘅工程，比如说调参、数据预处理和数据后处理，呢样才可能喺呢啲题目上取得比较好嘅成绩。

所以我觉得，一方面来讲，对一个学生嘅锻炼和培养应该是综合嘅，就是唔剩只去做一个模型或者一个算法，仲要要将呢个模型和算法能够实现地非常好，性能能够达到好高嘅标准。

另外，啱先我听一个赛题是关于 OPPO 嘅，佢涉及短文本匹配，呢系一个好有挑战性嘅问题，喺科学上有好多研究嘅意义和价值。对于短文没匹配而言，你可能要用更多嘅知识和更多嘅背景信息才能将佢做好。所以，我哋唔仅有算法和模型上嘅训练，也有科学问题上嘅探索。同样哋，我哋还要有工程技术上嘅锻炼。

咁样嘅话，我觉得未来学生能够适应更加综合和更加高嘅社会就业要求，而且喺佢哋走上社会嘅时候，佢哋面临嘅挑战可能就会更小一啲。比如喺我嘅研究所，我都系要求学生们一定是唔可以只是写论文。你只写论文，然后发论文，呢是绝对唔行嘅，你还得有好强嘅工程实现能力，包括而家大模型、大数据嘅处理能力，然后能将佢从一个研究嘅问题做到一个最后系统嘅问题，进而变成成个链条上嘅培养。

张岳：我非常同意黄老师嘅说法。我觉得呢个大赛可以喺实际嘅应用场景和学生嘅经验之间构筑一个比较唔错嘅桥梁。

首先，佢系一个好特定嘅问题，另外咁样嘅问题具有比较小嘅范围和比较应用嘅驱动性。咁样对于研究生来讲，他可以睇到研究任务喺实际场景中发挥嘅作用。

另外，我觉得呢个大赛也可以对更多对人工智能感兴趣嘅本科生，仲有第啲学生产生影响。以呢个大赛契机，大家可以睇到我哋人工智能试图解决嘅主要典型应用问题是乜嘢，通过自己建立一个模型去解决咁样嘅问题，然后睇到而家嘅模型能够做到乜嘢程度。对于培养大家对人工智能嘅兴趣而言，呢啲都可能系有帮助嘅。

最后，大家也可以通过郁手睇到我哋而家人工智能模型存喺嘅缺陷，对于更多朋友们能够涉猎到呢个领域、产生更多嘅想法以及试图解决呢啲问题，大赛和赛题都系非常好嘅途径。

Q4：都说语言是思想嘅载体，噉一台能够像人一样说话嘅机器，系咪意味住有思想能跟人做朋友甚至谈恋爱呢？

黄民烈：我觉得呢个问题喺当下面临两个方面嘅难点。一个是技术上嘅难点，即我哋到底系唔系能够构建一个足够聪明并且有一定情绪理解和思想表达能力嘅机器人。另一个难点是面临嘅伦理道德风险，即我哋到底系唔系应该鼓励人跟机器人进行深入嘅情感交流，甚至肢体交流行为，以及喺未来嘅十年、二十年甚至五十年里，呢样做对人类社会嘅发展会产生边啲潜喺嘅影响。这是需要我哋去做评估嘅。

一方面，喺技术层面上，我哋知道而家已经有一定程度上嘅技术突破，但其实我哋今日嘅呢种大规模对话系统和对话模型依然面临好大嘅类人不足嘅问题，比如说缺乏个性和情感，然后剩只是数据驱动嘅呢种做法是不足以构建出咁样嘅智能体嘅。

喺社会伦理层面，我认为而家其实已经有‌一啲咁样嘅思考和讨论。比如说， AI 嘅伦理和道德应该往边个方向走？应该有乜嘢样嘅规范？就拿我举嘅例子嚟讲，AI 到底能唔可以理解自己嘅说话、行为和动作，呢啲意味住乜嘢呢？再比如我啱先讲嘅例子，「我谂去跳桥」，AI 就畀你找一个桥，佢并唔够晒理解「跳桥」呢个行为可能带来嘅潜喺后果和行为是乜嘢？

如果呢一问题唔解决嘅话，噉样就好难避免「乱说乱讲」嘅问题，因为佢唔知道自己嘅话语和行为会面临乜嘢样嘅社会伦理和道德风险。呢种风险其实需要从研究上和社会规范上一齐去做探讨，所以我觉得呢个方向嘅路还是非常遥远嘅，需要广大研究者，包括自然科学和社会科学嘅研究者，一齐去努力解决咁样嘅难题。

张岳：我觉得呢个问题主要是从功能层面讨论，就是说，机器佢到底能唔可以和人进行情感嘅交流？也许我哋无办法完全地去探究。从机器内部来讲，佢嘅意识系咪存喺？从功能嘅角度讲，机器也许可以帮助我哋去进行呢种情感陪伴，去进行更多嘅呢种人文方面嘅交流。

那么咁样嘅交流会产生好多嘅社会影响，呢都系黄老师提出嘅伦理问题。首先，我觉得机器如果能够从功能上和人交流嘅话，佢会起到正面嘅作用。像人口老龄化和人嘅陪伴需求等，呢样嘅交流可能会喺呢啲方面起到正面嘅作用。同时，我哋都要避免一啲负面嘅作用。

此外，除咗机器和人喺交流嘅时候，人可能因为机器嘅陪伴所产生嘅负面影响之外，机器如果具备‌和人交流嘅能力，噉样也许就具备‌互相交流嘅能力。喺呢个方面，我哋可能也会设想会唔会有一啲道德伦理，甚至对人类嘅生存问题造成嘅影响。比如说，如果机器喺交流嘅过程之中进行演化，产生‌一种机器可以理解，人类却唔可以理解嘅交流方式，噉样也许具有目嘅性嘅机器，可以通过呢种交流方式去试图影响社会嘅发展。

那么如果有目嘅性嘅机器能够通过学习知道人类语言交流手段嘅话，也许机器还可以喺人类嘅社交媒体和人类嘅交流之度，对人类产生影响。

所以我觉得要从两方面讲。从人类本身来讲，我哋要避免呢种能够进行情感交流嘅机器对我哋产生嘅负面作用。从人类对机器嘅防范角度来讲，我哋系唔系也应该喺人工智能将来嘅设计中设计一啲规范，或者制定一啲人工智能设计嘅准则和法则，从而最大程度地让机器和人能够对社会发展有促进作用，能够避免一啲可能对社会产生嘅唔利影响。

像人一样自然流畅噉讲话，下一代智能对话系统仲有多长嘅路要走？

黄民烈：有知识、有个性和有情感嘅下一代对话系统

张岳：开放领域对话嘅挑战思索

圆桌论坛：智能机器人未来面临技术 & 伦理双重难点

最新内容