微软小冰聊天机器人时代 - 51区未解之谜网

雷锋人工智能技术回顾：在2018年EMNLP大会上，微软首席科学家吴伟、北京大学副教授严瑞对近年来聊天机器人的研究成果进行了全面总结，并展望了聊天机器人的未来研究趋势。

近日，在雷锋爱学院公开课上，微软小兵首席科学家吴伟在EMNLP大会上为大家介绍了其分享的精髓。

微软小兵首席科学家吴伟主要研究自然人机对话、自然语言处理、机器学习和信息检索；为微软小兵的第二代至第六代对话引擎提供核心算法，并带领团队开发第五代小兵和T的生成模型。他是第六代小兵的同情心典范。

本次公开课主要在2018年的EMNLP大会上与北京大学严瑞教授分享导师分享的精髓。

聊天机器人最近很流行，我在谷歌学者的高级搜索中做了一个小实验，用关键字chatrobot搜索文章。它要求文章标题必须包含单词chatbot。经过统计发现，标题中chatbot一词的文章数量从2015年到2017年呈指数增长，当然，这项实验还不完整。一些标题为对话模式的文章也涉及聊天机器人，尽管标题中没有聊天机器人，所以我们可以想象它在学术界有多热。

此外，在业内，亚马逊和Facebook也举办了一些比赛，如亚马逊举办了两次Alexa大奖赛，Facebook也在NIPS上举办了两次聊天机器人比赛，引起了很多人的关注，同时，大公司基本上都有自己的聊天机器人产品，如微软有小兵、苹果等。有Siri等等。

今天我们来谈谈通用聊天，它指的是微软小兵在整个行业中的影响力。小兵于2014年在中国发布，然后在日本、美国、印度和印度尼西亚以每年登陆一个国家的速度发布。现在，它在全球拥有6亿以上的用户，产生了300多亿次对话。NS。

小兵背后的核心是对话引擎，传统的对话引擎以任务为导向，分为以下几个模块：

当然，整个过程还需要与知识库交互：如果用户提供的信息足够，对话引擎需要从知识库中为用户找到答案；如果不足够，需要再次向用户询问更多信息。

随着大数据时代的到来和深度学习技术的发展，会话引擎也发生了变化：语言理解、会话管理和语言生成模块被简化为支持端到端培训的统计模型，这是我们今天将关注的统计模型。

有两种基本方法可以在学术界或行业中构建一个非任务导向或通用的聊天对话引擎：

但Word2vec和Glove不能解决单词变形的问题。例如，学习、学习和学习英语都表达了一个意思。但这两种方法都将这些意义相同、形式不同的单词视为不同的单词，从而导致信息的冗余或丢失，为此，Facebook研究所提出了一个FastText模型，旨在模拟单词的变形：

自然语言处理中的句子可以看作一个字符串，句子的表示可以通过一般的词表示来实现。一般来说，有两种方法：

（有关NLP中深入学习的这些基本概念的详细说明，请参阅00:09:00-00:25:05的视频）

其中，基于搜索的聊天机器人主要利用搜索引擎的学习排名等结果，其新特点是在给定上下文和候选响应的情况下，建立匹配模型来衡量候选响应是否可用作上下文响应，目前，检索是聊天机器人领域的一个研究热点。机器人，以及如何利用神经网络构造匹配模型是检索的重点。

I型框架具有简单、易于实现、在线系统效率高等优点。然而，在这个框架中也存在一些问题，例如信息丢失和不容易解释。正是这些问题促使第二个匹配模型框架——II型框架的提出。

第二类框架的思想是，由于信息丢失源于上下文在满足候选响应之前被压缩成一个小的向量，因此最好让上下文中的每个句子在开始时与候选响应交互，然后将交互信息提取到匹配的v中。然后利用RNN对匹配向量层次上的句子关系进行建模，生成匹配得分。

二类框架的优点是能够在匹配模型中充分存储上下文信息，具有良好的可解释性。然而，该框架也有一些缺点，如计算复杂度高。

下面是我们将要在WSDM2019中做的事情。这项工作的想法是：既然我们对I型和II型做了很好的研究，并且深入学习本质上是学习，我们可以优化匹配模型的表示以进一步提高模型的性能吗在这方面，我们的基本思想是在有如此多的表示的情况下，如何使用如此多的表示来产生一个更好的性能模型，结果表明，融合这些表示是有用的，但实现方法非常精巧：

在用户输入后，系统通过自然语言的生成来合成一个响应，即机器人生成一个响应作为输出，生成方法的基本模型是编码器注意解码器的结构，它借鉴了机器翻译的思想。

生成性对话也是当前一个备受关注的话题，相关著作也不少，但今天，由于时间有限，我只介绍这三个问题。

那么，为什么会有普遍的反应呢实际上，对话是一个一对多的问题，也就是说，对一个输入可能有许多响应，整个对话过程不像机器翻译那么简单。机器人根据对话生成关联，然后根据这些关联合成响应。

在此基础上，利用神经网络进行建模，并在编码器和译码的体系结构中增加了一个课题的关注点。

在AAAI2018的一个作品中，我们对上下文进行了建模，其思想是：由于上下文具有层次结构，我们使用句子级GRU和单词级GRU来建模单词和句子之间的顺序关系，并且还使用句子级注意和单词级注意来生成句子，句子中的单词和在整个上下文中分别比较了哪些句子。重要的是，除了非常好的结果外，模型还具有很强的解释力。

（有关AAAI2018上下文建模工作的详细说明，请在00:58:00查看视频。）

最后，我们讨论了如何解决对话中的解码效率问题，我们观察到系统的解码效率很低，因为它需要扫描每个预测单词的整个词汇表，但实际上只有系统的一小部分可以用来回复输入。

为此，我们的想法是先用过滤器过滤掉大部分可能不相关的单词，然后在生成的响应中只考虑剩余单词的一小部分，从而将静态词汇转化为动态词汇。对于每个输入，词汇表都是不同的。

（关于解决解码效率问题的具体说明，以及发电模型在印尼小兵的实际应用，请参考1:00:00的视频。

在聊天机器人时代，会话引擎扮演着非常重要的角色。目前，两种主要的方法都是基于检索和生成方法的，对它们进行了大量的研究，但实现真正的人机对话还有很长的路要走。