【402com永利1站】资源 | 让AI学会刨根问底和放飞自我,斯坦福最新问答数据集CoQA

原标题:资源 | 让AI学会刨根问底和放飞自我,斯坦福最新问答数据集CoQA

Recent Trends in Deep Learning Based Natural Language Processing

本文是一篇 deep learning in NLP 的综述,详细地介绍了 DL 在 NLP
中的模型以及应用,还对几大经典和热门任务做了摘要,推荐给大家。

文章来源

2017年8月发在ArXiv上的一篇综述。对各种深度学习模型和策略在NLP各种任务上的应用和演进进行了介绍。链接:https://arxiv.org/abs/1708.02709

摘要

深度学习方法采用多个处理层来学习数据的分层表示,并在许多领域中产生了最先进的结果。
最近,在自然语言处理(NLP)的背景下,各种模型设计和方法已经发展。
在本文中,我们回顾了大量的深入学习相关的模型和方法,这些模型和方法已经被用于许多NLP任务,并提供了他们演进的步态。
我们还对各种模式进行了总结,比较和对比,并对NLP中的深入学习的过去,现在和未来进行了详细的了解。

论文摘要

选自arXiv

1. 介绍

自然语言处理(NLP)是用于自动分析和表示人类语言的理论动机的计算技术。
NLP研究从打卡(the era of punch cards
)和批量处理的时代演变而来,那时一句话的分析可能需要7分钟,到谷歌等时代,数百万的网页可以在秒一下的时间处理完毕(Cambria
and White,2014)。
NLP使计算机能够在所有级别执行广泛的自然语言相关任务,从解析和部分(POS)标记到机器翻译和对话系统。NLP使计算机能够在所有级别执行广泛的自然语言相关任务,从词语解析和词性标注(POS)到机器翻译和对话系统。

深度学习架构和算法已经在诸如计算机视觉和模式识别等领域取得了显着进步。按照这种趋势,最近的NLP研究正在越来越多地关注使用新的深度学习方法(见图1)。几十年来,针对NLP问题的机器学习方法基于在大尺寸和稀疏特征上训练的浅模型(例如,SVM和逻辑回归)。在过去几年中,基于密集向量表示的神经网络已经在各种NLP任务上产生了优异的结果。这种趋势是词嵌入成功-Word
Embedding(Mikolov et
al。,2010,2013a)和深度学习方法(Socher等,2013)引发的。深度学习能够实现多级自动特征表征学习。然而,传统的基于机器学习的NLP系统大量与手工提取特征联系。手工提取特征是耗时且经常不完整的。

(Collobert等,2011)表明,简单的深入学习框架在大多NLP任务中胜过大多数最先进的方法,如命名实体识别(NER),语义角色标注(SRL),和词性标注。从那时起,已经提出了许多复杂的基于深度学习的算法来解决困难的NLP任务。我们回顾了应用于自旋语言任务的主要深度学习相关模型和方法,如卷积神经网络(CNN),循环神经网络(RNN)和递归神经网络。我们还讨论了增加记忆的策略,attention机制,以及如何在语言相关任务中采用无监督模型,强化学习方法和最近的深层次的生成模型。

据我们所知,本篇论文是今天在NLP研究中全面覆盖大部分深度学习方法的首次提出。
(Goldberg,2016年)最近的工作以教学方式介绍了NLP的深入学习方法,主要是分布式语义技术概述,即word2vec和CNN。在他的工作中,戈德伯格没有讨论各种深层次的学习架构。这篇论文将给读者一个更全面的了解这个领域当前的做法。

本文的结构如下:第二部分介绍了分布式表示的概念,是复杂深度学习模型的基础;
接下来,第三节,第四节和第五节讨论了卷积,循环和递归神经网络等流行模型,以及它们在各种NLP任务中的使用;
以下,第六节列出了NLP中强化学习的最新应用和未受监督的句子表示学习的新发展;
之后,第七部分展示了近来与内存模块耦合的深度学习模式的趋势;
最后,第八部分总结了关于主要NLP主题的标准数据集的一系列深度学习方法的表现。

402com永利1站 1

图1:ACL,EMNLP,EACL,NAACL在过去6年的深度学习论文的百分比(长篇论文)。

论文目的

This paper proposes dynamic chunk reader (DCR), an end-to-end neural
reading comprehension (RC) model that is able to extract and rank a set
of answer candidates from a given document to answer questions.
这篇文章提出了一种端对端的神经网络阅读理解模型--动态块阅读器,能够从文档中提取候选答案并对答案进行排序。

作者:**Siva Reddy、Danqi Chen、Christopher D. Manning
**

2. 分布式的向量化表示

统计NLP已成为复杂自然语言任务建模的主要选择。
然而,一开始,由于语言模型中词汇数量过大,它易在学习语言模型的联合概率函数时遭受维度灾难。
因此需要将词汇编码到更低维度的向量空间中。Word Embedding、Character
Embedding等不同层次的元素分布式表示是很多NLP任务近年来效果不断提升的基础。

模型概述

dataset: Stanford Question Answering Dataset (SQuAD) which contains a
variety of human-generated factoid and non-factoid questions, have shown
the effectiveness of above three contributions.
DCR encodes a document and an input question with recurrent neural
networks, and then applies a word-by-word attention mechanism to
acquire question-aware representations for the document, followed by the
generation of chunk representations and a ranking module to propose the
top-ranked chunk as the answer.
DCR用RNN对文章和问题进行编码,然后应用word-by-word的注意力机制来获取问题敏感的文档表达,接下用生成答案的块表达,最后用一个排序模块选择得分最高的答案作为最终结果。

参与:白悦、王淑婷

A. Word Embeddings(见文章word2vec总结)

这种embedding模型现在基本上都是浅层神经网络,并没有需要深层网络来产生良好的embedding。
然而,基于深度学习的NLP模型总是用这些embedding来代表字,短语甚至句子。
这实际上是传统的基于字数统计的模型和基于深度学习的模型之间的主要区别。
Word embedding在广泛的NLP任务中产生了state of
art的效果(Weston等人,2011; Socher等,2011a; Turney和Pantel,2010)。

结果

DCR achieves state-of-the-art exact match and F1 scores on the SQuAD
dataset.
实验结果表明,DCR在SQuAD数据集上EM值和F1值都达到了理想的结果。

style="font-size: 16px;">以往的对话问答数据集,大多把答案限定在了给定段落的范围内,这种答案有时候不仅不自然,而且还要依赖问题与段落之间的词汇相似性。导致机器有时答非所问,显得有点笨拙。本文提出的一种新型对话数据集
CoQA,囊括来自 7 个不同领域的文本段落里 8000 个对话中的 127,000
轮问答,内容丰富。而且该问答系统支持自由形式的答案,使机器回答问题不再那么一板一眼,而是灵活多样。

B. Word2vec(见文章word2vec总结)

表I提供了经常用于创建进一步embedding方法深度学习模型现有框架的目录。

402com永利1站 2

研究背景

** Reading comprehension-based question answering (RCQA)**
基于阅读理解的问答研究

  • The task of answering a question with a chunk of text taken from
    related document(s).
    任务是从相关文档中提取一段文本作为答案。
  • In previous models, an answer boundary is either easy to determine
    or already given.
    在之前的提出的模型中,问题答案或者容易确定,或者已经给定。
  • In the real-world QA scenario, people may ask questions about both
    entities (factoid) and non-entities such as explanations and reasons
    (non-factoid)
    在现实世界的QA场景中,问题的形式既有关于实体的(factoid),又有非实体的(non-factoid),比如寻求解释或者原因(non-factoid)。

我们通常以提问的方式来向别人求解或测试对方。然后根据对方的回答,我们会继续提问,然后他们又基于之前的讨论来回答。这种循序渐进的方式使对话变得简洁明了。无法建立和维持这种问答方式是虚拟助手无法成为可靠对话伙伴的部分原因。本文提出了
CoQA,一个衡量机器参与问答式对话能力的对话问答数据集。在 CoQA
中,机器必须理解文本段落并回答对话中出现的一系列问题。研究人员开发 CoQA
时主要考虑了三个主要目标。

C. Character Embeddings(字符embedding)

google的参考地址http://colinmorris.github.io/blog/1b-words-char-embeddings

Word
Embedding能够捕获句法和语义信息,但是对于POS标注和NER等任务,形态和形状信息也是非常有用的。一般来说,在character
层面构建自然语言理解系统的已引起了一定的研究关注, (Kim et al., 2016;
Dos Santos and Gatti, 2014;Santos and Guimaraes, 2015; Santos and
Zadrozny, 2014).

在某些形态丰富的语言的NLP任务中的表现出更好的结果。
(Santos和Guimaraes,2015)应用字符层次的表示,以及NER的词嵌入,在葡萄牙语和西班牙语语料库中实现最先进的结果。(Kim等人,2016)在仅使用字符嵌入构建的神经语言模型方面显示出积极的效果。
(Ma et
al。,2016)利用了包括字符三元组在内的几个embedding,以纳入在NER的上下文中学习预训练的标签嵌入的原型和分层信息。Ma
et
al。,2016)利用了包括字符三元组在内的几个嵌入,以纳入在NER的上下文中学习预训练的标签嵌入的原型和分层信息。

Charactee
embedding也自然能处理未登录单词的问题,因为每个单词都被认为不仅仅是单个字母的组合。语言学中认为,文本不是由单独的单词组成,单词和单词的语义也映射到其组成字符中(如中文),character层次的构建系统是避免单词分割的自然选择(Chen
et al。,2015A)。
因此,使用这种语言的深度学习应用的作品往往倾向于character
embedding超过word embedding(Zheng et al。,2013)。 例如(Peng et
al。,2017)证明, radical-level processing可以大大提高情绪分类的表现。
特别是,他们提出了两种类型的基于中文的 radical-based hierarchical
embeddings,其中不仅包含radical和character层面的语义,而且包含情感信息。

问题类型:factoid&non-factoid##\

Q1和 Q2属于factoid类型的问题,Q3属于non-factoid类型的问题

402com永利1站 3

Paste_Image.png

** Dynamic chunk reader **

  • uses deep networks to learn better representations for candidate
    answer chunks, instead of using fixed feature representations
    Second
    用深度网络学习候选答案更好的表达
  • it represents answer candidates as chunks, instead of word-level
    representations
    候选答案是基于块表达,而不是词表达。

** Contributions**
three-fold

  • propose a novel neural network model for joint candidate answer
    chunking and ranking.
    论文提出一个新的神经网络模型以结合候选答案块和排序,答案以一种端对端的形式构建和排序。
    In this model the candidate answer chunks are dynamically
    constructed and ranked in an end-to-end manner
  • propose a new ** question-attention mechanism ** to enhance
    passage word representation used to construct chunk
    representations.
    提出了一种新的问题-注意力机制来加强段落中词语表达,用来构建块表达
  • propose several simple but effective features to strengthen the
    attention mechanism, which fundamentally improves candidate
    ranking。
    提出了几种简单但有效的特征来增强注意力机制,这种做法能从根本上排序部分的准确性。

402com永利1站 4

3. 卷积神经网络

CNN能够有效的挖掘上下文窗口中的语义信息,抽取句子中的主要含义,但是也存在参数多需要大量数据、长距离上下文信息的编码和位置信息的编码等问题。文中对经典CNN及windows-based-CNN、DCNN、TDNN等变种在情感分析、文本分类等任务上的有效应用进行了描述。

(Collobert和Weston,2008)首次使用CNN训练句子模型,他们在工作中使用多任务学习来为不同的NLP任务输出预测,如POS标注,块,命名实体标注,语义角色,语义相似度计算和语言模型。使用查找表将每个单词转换成用户定义维度的向量。因此,通过将查找表应用到其每个单词(图5),输入的n个单词被转化成一系列向量。

402com永利1站 5

这可以被认为是在网络训练中学习权重的原始词嵌入方法。 在(Collobert et
al。,2011)中,Collobert提出一个基于CNN的通用框架来解决大量的NLP任务扩展了他的观点。
这两项工作都引发了NLP研究中CNNs的广泛普及。
鉴于CNN在计算机视觉的良好表现,人们更容易相信他在nlp中的表现。

CNN有能力从输入句中提取突出的n-gram特征,为下游任务创建一个信息性潜在语义表示的句子。
该应用程序是由(Collobert等人,2011; Kalchbrenner等,2014;
Kim,2014)的作品开创的,这也导致了后续文献中CNN网络的巨大扩散。

论文要点

图 1:CoQA
数据集中的一个对话。每个回合都包含一个问题(Qi),一个答案(Ai)和支持答案的理由(Ri)。

4. 循环神经网络

RNN的结构符合语言内在的序列特征,而且能够处理任意长度的文本序列。RNN及其变种LSTM、GRU等在本文处理任务中得到了非常普遍的应用。

最新发展是引入了注意力机制

问题定义

基于一个段落P,通过选择一个句子A,回答一个事实型的或者非事实型的问题Q。
Q,P,A都是句子序列,共用一个词汇表V。
训练集的组成为三元组(P,Q,A)
RC任务类型:
quiz-style,MovieQA:问题有多个选项
Cloze-style:通常通过代替在句子中的空格来自动生成答案。
answer selection:从文本中选择一部分作为答案。
TREC-QA:从给定的多个段落文本中提起factoid答案
bAbI::推断意图
SQuAD数据集:满足事实型和非事实型的答案提取,更接近于现实世界

首先要考虑的是人类对话中问题的性质。图 1
显示了正在阅读文章的两个人之间的对话,其中一个为提问者,另一个为回答者。在此次对话中,第一个问题之后的每个问题都是基于之前的对话。例如,Q5(Who?)只有一个单词,如果不知道之前的对话是不可能回答的。提出简短的问题对人类来说是一种有效的沟通方式,但对机器来说却是一种痛苦。众所周知,即使是最先进的模型在很大程度上也要依赖于问题与段落之间的词汇相似性(Chen
et al., 2016; Weissenborn et al.,
2017)。而目前,包含基于对话历史的问题的大规模阅读理解数据集(见表
1)仍未出现,而这正是 CoQA 的主要开发目的。

5. 递归神经网络

Baseline: Chunk-and-Rank Pipeline with Neural RC

for cloze-style tasks
修改了一个用于cloze-style tasks的最好的模型,用于这篇文章的答案提取。
It has two main components: 1)

  • Answer Chunking: a standalone answer chunker, which is trained to
    produce overlapping candidate chunks,
  • Feature Extraction and Ranking:a neural RC model, which is used to
    score each word in a given passage to be used thereafter for
    generating chunk scores.
    1)独立的答案区块,被训练以生成重叠候选区块;2)一个神经RC模型,被用来给文章中的每个词进行打分。具体解释如下:

402com永利1站 6

6. 深度强化模型与深度无监督学习

DCR

402com永利1站 7

Paste_Image.png

DCR works in four steps:

  • First, the encoder layer encode passage and question separately,
    by using bidirectional recurrent neural networks (RNN).
    编码层:应用bi-directional RNN encoder 对文章Pi 问题 Qi
    进行编码,得到每一个词的隐藏状态。
  • Second, the attention layer calculates the relevance of each passage
    word to the question.word-by-word style attention methods
    注意力层:应用word-by-word的注意力机制,计算段落中的每个单词到问题的相关度
  • Third, the chunk representation layer dynamically extracts the
    candidate chunks from the given passage, and create chunk
    representation that encodes the contextual information of each
    chunk.
    在得到attention
    layer的输出后,块表示层能动态生成一个候选答案块表示。首先是确定候选答案块的边界,然后找到一种方式pooling
  • Fourth, the ranker layer scores the relevance between the
    representations of a chunk and the given question, and ranks all
    candidate chunks using a softmax layer.
    排序层:计算每一个答案和问题的相关度(余弦相似性),用一个softmax
    层对候选答案进行排序。

表 1:CoQA
与现有大型阅读理解数据集的比较(约 10 万多个问题)。

A. 用于序列生成的强化模型

关于强化模型不太了解,学习ing(后面补充),通过一些论文开始学习;

1.#文本摘要#

A Deep Reinforced Model for Abstractive Summarization

用 Intra Attention+Supervisd/Reinforcement 混合学习,在 CNN/Daily Mail
数据集的生成式文摘上取得了较已有最好成绩 5.7 个 ROUGE 分的提升。工作来自
Metamind Socher 团队。

官方博客解读:MetaMind
Research

机器之心解读:https://www.jiqizhixin.com/articles/2017-05-13-4

论文链接:[1705.04304]A Deep Reinforced Model for Abstractive
Summarization

2.#图像标注#

google-Show and Tell:A Neural Image Caption Generator

简书讲解地址:http://www.jianshu.com/p/3330a56f0d5e

知乎讲解地址:https://zhuanlan.zhihu.com/p/27771046

B.无监督的句子表示学习

C.深度生成模型

对一些不可微的优化问题,将强化学习和深度神经网络结合的方式(尤其是在一些生成模型中)取得了不错的效果。

实验

CoQA
的第二个目标是确保对话中答案的自然性。很多现有的 QA
数据集把答案限制在给定段落的连续范围内,也被称之为可提取答案(表
1)。这样的答案有时候不是很自然,例如,图 1 中 Q4(How
many?)就没有可提取答案。在 CoQA
中,答案可以是自由形式的文本(抽象答案),而提取跨度则作为实际答案的参照。因此,Q4
的答案虽然只是简单的『Three』,但却是参照多句话所得出的结论。

7.记忆增强网络

Stanford Question Answering

Dataset (SQuAD)
特点:包含了factoid和non-factoid questions
100k 的来自维基百科的536篇文章的问题-文章对

CoQA 的第三个目标是构建跨域稳定执行的 QA
系统。当前的 QA
数据集主要集中在单个域上,所以难以测试现有模型的泛化能力。因此,研究人员从七个不同的领域收集数据集——儿童故事、文学、中学和高中英语考试、新闻、维基百科、科学和
Reddit。最后两个用于域外评估。

8. 总结

总结近几年发布的在标准数据集上的一系列深入学习方法在表III-VI中的7个主要NLP主题的表现,我们的目标是为读者提供常用数据集和不同模型的最新技术。

input word vector:5个部分

  1. a pre-trained 300-dimensional GloVe embedding
  • a one-hot encoding (46 dimensions) for the part-of-speech (POS) tag
    of w;
    一个46维的one-hot向量,用来表示词语的词性
  • a one-hot encoding (14 dimensions) for named entity (NE) tag of w;
    一个14维的one-hot 向量 ,用来小时词语的命名实体属性
  • a binary value indicating whether w’s surface form is the same to
    any word in the quesiton;
    一个二元值,表征一个词语的表面形式是否与问题的其他词语相同
  • if the lemma form of w is the same to any word in the question;

总而言之,CoQA 具有以下主要特征:

A.词性标注

WSJ-PTB(Penn Treebank
Dataset的华尔街日报部分)语料库包含117万个tokens,并被广泛用于开发和评估POS标注系统。
(Gim´enez and Marquez,
2004)采用了一个基于七单词窗口内的手动定义特征的一对多SVM模型,其中一些基本的n-gram模式被评估形成二进制特征,如:
“previous word is the”, ”two preceding tags are DT NN”, 等等.

训练

We pre-processed the SQuAD dataset using Stanford CoreNLP tool5 (Manning
et al.2014) with its default setting to tokenize the text and obtainthe
POS and NE annotations.
用 Stanford CoreNLP tool5这个工具对SQuAD 数据集进行预处理
To train our model, we used stochastic gradient descent with the ADAM
optimizer

  • 通过文本段落从 8000 个对话中收集了 127,000
    轮问答(每段约一个对话)。平均会话长度为 15
    回合,每回合包含一个问题和一个答案。
  • 自由形式的答案。每个答案都有一个提取理由,在段落中突出显示。
  • 文本段落来自七个不同的领域——五个用于域内评估,两个用于域外评估。

B. Parsing

实验结果

402com永利1站 8

Paste_Image.png

We also studied how each component in our model contributes to the
overall performance.

402com永利1站 9

Paste_Image.png

相关文章

Comment ()
评论是一种美德,说点什么吧,否则我会恨你的。。。