II Neural Reading Comprehension: Applications

Chapter 5 Open Domain Question Answering

在PART 1 中,我们描述了阅读理解的任务:它在最近这些年的形成和发展,神经阅读理解的关键组件,以及未来的研究方向。然而,阅读理解究竟只是用来衡量语言理解能力的一个任务还是可以赋能一些有用的应用依然不清晰。在PART II中,我们将回答这个问题,并且讨论我们在构建利用渗井阅读理解作为核心组件的应用。

在这章中,我们把open domain question answering看作一个阅读理解的应用。开放领域的问答在NLP的历史上有一个长期存在的问题。开放领域的问答的目标是建立自动化的计算机系统,能够回答任意种类(虚构)的人类可能会问的问题。而这个系统的建立是基于一个大的非结构话的自然语言文档,结构化数据(例如:知识库),半监督数据(例如:表格)或者其他形式的数据例如图片和视频。

我们是第一个在开放领域的QA框架里测试神经阅读理解方法的性能的。我们相信,当组和有效的信息提取技术结合的时候,这些系统的高性能会是构建新一代开放领域问答系统的关键要素。

这章的组织架构如下:

1、我们首先给出了open domain 问答以及历史上著名的系统的概览

2、我们介绍了一个我们构建的open-domain question answering system,DRQA,这个是设计来回答English Wikipedia的问题。它本质上组合了一个信息提取模块和我们在section3.2中描述的高性能神经阅读理解模块。

3、我们更进一步讨论了我们要如何改善系统,通过从检索模块创建distantly-supervised 训练示例。接着,我们提出了一个理解评估,在多个不同的问答benchmarks.

4、最后,我们讨论了现在的局限性,接下来的工作以及未来的方向。

5.1 A Brief History of Open-domain QA

问答系统是20世纪60年代NLP系统最早的任务之一。一个早期的系统是PROTOSYNTHEX 系统(Simmons et al., 19644),预示了现在基于文本的问答系统。系统首先基于问题中的单词形成一个query,然后根据与问题重叠的频率加权项检索候选答案句,最终实现依存解析匹配到最终答案。另一个著名的系统MURAX(Kupiec, 1993),被设计来回答GROLIER在线百科全书上的一般知识问题,使用浅层语言处理和信息检索(IR)技术。

自1999年QA赛道首次作为年度TREC竞赛的一部分被纳入以来,人们对开放领域问答的兴趣有所增加。该任务最初是这样定义的:系统检索包含开放领域问题答案的文本片段。它刺激了广泛的QA系统发展。大多数的系统包括两个阶段:一个IR系统用于选择和从问题中产生的query相匹配的文档或者篇章的topn,并且一个窗口词评分系统用于查明可能的答案。更多细节请参考(Voorhees, 1999;Moldovan等,2000)。

最近,随着知识库的发展(KBs)如FREEBASE(波尔-拉克尔et al ., 2008)和DBPEDIA(奥尔et al ., 2007),在基于KBs的问答系统下,许多创新和资源的创建出现,例如基于FREEBASE的WEBQUESTIONS(Berant et al.,2013)和SIMPLEQUESTIONS(Bordes et al., 2015),或者基于KBs自动提取的OpenIE triples 和NELL(FADER et al.,)。基于知识的问题回答已经取得了很大的进展,主要的方法要么是基于语义分析,要么是基于信息提取技术(Yao et al., 2014)。然而,KBs有固有的局限性(不完整和固定的模式),这促使研究人员最近回到原始文本回答的原始设置。

http://ww1.sinaimg.cn/large/006tNc79ly1g5erulnbi6j30oy0feacm.jpgimage-20190727223543707

也有一些高开发度的使用无数资源的完整管道QA方法,包括文本集合(Web页面、Wikipedia、newswire文章)和结构化知识库(FREEBASE、DBPEDIA等)。一些著名的系统——包含微软ASKMSR(布里尔et al ., 2002), IBM的DEEPQA(费鲁奇et al ., 2010)和YODAQA (Baudisˇ,2015)——后者是开源的,因此复现作为对比使用。ASKMSR是一个基于搜索引擎的QA系统,它依赖于“数据冗余,而不是对问题或候选答案进行复杂的语言分析”。DEEPQA是最具代表性的现代问答系统,它在电视游戏节目《危险边缘》(JEOPARDY!)2011年受到了广泛关注。它是一个非常复杂的系统,由管道中的许多不同部分组成,它依赖于非结构化信息和结构化数据来生成候选答案或对证据进行投票。概览结构如图5.1所示。YODAQA是一个模仿DEEPQA的开源系统,类似地结合了网站、数据库和Wikipedia。与这些方法相比,(YODAQA)为性能的“上限”基准测试提供了一个有用的数据点。

最后,还有其他基于不同资源类型的问题回答类型,包括Web表格(Pasupat和Liang, 2015)、图像(Antol等,2015)、图表(Kembhavi等,2017),甚至视频(Tapaswi等,2016)。由于我们的工作重点是基于文本的问题回答,所以我们不会深入讨论更多细节。

我们的DRQA系统(章节5.2)侧重于使用Wikipedia作为唯一的知识来源来回答问题,例如在百科全书中寻找答案时使用Wikipedia。使用Wikipedia作为资源的QA以前已经被探索过。Ryu等人(2014)使用基于wiki的知识模型执行开放域QA。它们将文章内容与基于不同类型的半结构化知识(如信息框、文章结构、类别结构和定义)的多个其他答案匹配模块相结合。类似地, Ahn et al.(2004)也将Wikipedia作为文本资源与其他资源相结合,在本例中是与其他文档的信息检索相结合的。Buscaldi和Rosso(2006)也从Wikipedia中为QA挖掘知识。他们不把它用作寻找问题答案的资源,而是专注于验证QA系统返回的答案,并使用Wikipedia分类确定一组应该与预期答案相匹配的模式。在我们的工作中,我们只考虑文本的理解,并使用维基百科文本文档作为唯一的资源,以强调阅读理解的任务。我们相信增加其他的知识来源或信息将进一步提高我们系统的性能。

5.2 Our System: DRQA

5.2.1 An Overview

在接下来的文章中,我们将描述我们的系统DRQA,它专注于使用英文维基百科作为文档的唯一知识来源来回答问题。我们感兴趣的是建立一个通用知识的问题回答系统,它可以回答任何类型的虚构性问题,其中的答案包含在维基百科中,并可以从维基百科中提取。

我们选择使用维基百科有以下几个原因:1)维基百科是一个不断发展的大型、丰富、详细的信息来源,可以为智能机器提供便利。与诸如FREEBASE或DBPEDIA之类的知识库(KBs)不同的是,Wikipedia包含了人类感兴趣的最新知识。许多阅读理解数据集(例如,SQUARD)都是建立在维基百科上的,这样我们就可以充分利用这些资源,我们很快就会对其进行描述。3)一般来说,维基百科的文章干净、高质量、格式良好,对开放领域的问题回答来说是非常有用的资源。

利用维基百科的文章作为知识来源,导致问答题的任务结合大规模开放领域QA和文本机器理解的挑战。要回答任何问题,首先必须从500多万项中检索出少数相关的文章,然后仔细扫描它们以确定答案。这让我们想起了经典的TREC QA系统是如何工作的,但是我们相信神经阅读理解模型将在阅读检索到的文章/段落以获得最终答案时发挥至关重要的作用。如图5.2所示,我们的系统基本上由两个组件组成:(1)用于查找相关文章的文档检索模块(DOCUMENT RETRIEVER module)和(2)用于从单个文档或少量文档集合中提取答案的阅读理解模型DOCUMENT READER。

我们的系统把维基百科当作一个文章的集合,不依赖于它的内部图结构。因此,我们的方法是通用的,可以切换到其他文档、书籍甚至每日更新的报纸集合。接下来,我们将详细介绍这两个组件。

5.2.2 Document Retriever

遵循经典的QA系统,我们使用一个高效的(非机器学习)文档检索系统,首先缩小搜索空间,只阅读可能相关的文章。相对于内建的基于弹性搜索的Wikipedia搜索API (Gormley and Tong, 2015),一个简单的倒排索引查找,然后是术语向量模型评分,在许多问题类型上都能很好地完成这项任务。将文章和问题作为TF-IDF加权bag-of-word向量进行比较。

我们进一步完善了该系统,采用n-gram特征考虑了局部语序。我们性能最好的系统使用了bigram计数,同时通过使用hashing of (Weinberger et al., 2009)将bigram映射到224个带有unsigned murmur3 hash的桶(bin),从而保持了速度和内存效率。

我们使用DOCUMENT RETRIEVER作为完整模型的第一部分,将其设置为返回给定问题的5篇Wikipedia文章。然后文档阅读器(Document Reader)处理这些文章。

http://ww3.sinaimg.cn/large/006tNc79ly1g5es12g79sj30oa0gydj8.jpgimage-20190727224157366

5.2.3 Document Reader

Document Reader阅读维基百科前5篇文章,旨在阅读所有的段落图,并从中提取可能的答案。这正是我们在基于西班牙语的阅读理解问题中所做的设置,我们在第3.2节中描述的STANFORD ATTENTION READER模型可以直接插入到这个管道中。

我们将训练好的Document Reader应用于出现在维基百科前5篇文章中的每一段,它会预测出一个置信度得分的答案跨度。为了使一个或多个检索到的文档的段落之间的分数兼容,我们使用非标准化指数,并在所有考虑的段落跨度上使用argmax作为最终预测。这只是一个非常简单的启发式方法,还有更好的方法聚合不同段落的证据。我们将在第5.4节中讨论未来的工作。

5.2.4 Distant Supervision

我们建立了一个完整的管道,集成了经典检索模块和我们之前的神经阅读理解组件。剩下的关键问题是我们如何训练这个阅读理解模块用于开放式的问题回答设置。

最直接的方法是重用SQUAD数据集(Rajpurkar et al., 2016)作为训练语料库,该语料库也是建立在Wikipedia段落之上的。但是,这种方法在以下方面受到限制:

  • 正如我们之前在4.2节中所讨论的,SQUAD中的问题是被众包的,在标注者看到段落之后,要确保这些问题可以通过段落中的跨度得到回答。这种分布是非常具体的,与现实世界中的,当人们首先想到一个问题,并试图从网络或其他资源中找到答案时的问答不同。。
  • 许多SQUAD的问题确实与背景有关。例如,在维基百科上哈佛大学的一篇文章中,一个问题what individual is the school named after?或者另一个根据一段描述马丁·路德的文章的问题是What did Luther call these donations?。基本上,这些问题本身无法理解,因此对于开放领域的QA 问题毫无用处。Clark和Gardner(2018)估计,SQUAD中约有32.6%的问题依赖于文件或篇章。
  • 最后,SQUAD的规模是相当小的(80k训练的例子)。如果我们能够收集到更多的训练实例,它应该就可以进一步提高系统性能。

为了克服这些问题,我们提出了一个过程,从其他问题回答资源自动创建额外的训练示例。这个想法是为了重用我们建立的有效的信息检索模块:如果我们已经有了一个问答对(q,a)并且检索模块可以帮助我们找到一个与问题q相关的段落以及答案片段a出现的段落,那么我们可以创建一个形如(p,q,a)三元组的distantly-supervised训练示例,提供给阅读理解模块进行训练。

$$f : (q,a) =⇒ (p,q,a)$$(5.1)

if p ∈ Document Retriever (q) and a appears in p

这一想法与使用远程监督 (DS)提取关系的流行方法类似(Mintz et al., 2009) 2。尽管这些例子可能在某种程度上是有噪声的,但它提供了一个廉价的解决方案来创建远程监督的例子,可以用于开放领域的问题回答,并将是一个有用的补充SQUAD的例子。我们将在第5.3节中描述这些远程监督示例的有效性。

5.3 Evaluation

我们有了DRQA系统的所有基本元素,让我们来看看评估。

5.3.1 Question Answering Datasets

第一个问题是我们应该评估哪些问题回答数据集。正如我们所讨论的,SQUAD是目前可用来回答问题的最大的通用QA数据集之一,但它与开放域QA设置有很大的不同。我们认为在别的为开放领域QA的开发的数据集上训练和评估我们的系统的话,需要以不同的方式构建(这些数据集)。因此,我们采用以下三个数据集:

TREC 这个数据集是基于TREC的基准测试任务,策划了Baudisˇ和Sˇedivy”(2015)。我们使用大的版本,其中包含从TREC 1999、2000、2001和2002.3的数据集中提取的总共2180个问题。关于问题:when is fashion week in NYC?因此,Sept(ember)?|Feb(ruary)?的答案都被认为是正确的。

WebQustions Berant等人(2013)介绍的网络问题,这个数据集是为了回答来自Freebase知识库的问题而构建的。它是通过在谷歌SUGGEST API中爬取问题创建的,然后使用Amazon Mechanical Turk获得答案。我们使用实体名称将每个答案转换为文本,这样数据集就不会引用Freebase id,而完全由纯文本问答对组成。

**WikiMovies ** 这个数据集是Miller等人(2016)引入的,包含电影领域的96k个问答对。这些示例最初是从OMDB和MOVIE- LENS数据库创建的,所以这些例子还可以使用Wikipedia的子集作为知识源(电影领域的标题和文章的第一部分)进行回答。

我们想强调的是,这些数据集不一定收集在基于Wikipedia的回答上下文中。TREC数据集主要用于基于文本的问答(主要的TREC文档集主要由newswire的文章组成),而WEBQUESTIONS和WIKIMOVIES主要用于基于知识的问答。我们将所有这些资源放在一个统一的框架中,并测试我们的系统在回答所有的问题是表现如何——希望它能够反映通用知识QA的性能。

表5.1和图5.3给出了这些QA数据集的详细统计。正如我们所看到的,SQUAD样本的分布与其他QA数据集有很大的不同。由于建造方法的原因,小队有更长的问题(平均10.4个toekns对6.7-7.5个toekns)。此外,所有这些数据集都有简短的答案(尽管在小队中的答案稍微长一些),而且大多数都是虚构的。

请注意,这些QA数据集中的许多问题可能有多个答案(参见表5.1中的# answers列)。例如,对于what language do people speak in Pakistan,有两个有效的答案:英语和乌尔都语。WEBQUESTIONS。由于我们的系统设计为返回一个答案,所以我们的评估认为,如果预测给出了任何黄金答案(正确答案),那么预测都是正确的。

http://ww4.sinaimg.cn/large/006tNc79ly1g5es4rtnkpj30om0fkq45.jpgimage-20190727224530168

http://ww4.sinaimg.cn/large/006tNc79ly1g5es52c3qgj30oi09smyj.jpgimage-20190727224547134

5.3.2 Implementation Details

5.3.2.1 Processing Wikipedia

我们使用2016-12-21 转存的英文Wikipedia作为我们所有完整实验的用于问答知识的来源。对于每个页面,我们仅仅提取纯文本,并且所有的结构化数据片段例如表格和图片都被剥离了。在消除内部歧义、列表、索引和大纲之后,我们保留了5,075,182篇文章,其中包含9,008,962种独特的无大小写toekn类型。

5.3.2.2 Distantly-supervised data

我们对来自每个数据集的训练部分的每个问答对使用以下过程来构建我们的远程监督训练示例。首先,我们对问题运行DOCUMENT RETRIEVER来检索维基百科前5篇文章。那些文章中没有与已知答案精确匹配的所有段落将直接被丢弃。所有短于25或长于1500个字符的段落也将被过滤掉。如果在问题中检测到任何命名实体,我们将删除完全不包含它们的任何段落。对于检索到的每个页面中的每个剩余段落,我们使用问题与20个toekn窗口之间的unigram和bigram重叠对匹配答案的所有位置进行评分,以保持与重叠最多的前5个段落一致。如果没有非零重叠的段落,则丢弃该示例;否则,我们将每个找到的对添加到DS训练数据集中。图5.4显示了一些示例,表5.1(列# DS Train)给出了我们为培训创建的远程监督示例的数量。

http://ww4.sinaimg.cn/large/006tNc79ly1g5es5gb2ybj30ou0n0gqe.jpgimage-20190727224609767

5.3.3 Document Retriever Performance

我们首先检查检索模块在所有QA数据集上的性能。表5.2将第5.2.2节中描述的两种方法的性能与Wikipedia搜索引擎在查找包含给定问题答案的文章方面的性能进行了比较。

具体地说,我们计算每个系统返回的前5个相关页面中,任何相关答案的文本跨度至少出现在其中一个页面中的问题的比例。在所有数据集上的结果表明,我们的简单方法比Wikipedia搜索更出色,特别是在bigram哈希的情况下。我们还比较了用Okapi BM25进行检索,或者在单词embeddings空间中使用余弦距离(将问题和文章编码为bag-of-embeddings),我们发现这两种方法的性能都更差。

http://ww3.sinaimg.cn/large/006tNc79ly1g5es5xhznxj30og08q75e.jpgimage-20190727224637771

5.3.4 Final Results

最后,我们使用所有这些数据集对全系统DRQA进行性能评估,让其作答开放域问题。我们比较了三个版本的DRQA,它们评估了在提供给DOCUMENT READER的训练资源上使用远程监督和多任务学习的影响(在每种情况下DOCUMENT RETRIEVER保持相同)

  • SQUAD:只在SQUAD训练集上训练单一的DOCUMENT READER模型,并用于所有的评估集。我们使用了我们在5.2节中描述的模型(在SQUAD的测试集上,F1的成绩是79.0%)。
  • Fine-tune(DS):DOCUMENT READER模型在SQUAD上进行预训练,然后使用其远程监督(DS)训练对每个数据集进行独立的微调
  • 多任务(DS):在SQUAD训练集和所有的远程监督例子上联合训练一个单一的DOCUMENT READER。

对于全维基百科设置,我们使用一个流模型而不使用CORENLP解析ftoken特征,或者辅助引理fexact_match。我们发现尽管在SQUAD中有这些更加精确的匹配段落阅读,并不能在全设置下提升结果。额外的,WEBQUESTIONS 和 WIKIMOVIES提供了候选答案的一个列表(WEBQUESTIONS的1.6百万的freebase实体串和WIKIMOVIES的76k电影相关实体),并且在预测的时候,我们限制了答案范围必须在这些列表中。

http://ww4.sinaimg.cn/large/006tNc79ly1g5es652pf2j30oc08ogmw.jpgimage-20190727224649606

表格5.3呈现出了结果。我们仅仅考虑top 1,精准匹配的准确度,这是非常严苛和具有挑战性的设置。在原始paper(Chen et al., 2017)中,我们也评估了SQUAD中的quesiton/answer对。我们在这里忽略了他们因为至少有三分之一的问题是上下文相关的并且不适合于开放领域的QA。

尽管和阅读理解任务(给定正确的段落)和没有限制的QA任务(使用冗余资源)相比,这个任务很困难,DRQA依然在所有的四个数据集上表现出了可观的性能。

我们对能够利用Wikipedia回答任何问题的,单一的,全系统感兴趣。仅仅在SQUAD上面训练的单一模型在所有的数据集上都优于使用远程监督的多任务模型。然而,仅仅在SQUAD上面单独训练,性能也并不差,说明存在任务迁移的情况。然而,从SQUAD到多任务(DS)学习的主要提升,可能不是来自任务转换,因为仅使用DS对每个数据集进行微调也会带来改进,这表明在同一领域引入额外的数据会有所帮助。然而,我们能找到的最好的单一模型是我们的总体目标,即多任务系统。

给定之前在TREC和WEBQUESTIONS上面的结果,我们和系统YODAQA进行比较 (Baudisˇ,2015)(一个利用冗余资源的无约束QA系统)。尽管任务难度在增加,但是我们的性能并没有太落后于TREC(31.3 VS 25.4),这一点让我们松了一口气。在WEBQUESTIONS上的差距稍微大一些,可能是因为这个数据集是由YODAQA直接使用的FREEBASE的特定结构创建的。

我们也包括了我们的模型DRQA*增强版本的结果,该模型已在Raison等人(2018)中提出。最大的变化是这种阅读理解模型是直接在维基百科文章上训练和评估的,而不是在段落上(文档平均比单个段落大40倍)。正如我们所看到的,所有数据集的性能都得到了一致的提高,因此与YODAQA的差距进一步缩小。

http://ww2.sinaimg.cn/large/006tNc79ly1g5es6gjxcbj30q60skwkd.jpgimage-20190727224707214

http://ww1.sinaimg.cn/large/006tNc79ly1g5es6o5xzij30pw0moq7f.jpgimage-20190727224717709

最近,我们的DRQA系统已经在github(https://github.com/facebookresearch/DrQA

,部署了多任务(DS)系统)上进行开源。就像看到的,我们的系统能够针对这些虚构问题返回一个精准的答案并且回答一些比较困难的问题:

(a) It is not trivial to identify that a computer science discipline within the fields of infor- mation retrieval and natural language processing is the complete noun phrase and the correct answer although the question is pretty simple.

. (b) Our system finds the answer in another Wikipedia article Stanford Memorial Church, and gives the exactly correct answer California as the state (instead of Stanford or United States).

. (c) To get the correct answer, the system needs to understand the syntactic structure of the question and the context Who invented LSTM*?* and a deep learning method called Long short-term memory LSTM), a recurrent neural network published by Sepp Hochreiter & Ju ̈rgen Schmidhuber in 1997.

从概念上讲,我们的系统简单而优雅,并且不依赖于任何附加语言分析或外部或手工编码的资源(如字典)。我们认为这种方法对于新一代开放领域的问题回答系统具有很大的前景。在下一节中,我们将讨论当前的限制和进一步改进的可能方向。

5.4 Future Work

研究结果表明,信息检索与神经阅读压缩相结合是一种有效的开放式问题回答方法。我们希望我们的工作在这个研究方向上迈出第一步。然而,我们的系统还处于早期阶段,许多实现细节还有待进一步完善。

我们认为以下的研究方向将(大大)改善我们的DRQA系统,并应作为未来的工作进行。事实上,在我们发布了我们的DRQA系统之后,其中的一些想法已经在接下来的一年里得到了应用,我们也将在本节中详细描述它们。

Aggregating evidence from multiple paragraphs。我们的系统采用了最简单和直接的方法:我们对所有检索到的文章的非标准化分数使用argmax。这并不理想,因为1)这意味着每一篇文章都必须包含正确的答案(例如班例),因此我们的系统将为每一篇文章输出一个且仅一个答案。这确实不是大多数检索到的段落的情况。2)我们目前的培训模式并不能保证不同篇章的分数具有可比性,导致培训与评估过程存在差距。

对完整的Wikipedia文章进行培训是缓解这个问题的一种解决方案(参见表5.3中的DRQA*结果),但是,这些模型运行缓慢,难以并行化。Clark和Gardner(2018)提出采用修改后的训练目标进行多段训练,其中跨度开始和结束分数在从相同上下文中采样的所有段图中进行标准化。他们证明,这比单独训练单独的段落效果要好得多。同样,Wang et al. (2018a)和Wang et al. (2018b)提出对检索到的文章训练一个显式的段落重新排序组件:Wang et al. (2018a)将其实现在一个强化学习框架中,从而共同训练重新排序组件和答案提取组件;Wang等人(2018b)提出了一种基于强度的重新排序和基于覆盖度的重新排序,更直接地从多个段落中挖掘证据。

Using more and better training data。第二个影响很大的方面是培训数据。我们的DRQA系统只收集了来自TREC、WEBQUESTIONS和WIKIMOVIES的44k个远程监督的培训示例,我们在5.3.4节中演示了它们的有效性。如果我们能够利用来自TRIVIAQA (Joshi et al., 2017)或来自其他QA资源的更多数据生成更多的监督培训数据,那么系统应该得到进一步的改进。此外,这些远距离监督的例子不可避免地会遇到噪音问题(即Lin等人(2018)提出了一种去噪的解决方案,对这些远程监督的例子进行了去噪处理,并证明了在评估中取得的效果。

我们还认为,添加负面示例可以显著提高系统的性能。我们可以使用完整的管道创建一些负面示例:我们可以利用文档检索模块帮助我们找到相关段落,而这些段落不包含正确的答案。我们还可以将现有的资源,如SQUAD 2.0 (Rajpurkar et al., 2018),纳入我们的培训过程,其中包含精心策划的高质量负面例子。

Making the DOCUMENT RETRIEVER trainable。第三个尚未完全研究的有希望的方向是为文档检索模块使用机器学习方法。我们的系统采用了一个直观的、非机器学习的模型,检索性能的进一步提高(表5.2)将对整个系统进行改进。可以从其他资源或QA数据(例如,使用文章是否包含问题的答案作为标签)收集文档检索程序compo- nent的培训语料库。文档检索和文档阅读器组件的联合培训将是未来工作的一个非常理想和有前景的方向。

与此相关,Clark和Gardner(2018)还在搜索引擎(Bing web search)的基础上构建了一个开放领域的问题回答系统9,并证明了与我们相比性能优越。我们认为结果是不可直接比较的,这两种方法(使用商业搜索引擎或构建独立的IR组件)都有优缺点。构建我们自己的IR组件可以摆脱现有的API调用,运行速度更快,更容易适应新的领域。

Better DOCUMENT READER module。在我们的DRQA系统中,我们使用了神经阅读理解模型,在1.1班的测试集上达到了79.0%的F1。随着最近神经阅读理解模型的发展(第3.4节),我们确信,如果我们用最先进的模型替换当前的文档阅读器模型(Devlin et al., 2018),我们整个系统的性能也将得到改善。

More analysis is needed。另一项重要的缺失工作是对我们当前的系统进行深入分析:了解哪些问题他们可以回答,哪些不能。我们认为,在相同的条件下,将我们的现代系统与早期的TREC QA结果进行比较是很重要的。它将帮助我们了解我们在哪里取得了真正的进步,以及我们还可以使用哪些前深度学习时代的技术,以便在未来构建更好的答疑系统。

在我们工作的同时,也有一些与我们类似的工作,包括SEARCHQA (Dunn et al.,2017)和QUASAR-T (Dhingra et al.,2017b),它们都为JEOPARDY提供了相关的文档。questions——前者使用LUCENE索引从CLUEWEB检索文档,后者使用谷歌搜索。TRIVIAQA (Joshi et al., 2017)也有一个开放域设置,其中保存所有从Bing web搜索中检索到的文档。然而,这些数据集仍然关注从检索到的文档中回答问题的任务,而我们更感兴趣的是构建端到端的QA系统。