哈工大社会计算与信息检索研究中心
友爱  力行  乐学  日新

HIT-SCIR

哈工大SCIR发布Molweni多人对话语篇结构分析及机器阅读理解数据集

哈工大SCIR发布Molweni多人对话语篇结构分析及机器阅读理解数据集

2020年10月12日
摘要:Molweni 数据集由哈尔滨工业大学社会计算与信息检索研究中心(哈工大SCIR)秦兵教授和刘铭副教授主持开发,是当前规模最大的带有语篇结构的英文多人对话阅读理解数据集。Molweni数据集源自于Ubuntu多人对话聊天语料,包含1万个对话(dialogue),8.8万条话语(utterance),每篇对话均提供人工标注的语篇关系。为进一步促进对话理解方面的研究,数据集还提供阅读理解任务,共标注了超过3万个问题,包括可回答问题和不可回答的问题。Molweni对话数据集是当前规模最大的多人对话语篇结构数据集,相较于当前流行的对话语篇结构数据集STAC (Strategic Conversation),对话数扩大近10倍,同时第一次将语篇结构和阅读理解任务结合在一起。该数据集的提出能够为对话语篇结构分析、对话理解等任务提供充分的数据支持。本中心于今日正式发布Molweni数据集。
数据集链接:https://github.com/HIT-SCIR/Molweni

1.   Molweni 介绍

近年来,多人对话领域的研究有了长足的发展,诸如会议摘要、对话回复生成等多人对话应用成为当前的热门研究点。与书面文本“语句之间存在明显的顺序关系”不同,多人对话文本中存在复杂的跨句子联系,因此在对话任务中需要考虑到对话中复杂的图状语篇结构。
多人对话的语篇结构主要有如下特点:
  1. 对话的话语不连贯。书面文本中,相邻的句子之间具有一个语篇关系(Discourse relation),鲜有跨句子之间的联系。然而,对话文本中,相邻语句之间可能不存在语篇关系,对话的语篇结构可以看作是一个语篇依存图,图中每个顶点为一条话语,边为话语之间的语篇关系。
  2. 多人对话的语篇结构更为复杂。在大多数情况下,双人对话的语篇结构是树状的,语篇关系主要发生在相邻话语之间。然而,在多人对话中,两个话语虽然相距甚远,却可以参与话语关系。同时,话语之间“一对多”和“多对一”等复杂结构也更为常见。因此,两人对话可以看作是多人对话的特例。
机器阅读理解(MRC)是典型的人工智能应用,目的是利用人工智能技术,使计算机具有和人类一样理解文章回答问题的能力。然而,现有的对话阅读理解数据集尚未考虑到多人对话中的语篇结构,并不能够真正的评判出机器是否真正的理解了对话文本。为此,我们在对话语篇结构标注的基础上同时提供了对话阅读理解任务,仿照SQuAD 2.0的设置,为每个对话文本提供了大约3条问题,包括可回答或不可回答问题。
如对话1(见图1)中,4名说话人共表达了7条话语,针对此对话标注者提出了三个问题:其中Q1和Q2可以回答,Q3不可回答。我们观察到相邻话语的语义可以是不连贯的,这显示了为更好的理解对话文本,必须要考虑到对话间的跨句子语篇结构。即,如果没有正确理解输入对话的复杂语篇结构,很难准确地解释该对话。该对话的语篇结构见图2。
图1. 对话1:来自Molweni数据集中真实样例。对话中有四位说话人: nbx909、likwidoxigen、babo和nuked。所有说话人共表达了7条话语,即U1~U7。注:由于对话中语言的不规范性,语料库中的对话实例可能存在语法错误,这也更符合真实的对话情景。
图2. 对话1的语篇结构。其中顶点1~7分别代表对话1中的7条话语,即U1~U。顶点之间的边代表话语之间的语篇关系,其中QAP、Q-Elab分别代表问答对关系和问题-详述关系。

2.   数据规模和用途

Molweni数据集源自于大规模多人对话Ubuntu聊天语料库。“Molweni”是科萨语中“你好”的复数形式,代表着与Ubuntu相同语言的多人对话。Molweni数据集包含1万个对话,88,303条话语,人工标注了78,245个语篇关系和30,066条问题,包括可回答和不可回答两种。语篇关系共分为评论、澄清_问题、详述、确认、继续、解释、条件、问答对、替换、问题-详述、结果、背景、叙述、纠正、平行、对比,16种类型。对话阅读理解任务中的可回答问题的答案都是源自对话文本中的一个片段(Span)。问题类型为5W1H,即Why、What、Who、Where、When和How。表1展示了数据集的部分统计信息。
1数据集统计信息

3.   结语

如果您使用Molweni数据集发表论文,请引用如下论文:

  • Jiaqi Li, Ming Liu, Min-Yen Kan, Zihao Zheng, Zekun Wang, Wenqiang Lei, Ting Liu, Bing Qin. Molweni: A Challenge Multiparty Dialogues-based Machine Reading Comprehension Dataset with Discourse Structure [C]//Proceedings of the 28th International Conference on Computational Linguistics. 2020.
欢迎您发信给 mliu@ir.hit.edu.cn,说明使用Molweni数据集所发表的论文或取得科研成果,并随时沟通和反馈数据集存在的问题!

致谢

感谢新加坡国立大学Min-Yen Kan副教授、雷文强博士在语料构建方案中提供的宝贵建议,感谢哈工大SCIR郑子豪、汪泽堃、孙一博、姜天文、张大兴、卞荣阗、张恒、胡振宇等同学在数据集标注过程中提供的支持,感谢北京大学博士生胡文鹏提供的预处理后的Ubuntu数据。

Copyright © Research Center for Social Computing and Information Retrieval 2001 - 2015
P.O.Box 321, HIT, P.R.China 150001
webmaster at ir dot hit dot edu dot cn