哈工大社会计算与信息检索研究中心
友爱  力行  乐学  日新

HIT-SCIR

哈工大SCIR六篇文章被COLING 2020录用

哈工大SCIR六篇文章被COLING 2020录用

2020年10月05日
COLING 2020, the 28th International Conference on Computational Linguistics将于2020128日至13日在线举行。COLING是自然语言处理领域的重要国际会议,每两年举办一次。
哈尔滨工业大学社会计算与信息检索研究中心共有6篇论文被COLING 2020录用,其中长文5篇短文1篇。下面是论文列表及介绍:
01
题目:An Iterative Emotion Interaction Network for Emotion Recognition in Conversations
作者:陆鑫,赵妍妍,吴洋,田一间,陈惠鹏,秦兵
类别:COLING 2020, Long Paper
简介:本工作研究的任务是对话情绪识别,旨在识别对话中所有话语的情绪。考虑到对话中的话语情绪是相互影响的,现有工作通常都建模对话上下文的内容,以此来隐式地建模话语的情绪交互,但这种做法常被语言中的复杂表达所干扰,导致情绪交互变得不可靠。我们注意到话语的情绪标签可以提供显式且精确的情绪交互,但情绪标签在测试阶段是不可获得作为输入的。为了解决这个问题,我们提出了一个迭代情绪交互模型,该模型使用迭代预测的情绪标签代替真实情绪标签,在迭代过程中不断更正预测并反馈输入,实现逐步增强的显式情绪交互。实验结果表明,使用迭代预测标签有效地保留了显式建模的性能优势,并在迭代过程中可以实现有效的预测修正。最终,我们的方法在两个公开数据集上取得了最好的结果。
02
题目:A Sentence Cloze Dataset for Chinese Machine Reading Comprehension
作者:崔一鸣,刘挺,杨子清,陈致鹏,马文涛,车万翔,王士进,胡国平
类别:COLING 2020, Short Paper
简介:由于中文自然语言处理研究社区的不断努力,中文机器阅读理解数据集资源变得更加丰富。在本文中,我们提出了一个新的机器阅读理解任务:句子填空型机器阅读理解(SC-MRC)。这个任务需要将正确的句子填入到有空缺的篇章中。除此之外,为了增加任务难度,我们还将一些假选项添加到候选句子中,这要求机器能够识别出哪些句子不能够填入到空缺位置。本数据集包含100K以上的空缺(问题)并覆盖了10K以上的篇章,其题材是叙事故事。为了评价数据集,我们实现了多个基于预训练模型的基线系统,并且实验结果表明这些预训练模型距离人类水平仍然存在较大差距。本文提出的CMRC 2019数据集和基线系统已开源。
03
题目:CharBERT: Character-aware Pre-trained Language Mode
作者:马文涛,崔一鸣,司程磊,刘挺,王士进,胡国平
类别:COLING 2020, Long Paper
简介:目前绝大部分预训练模型都使用BPE或其变种来构建基于subword粒度的文本表示,这种方法几乎可以避免UNK的产生,但也让词表示变得不完整和不稳定。本文提出了一个字符敏感的预训练语言模型CharBERT,并基于已有的预训练模型(如BERT和RoBERTa)来解决这个问题。我们首先通过一种序列字符表示来构建基于字符的词表示,然后通过一个异构交互模块迭代地融合字符与原有subword两个分支的表示,最后通过一种无监督任务来加强字符学习。我们在阅读理解、序列标注和文本分类任务上验证了模型效果,并基于这三类任务构建了拼写对抗评估集。实验结果表明CharBERT在提升通用任务效果的同时大幅提升了鲁棒性。

题目:GPT-based Few-shot Table-to-Text Generation with Table Structure Reconstruction and Content Matching

作者:龚恒*,孙亚威*,冯骁骋,秦兵,闭玮,刘晓江,刘挺
类别:COLING 2020, Long Paper
简介:尽管基于神经网络的表格到文本生成模型在一些大规模数据集下取得了较好的效果,但遇到训练数据集不足的情况时,它们的性能会大幅度下降。近期,预训练的语言模型在多个任务的少样本学习(Few-shot Learning)场景下展现了潜力。但是,利用预训练语言模型提升少样本学习下的表格到文本生成模型的性能面临三个挑战:(1)本任务的结构化输入与用于预训练语言模型的自然语言输入之间存在天然的差距;(2)预训练语言模型缺乏针对表格结构的建模;(3)如何缓解模型生成与表格中信息矛盾的文本的情况,从而提高文本内容的正确性。为了解决上述挑战,我们提出TableGPT模型进行表格到文本的生成。首先,我们采用带有模板的表格转换模块,以自然语言的形式重写结构化表格,作为GPT-2的输入。此外,我们利用两个辅助任务来进行多任务学习,第一个辅助任务根据GPT-2的表示重建表格结构,第二个辅助任务通过将表格和生成的文本中的信息进行内容匹配,提高文本的内容正确性。我们在三个领域(人物、歌曲、书籍)的少样本学习数据集上进行实验验证,我们的模型在绝大多数少样本学习设置下优于现有系统。
05
题目:Learn to Combine Linguistic and Symbolic Information for Table-based Fact Verification
作者:施琦,张宇,尹庆宇,刘挺
类别:COLING 2020, Long Paper
简介:基于表格的事实验证同时涉及语言推理(linguistic reasoning)与符号推理(symbolic reasoning),现有的以BERT为代表的方法主要关注语言推理,缺乏对语言信息与符号信息结合的关注。在本文中,我们提出了一种基于异质图的方法,通过学习表格、文本输入、以及检索得到的逻辑表达式之间的潜在关系,来对语言信息与符号信息进行有效结合。在大规模数据集TABFACT上的实验结果表明,我们的方法显著优于基线模型。
06
题目:Molweni: A Challenge Multiparty Dialogue-based Machine Reading Comprehension Dataset with Discourse Structure
作者:李家琦,刘铭, Min-Yen Kan(靳民彦),郑子豪,汪泽堃,雷文强,刘挺,秦兵
类别:COLING 2020, Long Paper
简介:近年来,对多人对话领域的研究有了长足的发展。在本文中,我们提出了构建于多人对话的机器阅读理解(MRC)数据集——Molweni,并含盖了对话语篇结构。Molweni源自于Ubuntu聊天语料库,包括10,000个对话,共计88,303条话语(utterance)。我们共标注了32,700个问题,包括可回答和不可回答的问题。Molweni独特地为其多人对话提供了语篇结构信息,共标注了78,246个语篇关系实例,为多人对话语篇解析(Discourse parsing)贡献了大规模数据。实验表明,Molweni对于现有的MRC模型是一个具有挑战性的数据集;Squad 2.0数据集上的强大模型BERT-wwm在Molweni数据集上只取得67.7%的F1值,相比于其在Squad 2.0上的表现有20+%的显著下降。

Copyright © Research Center for Social Computing and Information Retrieval 2001 - 2015
P.O.Box 321, HIT, P.R.China 150001
webmaster at ir dot hit dot edu dot cn