论文推荐

赛尔笔记 | 大模型上下文长度扩展中的检索增强技术简述

基于Transformer的语言模型在众多自然语言处理任务上都取得了十分优异的成绩,在一些任务上已经达到SOTA的效果。但是,经过预训练后,模型能够较好处理的序列长度就固定下来。而当前的众多场景往往需要处理很长的上下文(如:大的代码仓库、书...

赛尔原创@COLING24 |无需标注即可增强模型 COT 能力

在使用包含推理步骤的数据进行训练后,模型能够获得更强的推理能力。然而, 由于高标注成本, 拥有高质量推理步骤的数据集相对稀缺。为解决这个问题, 我们提出了自我激励学习框架来增强LLM的推理能力

赛尔原创@COLING2024 | 面向编程的自然语言处理综述

本文围绕编程语言的两大核心特点:结构性和功能性,系统梳理了将自然语言处理技术应用于编程领域的研究进展,内容涵盖任务定义、数据集构建、评估方法、关键技术以及代表性模型等诸多方面,以期为读者全面展现这一新兴交叉领域的研究现状。

赛尔原创@COLING2024 | LM-Combiner:通过模型改写实现更精准的语法纠错

语法纠错旨在识别并纠正文本中的常见语法错误。前人方法需要较多的计算资源并且损失了一部分召回率。本文通过改写单一校对系统的输出来过滤其中的过度纠正现象;同时由于经过针对性训练,对过度校对错误判断更准确,能够保证改写后的输出错误召回率保持不变。

赛尔笔记 | 面向表格数据的大模型推理综述

我们在本文对现有的基于LLM的表格推理相关工作进行梳理,来促进该领域上的研究。我们介绍表格推理任务的定义与主流数据集;我们给出基于LLM的表格推理方法的分类,并总结了该任务现有的研究工作;我们给出各个研究方向的可能改进,启发未来的研究思路。

赛尔原创@AAAI 2023 | BridgeTower- 在视觉语言表示学习中建立编码器间的桥梁

在本文中,我们提出了BridgeTower,它引入了多个BridgeLayer,在单模态编码器的顶层和跨模态编码器的每一层之间建立连接。这使得预训练单模态编码器中的不同语义层次的视觉和文本表示,通过BridgeLayer与跨模态表示进行融合,从而促进了跨模态编码器中,高效的,自下而上的跨模态对齐与融合。仅使用400万张图像进行视觉语言预训练,BridgeTower在各种下游的视觉-语言任务中取得了非常强大的性能。

赛尔原创@COLING 2022 | 融合自适应机制与自训练框架的无监督文本顺滑方法

在这项工作中,我们提出了一种基于Re-weighting的自适应无监督训练框架来更好的解决文本顺滑任务。我们通过引入词级别置信与句子级别判别信息来赋予每个样本不同权重进行学习,同时采用更高效的基于对比的句对语法判别器,实现了一个更鲁棒、性能更好的无监督文本顺滑系统。实验表明,我们的优化方案能有效缓解选择偏差和错误累计的问题,在SWBD以及多个跨领域数据集上均有所提升。

赛尔原创@COLING 2022 | MetaPrompting:基于元学习的soft prompt初始化方法

本文提出了MetaPrompting,将基于优化的元学习方法推广到soft prompt模型中,来处理少标注文本任务。MetaPrompting利用源领域数据进行元学习,搜索能够更快、更好地适应于新的少标注人物的模型参数初始化点。在4个少标注文本分类数据集上的实验结果表明,MetaPrompting相比于朴素的soft prompt模型以及其他基于元学习的基线模型取得了更好的效果,达到了新的SOTA性能。

赛尔原创@COLING 2022 | CCTC:面向中文母语使用者的跨句子文本纠错数据集

中文文本纠错(Chinese Text Correction, CTC)主要针对中文拼写错误和语法错误进行检测和纠正。目前大部分中文拼写纠错和语法纠错的测试集都是单句级别的,并且是由外国的汉语学习者撰写的。我们发现中文母语使用者犯的错误和非母语使用者犯的错误有很大的不同,直接使用目前已有的一些数据集作为测试集来为面向中文母语使用者准备的校对系统进行评测并不合适。此外,一些错误通常还需要上下文信息来进行检测和纠正。在本文中,我们提出了一个基于中文母语使用者撰写文本的跨句子中文文本纠错测试集CCTC。

ACL@2022 | 反向预测更好?基于反向提示的小样本槽位标注方法

本文录用于ACL 2022 Findings。提示学习方法在如槽位标注等词级别任务上十分低效。本文探索了一种反向提示方法,并提出了迭代预测策略来建模标签之间的依赖关系。我们的方法在多个数据集上均有提升,并大幅加快了槽位标注的预测速度。

赛尔原创@AAAI 2022|基于Profile信息的口语语言理解基准

​本文录用于AAAI 2022。本文研究基于Profile的口语语言理解任务。本文标注了约含五千条数据的中文数据集,并使用多层次知识适配器来有效引入辅助Profile信息,实验表明,该方式能够有效提升SLU模型在ProSLU任务上的表现。

赛尔原创@EMNLP 2021 | 多语言和跨语言对话推荐

本文录用于EMNLP 2021。为促进多语言和跨语言对话推荐的研究,我们构建了第一个中英双语并行对话推荐数据集DuRecDial 2.0,并定义了5个任务。自动评估和人工评估结果表明,使用英文对话推荐数据可以提高中文对话推荐的性能。

赛尔原创@EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

本文录用于EMNLP 2021。本文首先提出VoCap词表构建算法以构建更大的多语言词表,综合考虑每种语言的语言特定词汇能力及预训练语料大小为每种语言分配合适的词表大小。实验结果表明,基于VoCap方法构建的多语言词表要优于之前的方法。

赛尔原创@ACL 2021 | 开放域对话结构发现

本文录用于ACL 2021。本文设计了一种自监督的对话结构发现模型。实验结果表明,自监督的DVAE-GNN模型能发现有意义的层次化对话结构,且对话结构图对于提升多轮对话连贯性等有重要作用。

赛尔原创@ACL Findings | 基于高质量对抗样本的依存分析器鲁棒性探究

现有的针对依存分析任务的对抗攻击基本都集中于攻击方法本身,而忽略了较低的对抗样本质量。为了解决该问题,我们提出了一种方法,使用更多生成方法和更严格的过滤器来生成高质量的对抗样本,并使用对抗学习和模型融合方法有效提高了分析器的鲁棒性。

赛尔原创@ACL 2021 | 基于一致性正则的跨语言微调方法

本文录用于ACL 2021。跨语言微调指通过在源语言标注数据微调跨语言模型,使得任务的监督信息能够迁移到其他目标语言。本文提出了xTune方法,通过两种一致性正则来更好地利用跨语言增广数据,从而提升多种下游任务中跨语言微调的性能。

赛尔原创@AAAI2021 | 小样本学习下的多标签分类问题初探

本文录用与AAAi 2021。小样本学习(Few-shot Learning)近年来吸引了大量的关注,但是针对多标签问题(Multi-label)的研究还相对较少。在本文中,我们以用户意图检测任务为切入口,研究了的小样本多标签分类问题。

赛尔原创@Findings | 中文预训练语言模型回顾

本文录用于Findings of EMNLP 2020。本文将主流预训练模型应用于中文场景并进行深度对比,并提出了基于文本纠错的预训练语言模型MacBERT,解决了预训练模型中“预训练-精调”不一致的问题,在多个中文任务上获得显著性能提升。