新闻列表

赛尔原创@COLING 2022 | MetaPrompting:基于元学习的soft prompt初始化方法

本文提出了MetaPrompting,将基于优化的元学习方法推广到soft prompt模型中,来处理少标注文本任务。MetaPrompting利用源领域数据进行元学习,搜索能够更快、更好地适应于新的少标注人物的模型参数初始化点。在4个少标注文本分类数据集上的实验结果表明,MetaPrompting相比于朴素的soft prompt模型以及其他基于元学习的基线模型取得了更好的效果,达到了新的SOTA性能。

赛尔原创@COLING 2022 | MetaPrompting:基于元学习的soft prompt初始化方法

本文提出了MetaPrompting,将基于优化的元学习方法推广到soft prompt模型中,来处理少标注文本任务。MetaPrompting利用源领域数据进行元学习,搜索能够更快、更好地适应于新的少标注人物的模型参数初始化点。在4个少标注文本分类数据集上的实验结果表明,MetaPrompting相比于朴素的soft prompt模型以及其他基于元学习的基线模型取得了更好的效果,达到了新的SOTA性能。

赛尔原创@COLING 2022 | CCTC:面向中文母语使用者的跨句子文本纠错数据集

中文文本纠错(Chinese Text Correction, CTC)主要针对中文拼写错误和语法错误进行检测和纠正。目前大部分中文拼写纠错和语法纠错的测试集都是单句级别的,并且是由外国的汉语学习者撰写的。我们发现中文母语使用者犯的错误和非母语使用者犯的错误有很大的不同,直接使用目前已有的一些数据集作为测试集来为面向中文母语使用者准备的校对系统进行评测并不合适。此外,一些错误通常还需要上下文信息来进行检测和纠正。在本文中,我们提出了一个基于中文母语使用者撰写文本的跨句子中文文本纠错测试集CCTC。

赛尔原创@COLING 2022 | CCTC:面向中文母语使用者的跨句子文本纠错数据集

中文文本纠错(Chinese Text Correction, CTC)主要针对中文拼写错误和语法错误进行检测和纠正。目前大部分中文拼写纠错和语法纠错的测试集都是单句级别的,并且是由外国的汉语学习者撰写的。我们发现中文母语使用者犯的错误和非母语使用者犯的错误有很大的不同,直接使用目前已有的一些数据集作为测试集来为面向中文母语使用者准备的校对系统进行评测并不合适。此外,一些错误通常还需要上下文信息来进行检测和纠正。在本文中,我们提出了一个基于中文母语使用者撰写文本的跨句子中文文本纠错测试集CCTC。

哈工大SCIR十篇长文被EMNLP 2022主会及子刊录用

EMNLP是计算语言学和自然语言处理领域顶级国际会议之一,CCF B类会议,由ACL SIGDAT(语言学数据特殊兴趣小组)主办,每年举办一次。哈尔滨工业大学社会计算与信息检索研究中心有10篇长文被录用,其中7篇被主会录用,3篇被Findings of EMNLP子刊录用。

哈工大SCIR十篇长文被EMNLP 2022主会及子刊录用

EMNLP是计算语言学和自然语言处理领域顶级国际会议之一,CCF B类会议,由ACL SIGDAT(语言学数据特殊兴趣小组)主办,每年举办一次。哈尔滨工业大学社会计算与信息检索研究中心有10篇长文被录用,其中7篇被主会录用,3篇被Findings of EMNLP子刊录用。

哈工大SCIR取得CCIR Cup 2022混合表格与文本数据问答赛道冠军

哈工大SCIR的“TIBK-12”小队以75.1的成绩夺得全国信息检索挑战杯-基于金融财报中的混合表格与文本数据的问答赛道冠军。团队成员包括窦隆绪、王丁子睿,指导教师为车万翔教授。

哈工大SCIR两位博士生施晓明、侯宇泰顺利通过博士学位答辩

2022年9月5日上午,哈工大社会计算与信息检索研究中心两位博士生施晓明、侯宇泰顺利通过博士学位论文答辩。

语言技术平台(LTP)推出 v4.2 版本!

语言技术平台(LTP)推出 v4.2 版本,此次升级主要提升了分词等常用任务的推理速度、增加了平台的易用性等。

哈工大SCIR在MMNLU-22多语言任务型对话自然语言理解评测取得Full Dataset赛道第一名

HIT-SCIR语言分析组郑博、黎州扬、魏福煊、陈麒光、覃立波组成的团队(指导教师车万翔教授)参加MMNLU-22评测,在Full Dataset赛道中获得第一名,在Zero-Shot赛道中获得第二名。

ACL@2022 | 反向预测更好?基于反向提示的小样本槽位标注方法

本文录用于ACL 2022 Findings。提示学习方法在如槽位标注等词级别任务上十分低效。本文探索了一种反向提示方法,并提出了迭代预测策略来建模标签之间的依赖关系。我们的方法在多个数据集上均有提升,并大幅加快了槽位标注的预测速度。

哈工大SCIR车万翔、刘挺 | 自然语言处理新范式:基于预训练模型的方法

近日,《中兴通讯技术》2022年第2期专题——《自然语言处理预训练模型》正式发表,受本期专题策划人,清华大学计算机系教授、中国工程院院士郑纬民邀请,我中心车万翔、刘挺教授撰文,介绍了《自然语言处理新范式:基于预训练模型的方法》。

赛尔原创@AAAI 2022|基于Profile信息的口语语言理解基准

​本文录用于AAAI 2022。本文研究基于Profile的口语语言理解任务。本文标注了约含五千条数据的中文数据集,并使用多层次知识适配器来有效引入辅助Profile信息,实验表明,该方式能够有效提升SLU模型在ProSLU任务上的表现。