新闻列表

哈工大SCIR 14篇长文被EMNLP 2024主会/Findings录用

EMNLP是自然语言处理领域顶级国际会议之一,CCF B类会议。​哈尔滨工业大学社会计算与信息检索研究中心有14篇长文被录用,其中7篇被主会录用,7篇被Findings of EMNLP录用。

哈工大发布“珠算”代码大模型

目前开源代码大模型提升编程能力的同时会严重损害通用语言能力。为此,哈工大赛尔实验室推出了“珠算”代码大模型,以2.7B参数在代码与通用语言平均性能上超越了3B及以下代码大模型,希望通过开放权重、训练细节及微调适配平台与插件,助力开源社区发展

哈工大发布“珠算”代码大模型

目前开源代码大模型提升编程能力的同时会严重损害通用语言能力。为此,哈工大赛尔实验室推出了“珠算”代码大模型,以2.7B参数在代码与通用语言平均性能上超越了3B及以下代码大模型,希望通过开放权重、训练细节及微调适配平台与插件,助力开源社区发展

哈工大开源“活字3.5”对话大模型

哈工大社会计算与信息检索研究中心(HIT-SCIR)发布了活字3.5对话大模型,新版模型在中英文知识、数学推理、代码生成、指令遵循能力、内容安全性等诸多方面实现了性能提升。我们希望该开源项目能够有助于推动自然语言处理技术的研究和应用。

哈工大开源“活字3.5”对话大模型

哈工大社会计算与信息检索研究中心(HIT-SCIR)发布了活字3.5对话大模型,新版模型在中英文知识、数学推理、代码生成、指令遵循能力、内容安全性等诸多方面实现了性能提升。我们希望该开源项目能够有助于推动自然语言处理技术的研究和应用。

哈工大SCIR车万翔教授当选ACL 2025程序委员会主席

近日,国际计算语言学学会(Association for Computational Linguistics, ACL)选举产生了第63届ACL学术年会程序委员会主席,哈工大社会计算与信息检索研究中心车万翔教授成功当选。

新闻 | 第三届HIT-SCIR&THUNLP&FudanNLP学术联谊会成功举办

2024年7月17日,第三届哈尔滨工业大学社会计算与信息检索研究中心(HIT-SCIR)、清华大学自然语言处理与社会人文计算实验室(THUNLP)、复旦大学自然语言处理实验室(FudanNLP)三校学术联谊会于哈尔滨成功举办。

赛尔笔记 | 大模型上下文长度扩展中的检索增强技术简述

基于Transformer的语言模型在众多自然语言处理任务上都取得了十分优异的成绩,在一些任务上已经达到SOTA的效果。但是,经过预训练后,模型能够较好处理的序列长度就固定下来。而当前的众多场景往往需要处理很长的上下文(如:大的代码仓库、书...

赛尔笔记 | 大模型上下文长度扩展中的检索增强技术简述

基于Transformer的语言模型在众多自然语言处理任务上都取得了十分优异的成绩,在一些任务上已经达到SOTA的效果。但是,经过预训练后,模型能够较好处理的序列长度就固定下来。而当前的众多场景往往需要处理很长的上下文(如:大的代码仓库、书...

赛尔原创@COLING24 |即插即用!自动提取领域相关特征提升泛化能力

现有的跨域文本分类方法往往忽视了领域感知特征的重要性,只关注提取领域不变特征或任务无关特征。我们提出的自监督蒸馏方法通过在目标域中利用未标记数据来捕获领域感知特征,从而提高模型在目标域上的性能。

哈工大SCIR 20篇长文被ACL 2024主会/Findings录用

ACL 2024 将于2024年8月11-16日在泰国曼谷举行。ACL年会是计算语言学和自然语言处理领域最重要的顶级国际会议,CCF A类会议,由计算语言学协会主办,每年举办一次。其接收的论文覆盖了对话交互系统、语义分析、摘要生成、信息抽取...

哈工大SCIR 20篇长文被ACL 2024主会/Findings录用

ACL 2024 将于2024年8月11-16日在泰国曼谷举行。ACL年会是计算语言学和自然语言处理领域最重要的顶级国际会议,CCF A类会议,由计算语言学协会主办,每年举办一次。其接收的论文覆盖了对话交互系统、语义分析、摘要生成、信息抽取...

青春的选择丨哈工大这个团队立于生成式AI潮头!

哈工大社会计算与信息检索博士生团队荣获哈工大学生五四奖章。

赛尔原创@COLING24 |无需标注即可增强模型 COT 能力

在使用包含推理步骤的数据进行训练后,模型能够获得更强的推理能力。然而, 由于高标注成本, 拥有高质量推理步骤的数据集相对稀缺。为解决这个问题, 我们提出了自我激励学习框架来增强LLM的推理能力