哈工大SCIR 29篇长文被ACL 2025主会/Findings录用

发布时间:2025年05月28日 16:05:50 阅读次数:10


ACL 2025 将于2025年7月27日至8月1日奥地利维也纳举行。ACL年会是计算语言学和自然语言处理领域最重要的顶级国际会议,CCF A类会议,由计算语言学协会主办,每年举办一次。其接收的论文覆盖了对话交互系统、语义分析、摘要生成、信息抽取、问答系统、文本挖掘、机器翻译、语篇语用学、情感分析和意见挖掘、社会计算等自然语言处理领域众多研究方向。

哈尔滨工业大学社会计算与交互机器人研究中心有20篇长文被ACL 2025主会录用,9篇长文被Findings of ACL录用。下面是论文列表及介绍:

1.题目:GainRAG: Preference Alignment in Retrieval-Augmented Generation through Gain Signal Synthesis

作者:姜毅,赵森栋,李健博,王昊淳,秦兵

类型:ACL 2025, Long Paper

检索增强生成(RAG)框架引入了一个检索模块,以动态地将检索到的信息注入大型语言模型(LLMs)的输入上下文中,并在各种自然语言处理任务中展现了显著的成功。然而,当前的研究指出,在RAG框架中,检索器与LLM之间存在偏好差异,这限制了系统性能的进一步提升。一些高度相关的段落可能因为包含复杂或矛盾的信息而干扰LLM的推理;而一些间接相关甚至不准确的内容,却可能通过提供提示信息或逻辑线索,帮助LLM生成更准确的答案。为了解决这一问题,我们提出了GainRAG,一种新颖的方法,通过定义一个新的概念—“增益”,来衡量输入段落在生成正确输出方面的贡献程度,从而对齐检索器和LLM之间的偏好。具体来说,我们提出了一种估计这些增益信号的方法,并训练到一个中间件,仅使用少量的数据即可对齐检索器和 LLM 的偏好。此外,我们还引入了一种伪段落策略来缓解退化解。在6个数据集上的实验结果验证了GainRAG的有效性。


2.题目:Beyond Frameworks: Unpacking Collaboration Strategies in Multi-Agent Systems

作者:王昊淳,赵森栋,王镜博,强泽文,秦兵,刘挺

类型:ACL 2025, Long Paper

多智能体协作已成为基于大语言模型的应用中解决复杂任务的关键范式,尽管已有研究多集中于智能体的架构设计,但对于与系统性能和效率高度相关类型:ACL 2025, Long Paper的智能体间细粒度的协作机制,仍缺乏深入探讨。因此,本文从以下四个维度对协作策略展开分析:(1) 智能体管理方式,(2) 参与机制,(3) 交互设定,(4) 对话历史管理策略,并在两个上下文依赖的任务场景中进行了实验,以量化上述策略对多智能体的准确率和效率的影响。实验结果表明,不同的协同策略组合对于系统性能的影响十分明显,在相同任务上,可带来最高37.6%的准确率差异,此外,采用中心化管理、由中心智能体决定的参与机制、有序的交互以及由中心智能体归纳的上下文摘要策略可以取得决策质量与资源开销之间的平衡。这一研究为构建具备自适应能力的多智能体系统奠定了基础,进一步推动多智能体的研究重心从结构与角色设计转向细粒度协作机制的探究。


3.题目:One for All: Update Parameterized Knowledge Across Multiple Models with Once Edit

作者:马伟涛*,杜熙源*,冯骁骋,黄磊,黄毅翀,张慧怡,杨晓亮,李宝航,冯夏冲,刘挺,秦兵

类型:ACL 2025, Long Paper

大语言模型蕴含了丰富的世界知识,但由于难以持续更新,常常出现幻觉等错误。  知识编辑作为替代重新训练的一种高效手段,通过更新模型的部分参数,实现对特定知识的定向修改。  然而,现有方法大多聚焦于单一模型,难以高效地扩展至多个模型或适应新模型,限制了其实际应用。为此,本文提出了OnceEdit,一种基于集成的全新方法。该方法引入一个插件模型作为知识编辑模块,从而实现跨多个模型的稳定知识更新。  在模型集成的基础上,OnceEdit设计了两个关键机制以提升编辑效果:首先,我们引入了一种动态权重机制,通过添加 weight token 区分编辑相关与非相关实例,确保合理调用集成模型中的知识;  其次,我们提出了集成增强机制,缓解传统集成方法中对中心模型的过度依赖,使其更加适用于知识编辑任务。在多个主流大语言模型上的实验证明,OnceEdit在编辑性能和效率方面均显著优于现有方法,且在多模型知识编辑场景中具有良好的适应性和稳定性。


4.题目:ExpeTrans: LLMs Are Experiential Transfer Learners

作者:高靖龙,丁效,邹凌霄,蔡碧波,秦兵,刘挺

类型:ACL 2025, Long Paper

近期研究通过prompt为LLMs提供解决各类任务的经验技巧,以提升其性能。然而,以往的方法依赖大量人力或时间来为每个任务收集此类经验,鉴于用户向 LLMs 提出的任务类型日益多样,这些方法难以使用。为解决这一问题,我们设计了一个自主经验迁移框架,探索 LLMs 是否能够模仿人类的经验迁移能力,自主地将现有源任务的经验迁移到新遇到的目标任务上。这不仅避免了以往方法所需的大量成本,也为 LLMs 的泛化开辟了一条新途径。在 13 个数据集上的实验结果表明,我们的框架有效地提升了模型性能。此外,我们还对框架中的每个模块进行了详细分析。


5.题目:AnRe: Analogical Replay for Temporal Knowledge Graph Forecasting

作者:唐果,初征,郑文翔,向俊嘉,李屹焯,张维浩,刘铭,秦兵

类型:ACL 2025, Long Paper

时间知识图谱(TKGs) 在事件预测中至关重要,但现有方法存在局限性。图神经网络主要依赖结构信息,往往忽视语义理解,且计算成本高。与此同时,大型语言模型(LLMs) 支持零样本推理,但缺乏足够的能力来掌握历史事件发展的规律。为了应对这些挑战,我们引入了一个无需训练的类比回放(AnRe)推理框架。我们的方法通过语义驱动的聚类为查询检索相似事件,并使用双历史提取模块构建全面的历史背景,该模块集成了长期和短期历史。然后,我们利用 LLMs 生成类比推理示例作为上下文输入,使模型能够深入理解相似事件的历史模式,并提高其预测未知事件的能力。在三个基准上的实验表明,AnRe 显著超越了传统的训练方法和现有的基于 LLM 的方法。进一步的消融研究也证实了双历史提取和类比回放机制的有效性。


6.题目:Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling

作者:罗先镇,王一轩,朱庆福,张致铭,张玄昱,杨青,许冬亮

类型:ACL 2025, Long Paper

大型语言模型参数数量的迅猛增长,使得推理延迟成为一个关键瓶颈。投机解码利用猜测并验证的范式来无损加速推理。一些投机解码方法依赖额外架构来生成草稿token,这类方法在使用前需要额外训练;而基于检索的免训练方法则通过预存语料库或n-gram生成来构建候选库,但这类方法存在存储需求大、检索耗时和适应性差的问题。我们观察到,在解码过程中生成的候选token往往会在后续序列中再次出现,基于此提出了Token Recycling。该方法将候选token存储在邻接矩阵中,并使用类似广度优先搜索(BFS)的算法构建草稿树,随后通过树注意力机制进行验证。新生成的候选token也会用于更新邻接矩阵。Token Recycling仅需不到2MB的额外存储,在各类LLMs中实现了约2倍的推理加速,性能相比现有免训练方法提升约30%,甚至超过了一种需要训练方法25%的表现。


7.题目:CC-Tuning: A Cross-Lingual Connection Mechanism for Improving Joint Multilingual Supervised Fine-Tuning

作者:叶扬帆,冯骁骋,原泽坤,冯夏冲,覃立波,黄磊,马伟涛,黄毅翀,张志锐,路云飞,晏小辉,唐都钰,涂丹丹,秦兵

类型:ACL 2025, Long Paper

当前的大语言模型 (LLM) 往往由于其以英语为中心的训练语料库而表现出多语言能力不平衡。为了解决这个问题,现有的数据层面微调方法(例如,通过数据增强或数据蒸馏)通常会引入隐式跨语言对齐,而忽略了更深层次的潜空间层面跨语言交互的潜力。在本研究中,我们提出了 CC-Tuning,这是一种新颖的多语言微调范式,它明确地在潜空间层面建立了跨语言连接机制。在训练过程中,CC-Tuning 融合了来自英语和非英语输入的前馈激活,使模型能够从两种语言资源中获益。此过程由一个可训练的决策器来驱动,该决策器可以帮助识别有益的激活值。此外,在推理过程中,利用一个变换矩阵通过表征变换来模拟单语环境下的跨语言连接。我们在涵盖 22 种语言的六个基准测试上进行的实验表明,CC-Tuning 的表现优于原始 SFT,并提供了一种强大的潜空间级别的数据增强方法替代方案。进一步的分析也凸显了 CC-Tuning 的实用性,以及潜空间跨语言交互在提升 LLM 多语言性能方面的潜力。


8.题目:Improving Contextual Faithfulness of Large Language Models via Retrieval Heads-Induced Optimization

作者:黄磊,冯骁骋,马伟涛,范瑀纯,冯夏冲,叶扬帆,钟蔚弘,顾宇轩,王宝鑫,伍大勇,胡国平,秦兵

类型:ACL 2025, Long Paper

在检索增强大语言模型中,确保上下文忠实性对于构建值得信赖的信息检索系统至关重要,尤其是在复杂的长篇问答场景中。在这本研究中,我们发现大模型的上下文忠实程度与检索头(retrieval heads)之间存在显著相关性,这些检索头是一组专门负责检索上下文信息的注意力头。基于这一发现,我们提出了RHIO框架,旨在训练大模型显式区分忠实与不忠实的内容,从而增强上下文忠实性。RHIO首先通过选择性屏蔽检索头来生成不忠实样本,这些样本能有效模拟模型在实际应用中可能出现的忠实性幻觉。随后,我们将这些样本纳入联合训练过程,使模型能够在特定的控制标记引导下激活不同的检索注意力模式。此外,这些控制标记结合对比解码能够放大忠实和不忠实输出之间的概率分布差异,进一步提升模型忠实性。为评估上下文忠实性,我们构建了GroundBench,这是一个由五个现有的长篇问答数据集整合而成的综合基准测试集。在GroundBench上的广泛实验结果表明,RHIO显著提高了模型的忠实度表现,甚至超越了GPT-4o。


9.题目:Alleviating Hallucinations from Knowledge Misalignment in Large Language Models via Selective Abstention Learning

作者:黄磊,冯骁骋,马伟涛,范瑀纯,冯夏冲,顾宇轩,叶扬帆,赵亮,钟蔚弘,王宝鑫,伍大勇,胡国平,孔令鹏,肖桐,刘挺,秦兵

类型:ACL 2025, Long Paper

大语言模型普遍存在严重的事实幻觉问题。造成这一现象的的主要原因之一是预训练阶段和监督微调阶段之间的知识不一致。在微调过程中遇到的知识边界外样本会无意中鼓励模型生成缺乏参数知识支持的事实。为了解决这一问题,我们提出了一种带有拒绝机制的训练目标,其中模型通过一个特殊的 [REJ] 标记来学会选择性地拒绝与期望知识分布不一致的内容。这使得模型能够承认自身知识的不足,而不是盲目地为所有真实答案分配高概率。我们进一步提出了一种正则化解码目标,在推理过程中通过使用训练中学习到的 [REJ] 概率来惩罚置信度低的预测。我们在六个短篇和长篇事实问答数据集上对三个不同规模的大语言模型进行了广泛实验,结果表明我们的方法能有效缓解由知识不一致引起的幻觉问题。进一步分析显示,我们的方法在需要拒绝回答的场景中表现出良好的适应性,同时有效保持了模型的指令遵循能力。


10.题目:Length Controlled Generation for Black-box LLMs

作者:顾宇轩,王文杰,冯骁骋,钟蔚弘,朱坤,黄磊,刘挺,秦兵,Tat-Seng Chua

类型:ACL 2025, Long Paper

大型语言模型 (LLM) 已展现出卓越的指令跟踪能力,但仍难以准确管理生成文本的长度,而这正是许多实际应用的基本要求。现有的长度控制方法涉及对 LLM 的参数进行微调,这在实际应用中效率低下且效果有限。本文提出了一种用于文本长度控制的新型迭代采样框架,该框架将 Metropolis-Hastings 算法与重要性采样加速策略相结合。该框架能够高效可靠地控制 LLM 生成长度可控的文本,而无需修改底层参数,从而保留了 LLM 的原有功能。实验结果表明,在 LLAMA3.1 上,对于长度控制的生成式摘要和长度范围限制的指令跟踪等任务,我们的框架实现了几乎 100% 的长度控制成功率,并且只需要极小的额外计算开销。这也凸显了我们的方法在更广泛的应用中实现精确长度控制的巨大潜力。


11.题目:CLAIM: Mitigating Multilingual Object Hallucination in Large Vision-Language Models with Cross-Lingual Attention Intervention

作者:叶泽凯*,李启明*,冯骁骋,覃立波,黄毅翀,李宝航,江奎,相洋,张志锐,路云飞,唐都钰,涂丹丹,秦兵

类型:ACL 2025, Long Paper

大型视觉语言模型虽展现出卓越的多模态能力,却普遍存在多语言物体幻觉问题——当使用非英语查询时,相比英语更容易生成与视觉输入不一致的回答。现有解决方案多依赖预训练或微调方法,这些方法资源消耗巨大。本文通过观察不同语言间跨模态注意力模式的差异,提出一种无需训练的创新方法CLAIM(跨语言注意力干预),通过注意力模式对齐来缓解多语言物体幻觉。CLAIM首先识别语言特定的跨模态注意力头,然后估算从英语到目标语言的注意力偏移向量,最终在推理阶段干预注意力输出以实现跨语言视觉感知能力对齐。大量实验表明,CLAIM在多种语言上均取得显著提升——在POPE基准测试中平均提升13.56%(西班牙语最高达30%),在MME基准的幻觉子集上平均提升21.75%。 进一步分析发现,多语言注意力分歧主要出现在中间层,这些层在多语言场景中起着关键作用。


12.题目:Com2: A Causal-Guided Benchmark for Exploring Complex Commonsense Reasoning in Large Language Models

作者:熊凯,丁效,曹艺馨,鄢宇雄,杜理,张宇非,高靖龙,刘嘉倩,秦兵,刘挺

类型:ACL 2025, Long Paper

大语言模型(LLMs)通过预训练已掌握大量简单显式的常识知识,使其在基础常识推理任务中能实现接近人类的表现。然而,面对由简单常识衍生出的复杂隐性常识(例如理解特定事件的长期影响这类人类更关注的深层推理),LLMs仍存在显著不足。现有研究主要聚焦数学、编程等复杂任务,却忽视了复杂常识场景的探索。为填补这一空白并契合人类关切,我们提出首个专注于复杂常识推理的基准测试Com2。我们首先引入因果事件图谱作为复杂常识的知识载体,继而运用因果理论(如干预手段)对图谱进行修改,生成符合人类关切的不同情境。随后通过慢思考机制,指导LLMs基于修改后因果图谱的逻辑关系合成测试样本。此外,我们还构建了以侦探故事为载体的高阶复杂子集。实验表明,当前LLMs在推理深度与广度上存在明显局限,而后训练与慢思考策略能有效缓解这一问题。


13.题目:Supervised Fine-Tuning Achieve Rapid Task Adaption Via Alternating Attention Head Activation Patterns

作者:赵阳*, 杜理*, 丁效, 熊凯, 刘挺, 秦兵

类型:ACL 2025, Long Paper

LLM 在复杂任务上的表现还不尽人意。一个关键问题是,目前的 LLM 是在数据驱动的模式下学习的,而关于这些复杂任务的指令既稀缺又难以收集或构建。相反,一个突出的现象是,如果在预训练阶段获取了足够的先验知识,LLM 可以在比较简单的任务上学得相当快。因此,如果能阐明这种快速泛化的前提和机制,就可以提高 LLM 学习复杂任务的效率和效果。因此,在本文中,我们采用基于梯度的方法,从注意模式的角度剖析 SFT 过程使 LLM 适应下游任务的过程。我们发现:(1)LLM 在 SFT 期间选择性地激活特定于任务的注意力头;(2)复杂任务的激活模式是基本任务模式的组合; (3) 一些参数的变化会显著影响少量样本 SFT 后的激活模式。基于这些见解,我们进行了实验以真正提高 SFT 的效率和有效性。


14.题目:Beyond Similarity: A Gradient-based Graph Method for Instruction Tuning Data Selection

作者:赵阳, 杜理, 丁效, 欧阳扬鸥, 王鹤蓬, 熊凯, 高靖龙, 孙洲浩, 许东亮, 杨青, 李东晨, 秦兵, 刘挺

类型:ACL 2025, Long Paper

大型语言模型 (LLM) 因其通过指令调整实现泛化的能力,在各行各业展现出巨大的潜力。然而,特定领域数据的有限性严重制约了它们在特定任务上的表现。现有方法主要侧重于从与目标领域相似的通用数据集中筛选训练数据,但往往忽略了指令的联合分布,导致学习效率低下和知识迁移不理想。为了应对这些挑战,我们提出了G2IS(基于梯度的图指令选举),这是一种构建基于混合梯度的指令图的新方法,它能够捕捉指令间的联合分布和相互依赖关系。通过考虑指令之间的关系,G2IS 提高了领域自适应效率。此外,我们提出了一种梯度游走算法来改进数据选择过程,从而同时提升训练效果和效率。我们的实验表明,G2IS 在各种领域自适应任务中均优于传统方法,尤其是在复杂、数据稀缺的场景下,性能显著提升。这些结果凸显了 G2IS 在推动大型特定领域模型开发方面的潜力。


15.题目:Making LLMs Better Many-to-Many Speech-to-Text Translators with Curriculum Learning

作者:都业兴,潘囿丞,马子阳,杨博,杨亦凡,邓克琦,陈谐,相洋,刘铭,秦兵

类型:ACL 2025, Long Paper

多模态大语言模型(MLLMs)在语音到文本翻译(S2TT)任务中取得了显著成功。然而现有研究主要集中于以英语为中心的翻译方向,但多语言互译的探索仍受限于平行语料数据的稀缺性。为此,我们提出了一种三阶段课程学习策略:通过利用大语言模型的机器翻译能力并将其适配至S2TT任务,实现在低资源环境下的高效学习。我们训练了不同参数量级(3B/7B/32B)的MLLMs,并基于FLEURS和CoVoST-2数据集验证该策略。实验结果表明,所提策略在15×14种语言对中实现了当前最优的平均性能,且每种语言仅需不足10小时的语音数据即可获得具有竞争力的结果。


16.题目:Investigating and Enhancing the Robustness of Large Multimodal Models Against Temporal Inconsistency

作者:梁家锋*,蒋世鑫*,董轩,王宁,初征,苏辉,傅金兰,刘铭,See-Kiong Ng(黄思强),秦兵

类型:ACL 2025, Long Paper

大型多模态模型 (LMM) 近期在通用视频理解基准测试中展现出令人瞩目的性能。然而,对于更广泛的应用而言,其时间分析能力的鲁棒性亟待深入研究,而这却往往被忽视。基于此,我们提出了一个全新的时间鲁棒性基准测试 (TemRobBench),分别在视觉和文本模态上引入时间不一致性扰动来评估模型的鲁棒性。我们评估了 16 个主流 LMM,发现它们在对抗环境中过度依赖先验知识和文本上下文,而忽略了视频中实际的时间动态。为了缓解这个问题,我们设计了全景直接偏好训练方法 (PanoDPO),鼓励 LMM 同时融合视觉和语言特征偏好。实验结果表明,PanoDPO 可以有效提升模型在时间分析中的鲁棒性和可靠性。


17.题目:Ontology-Guided Reverse Thinking Makes Large Language Models Stronger on Knowledge Graph Question Answering

作者:刘润萱,罗倍,李家琦,王宝鑫,刘铭,伍大勇,王士进,秦兵

类型:ACL 2025, Long Paper

大型语言模型(LLMs)在自然语言处理领域中展现出了卓越的能力。然而,在知识图谱问答(KGQA)任务中,仍然存在需要多跳推理的问题。现有方法通常依赖于实体向量匹配,但由于问题的目的往往较为抽象,难以与具体实体进行有效匹配,导致难以建立通往目的的推理路径,从而引发信息丢失和冗余。为了解决这一问题,我们受人类逆向思维启发,提出了一种新的框架——本体指导的逆向思维方法(Ontology-Guided Reverse Thinking, 简称 ORT)。ORT 包括三个关键阶段:(1)利用 LLM 提取目的标签和条件标签;(2)基于知识图谱本体构建逆向标签推理路径;(3)利用标签推理路径指导知识检索。在 WebQSP 和 CWQ 数据集上的实验表明,ORT 实现了当前最优的性能,并显著提升了 LLM 在知识图谱问答任务中的能力。


18.题目:EffiVLM-Bench: A Comprehensive Benchmark for Evaluating Training-Free Acceleration in Large Visual-Languge Models

作者:汪泽堃*, 马明华*, 王泽鑫*, 牟容川*, 单黎平, 刘铭, 秦兵

类型:ACL 2025, Long Paper

大规模视觉语言模型(LVLMs)已取得显著成功,然而其巨大的计算需求阻碍了实际部署。尽管提升LVLM效率的研究日益增多,但现有方法往往缺乏在多样化模型架构、基准测试和性能指标上的全面评估。在这项工作中,我们系统地评估了主流的LVLM加速技术,并将其归类为token缩和参数压缩。我们引入了EFFIVLM-BENCH,这是一个统一的框架,旨在不仅评估模型的绝对性能,还评估其泛化能力和忠诚度,同时探索帕累托最优的权衡。我们广泛的实验和深入分析为LVLM的加速策略提供见解。


19.题目:MPO: Multilingual Safety Alignment via Reward Gap Optimization

作者:赵伟翔,胡雨林,邓扬,Tongtong Wu,Wenxuan Zhang,郭家合,张岸,赵妍妍,秦兵,Tat-Seng Chua,刘挺

类型:ACL 2025, Long Paper

大语言模型(LLMs)在全球范围内的人工智能应用中日益占据核心地位,这对其在多语言环境中的安全对齐提出了更高要求,以确保在不同语言背景下的安全部署。现有用于安全对齐的偏好学习方法(如RLHF和DPO)主要是单语的,在处理噪声较大的多语言数据时表现不佳。为克服这些局限,我们提出了一种新方法:多语言奖励差距优化(Multilingual reward gap Optimization, MPO),该方法利用主导语言(例如英语)已具备的良好安全对齐能力,提升其他语言的安全对齐效果。MPO通过直接最小化主导语言与目标语言之间的奖励差距,有效迁移安全能力,同时保持主导语言的原有优势。在LLaMA-3.1、Gemma-2和Qwen2.5这三种大型语言模型上的广泛实验证明,MPO在不降低整体多语言能力的前提下,显著提升了多语言的安全对齐效果。


20.题目:Beware of Your Po! Measuring and Mitigating AI Safety Risks in Role-Play Fine-Tuning of LLMs

作者:赵伟翔*,胡雨林*,邓扬,郭家合,隋星宇,韩欣洋,张岸,赵妍妍,秦兵,Tat-Seng Chua,刘挺

类型:ACL 2025, Long Paper

角色扮演使大语言模型(LLMs)能够与用户进行沉浸式且个性化的互动,但同时也带来了显著的安全风险。现有的角色扮演微调技术虽然提升了模型的角色适应能力,但可能会削弱其安全性表现,尤其是在“反派”类角色中更为明显。在本研究中,我们首次对角色扮演微调带来的安全风险进行了系统评估,基于RoleBench训练了95个特定角色的LLM模型。实验表明,角色扮演微调普遍导致模型安全性下降,且这一风险程度会因角色特征而异。为应对这一挑战,我们提出了一种新的方法:安全感知角色扮演微调(SaRFT),旨在在增强角色扮演能力的同时保障模型安全性。我们在LLaMA-3-8B-Instruct、Gemma-2-9B-it和Qwen2.5-7B-Instruct等模型上进行了大量实验,结果显示,无论是在LoRA还是全参数微调设置下,SaRFT都在性能上优于现有的先进基线方法。我们的研究结果凸显了在角色扮演模型中引入安全自适应机制的必要性,并为缓解角色特定的安全风险提供了新的思路。


21.题目:Tag-Evol: Achieving Efficient Instruction Evolving via Tag Injection

作者:王一轩*,周士祺*,郭传哲,朱庆福

类型:Findings of ACL 2025, Long Paper

进化指令作为一种经典数据合成方法,在多个领域取得了显著的进展。现有方法通常依赖于一组固定的演化策略,这些策略需要人工设计,且形式单一。此外,迭代式演化也使得获取高难度样本的成本变得昂贵。鉴于此,我们提出了 Tag-Evol 框架,一种更加多样化且高效的指令演化方法。具体来说,Tag-Evol 使用多样且具体的知识标签作为策略,通过将不同组合的标签注入原始指令中,实现可控的演化。在数学和代码领域的多个基准测试中,使用不同基础模型进行的实验表明,该方法所生成的演化数据显著优于其他方法。此外,我们还对演化数据进行了深入分析,结果表明 Tag-Evol 不仅效率高,还能生成更具多样性和挑战性的样本。


22.题目:Natural Logic at the Core: Dynamic Rewards for Entailment Tree Generation

作者:石继豪,丁效,熊凯,赵恒维,秦兵,刘挺

类型:Findings of ACL 2025, Long Paper

蕴含树在问答任务中对于提升模型的可解释性与透明性具有重要意义。然而,现有的蕴含树生成方法在推理过程中往往缺乏逻辑一致性。为此,本文提出将自然逻辑规则融入强化学习框架,通过动态奖励计算机制,引导蕴含树的构建。该方法不仅提升了推理过程的逻辑一致性,还增强了整体的可解释性与泛化能力。在EntailmentBank数据集上的实验结果表明,所提的方法在性能上显著优于已有方法,充分展现了自然逻辑在结构化推理任务中的应用潜力。


23.题目:Self-Critique Guided Iterative Reasoning for Multi-hop Question Answering

作者:初征,范会明,陈靖昌,王乾宇,杨明达,梁家锋,王钟杰,李浩,唐果,刘铭,秦兵

类型:Findings of ACL 2025, Long Paper

尽管大型语言模型(LLMs)表现出了显著的推理能力,但在知识密集型的多跳推理中仍然面临挑战。最近的研究探索了迭代检索以解决复杂问题。然而,缺乏中间指导往往导致不准确的检索和中间推理错误,从而导致错误的推理。为了应对这些问题,我们提出了自我批评引导的迭代推理(SiGIR),该方法利用自我批评反馈来指导迭代推理过程。具体而言,通过端到端的训练,我们使模型能够通过问题分解迭代解决复杂问题,同时能够自我评估其中间推理步骤。在迭代推理过程中,模型进行分支探索,并利用自我评估来指导有前景的推理轨迹的选择。在三个多跳推理数据集上进行的大量实验证明了我们提出的方法的有效性,超越了之前的最先进技术(SOTA)8.6%。此外,我们的深入分析为未来的研究提供了见解。


24.题目:Separate the Wheat from the Chaff: A Post-Hoc Approach to Safety Re-Alignment for Fine-Tuned Language Models

作者:吴迪,陆鑫,赵妍妍,秦兵

类型:Findings of ACL 2025, Long Paper

尽管大型语言模型(LLMs)在发布时实现了有效的安全对齐,但它们仍然面临各种安全挑战。一个关键问题是微调通常会损害 LLM 的安全对齐。为了解决这个问题,我们提出了一种名为 IRR (Identify, Remove, and Recalibrate for Safety Realignment)的方法,用于对 LLM 执行安全重新对齐。IRR 的核心是从微调模型中识别和删除不安全的 delta 参数,同时重新校准保留的 delta 参数。我们评估了 IRR 在各种数据集中的有效性,包括完全微调和 LoRA 微调。实验结果表明,IRR 显著提高了微调模型在多个安全基准(如有害查询和越狱攻击)上的安全性能,同时保持了它们在下游任务上的性能,取得了帕累托改进。


25.题目:Self-Foveate: Enhancing Diversity and Difficulty of Synthesized Instructions from Unsupervised Text via Multi-Level Foveation

作者:李明哲,陆鑫,赵妍妍

类型:Findings of ACL 2025, Long Paper

具备指令遵循能力的大语言模型(LLMs)展现了卓越的问题解决能力,而从无监督文本中获取用于训练此类模型的指令数据是一个常见选择。然而,完成该过程的传统方法依赖于大量的人工标注,现有自动化合成方法虽突破了这一限制,但在合成指令的多样性和挑战性方面仍存在明显不足。基于此,本文提出Self-Foveate——一种利用LLM进行指令合成的创新方法。该方法通过“微观-分散-宏观”多级聚焦机制,有效地利用LLM深度挖掘无监督文本中蕴含的细粒度信息,从而提升了合成指令的多样性与挑战性。通过在综合多个无监督文本集和不同模型上的实验验证,本方法的有效性与优越性得到充分证明。


26.题目:From Specific-MLLMs to Omni-MLLMs: A Survey on MLLMs Aligned with Multi-modalities

作者:蒋世鑫,梁家锋,王继媛,董轩,常恒,余伟江,杜金华,刘铭,秦兵

类型:Findings of ACL 2025, Long Paper

为了应对现实场景中的复杂任务,研究人员将目光投向了全模态多模态模型(Omni-MLLM),旨在实现全模态理解和生成。Omni-MLLM 突破了特定非语言模态的限制,将各种非语言模态映射到大语言模型(LLM)的嵌入空间,并支持在单个模型中实现任意模态组合的交互和理解。本文系统地梳理了相关研究,并对 Omni-MLLM 进行了全面的综述。具体而言,我们首先阐述了 Omni-MLLM 的四个核心组件,并对其进行了细致的分类,以期构建统一的多模态建模模型,从而提供新颖的视角。然后我们介绍了通过两阶段训练实现的有效集成,并讨论了相应的数据集和评估方法。此外,我们总结了当前 Omni-MLLM 面临的主要挑战,并展望了未来的发展方向。希望本文能够为初学者提供入门指导,并促进相关研究的进步。


27.题目:Breaking the Reasoning Barrier: A Survey on LLM Complex Reasoning through the Lens of Self-Evolution

作者:何涛*,李浩*,陈靖昌,刘润萱,曹艺馨,廖黎姿,郑子豪,初征,梁家锋,刘铭,秦兵

类型:Findings of ACL 2025, Long Paper

OpenAI的O1和 DeepSeek R1 的发布极大地推进了LLM复杂推理的研究。本文从自进化的角度系统分析了已有的推理研究,并将其分为数据进化、模型进化和自进化三个部分。数据进化探索生成高质量推理训练数据的方法。模型进化侧重于训练策略以提高推理能力。自进化研究通过数据的迭代循环和模型的进化来实现自主系统的进化。我们进一步讨论了自进化的scaling law,并通过这个视角分析了具有代表性的推理大模型工作。通过总结先进的方法和概述未来的方向,本文旨在推动LLM推理能力的研究。


28.题目:Lens: Rethinking Multilingual Enhancement for Large Language Models

作者:赵伟翔,胡雨林,郭家合,隋星宇,Tongtong Wu,邓扬,赵妍妍,秦兵,刘挺

类型:Findings of ACL 2025, Long Paper

随着全球对多语言大模型(LLMs)需求的不断增长,当前大多数LLM仍然过于侧重英语,导致非英语用户在获取先进人工智能服务方面受到限制。现有提升多语言能力的方法主要依赖于数据驱动的后训练技术,例如多语言指令微调或持续预训练。然而,这些方法存在诸多局限,包括高昂的资源消耗、语言一致率下降,以及对核心语言能力的灾难性遗忘。为此,我们提出了一种新方法Lens,通过利用LLM内部的语言表示空间,提升其多语言能力。Lens在两个子空间上发挥作用:在语言无关子空间中,它将目标语言与核心语言对齐,从而继承强大的语义表示能力;在语言特定子空间中,它区分目标语言与核心语言,以保留语言的特异性。我们在三种以英语为中心的LLM上进行实验,结果表明Lens在显著提升多语言性能的同时,保持了模型的英语能力,并且相比现有的后训练方法具有更低的计算成本和更优的效果。


29.题目:SCITAT: A Question Answering Benchmark for Scientific Tables and Text Covering Diverse Reasoning Types

作者:张玄靓,王丁子睿,王宝鑫,窦隆绪,陆欣圆,徐柯炎,伍大勇,朱庆福

类型:Findings of ACL 2025, Long Paper

学术领域问答是一项重要的任务,旨在根据论文回答问题。然而,当前学术问答的数据集推理类型有限,并且忽略了表格和文本之间的相关性,这与真实场景存在显著差距。为了应对这些挑战,我们提出了一个针对科学表格和文本的问答基准SCITAT,其中包含多种推理类型。为了涵盖更多推理类型,我们总结了来自真实世界问题的各种推理类型。为了对表格和文本进行推理,我们要求问题尽可能地结合表格和文本。基于SCITAT,我们提出了一个基线方法CAR,该方法结合了各种推理方法来处理不同的推理类型,并同时处理表格和文本。CAR在SCITAT上相比其他基线平均提升了4.1%,验证了其有效性。错误分析揭示了SCITAT的挑战,例如复杂的数值计算和需要专业的领域知识。