EMNLP 2025(The 2025 Conference on Empirical Methods in Natural Language Processing)计划于2025年11月5日至11月9日在中国苏州召开。EMNLP是自然语言处理领域顶级国际会议之一,CCF B类会议,其涉及领域包括但不限于机器翻译、文本生成、文本分类、信息抽取、问答系统、语言模型等研究方向。
哈尔滨工业大学社会计算与交互机器人研究中心有22篇长文被录用,其中13篇被主会录用,9篇被Findings of EMNLP录用。下面是论文列表及介绍:
1.
题目:RoT: Enhancing Table Reasoning with Iterative Row-Wise Traversals
作者:张玄靓,王丁子睿,徐柯炎,朱庆福,车万翔
录用类别:Main, Long Paper
简介:表格推理任务对高效获取数据至关重要,其目标是根据给定表格回答问题。近期,结合了长思维链的推理模型显著增强了其推理能力,在表格推理任务上取得了优异的表现。然而,长思维链不仅训练成本高昂,且由于会产生表格内容幻觉,其可靠性也较低。为此,我们提出了RoT。该方法对表格进行迭代式的逐行遍历,允许在每次遍历中进行推理扩展和基于反思的精炼。RoT 通过逐行遍历来扩展推理长度,并利用大语言模型本身的反思能力,因而无需训练。这种顺序遍历的方式促使模型对表格内容投入更多关注,从而减少幻觉。实验表明,使用非推理模型的 RoT,其性能平均优于推理模型4.3%;并且在使用同等规模模型时,RoT在WikiTableQuestions和TableBench数据集上取得了当前最佳结果,证明了其有效性。同时,RoT 使用更少的推理词元便超越了长思维链,表明其效率更高。
2.
题目:Lookahead Q-Cache: Achieving More Consistent KV Cache Eviction via Pseudo Query
作者:王一轩*,季世宇*,刘议骏,徐玉庄,徐阳,朱庆福,车万翔
录用类别:Main, Long Paper
简介:大语言模型(LLMs)通过KV Cache减少冗余计算,达到加速解码的效果。然而,随着文本序列长度的增加,KV Cache的显存占用也急剧上升,为高效部署带来显著挑战。现有的KV Cache驱逐方法通常依据预填充阶段的注意力分数对令牌进行剪枝,这种方式会导致驱逐目标与实际推理查询之间的不一致,在预算受限场景下更为突出。为此,本文提出一种新型KV Cache驱逐框架——前瞻查询缓存(LAQ),通过生成低成本的伪前瞻Query,来更准确地逼近真实解码阶段的查询特征。该框架将前瞻生成的伪Query作为重要性估计的观测窗口,使KV缓存驱逐策略与真实推理场景更加契合,从而提升驱逐的准确性和一致性。在LongBench和“大海捞针”基准测试上的实验表明,LAQ在不同缓存预算条件下均优于现有方法,尤其在有限缓存场景下,在LongBench上能够实现1~4个百分点的性能提升。此外,LAQ可与现有方法灵活结合,进一步带来正交的性能提升。
3.
题目:End-to-End Learnable Psychiatric Scale Guided Risky Post Screening for Depression Detection on Social Media
作者:王毕陈*,訾宇哲*,孙怡馨,杨浩,赵妍妍,秦兵
录用类别:Main, Long Paper
简介:通过用户的社交媒体发帖历史检测抑郁症对于及时干预至关重要;然而,这些帖子中的不相关内容会对检测性能产生负面影响。因此,从用户复杂的发帖历史中提取相关内容至关重要。当前的方法使用冻结筛选模型,由于筛选和检测过程相互孤立,这些模型可能会丢失关键信息并限制整体性能。为了解决这些限制,我们提出了E2-LPS 端到端可学习精神病量表引导的风险帖子筛选模型 ( E2 - LPS ),用于在精神病量表的指导下联合训练我们的筛选模型和检测模型。我们采用直通估计器来实现可学习的端到端筛选过程,并避免筛选过程的不可微性。实验结果表明,E2-LPS 优于几种强大的基线方法,定性分析证实它比其他方法更好地捕捉了用户的心理状态。
4.
题目:Look Beyond Feeling: Unveiling Latent Needs from Implicit Expressions for Proactive Emotional Support
作者:符兴*,李浩桢*,王毕陈,杨浩,赵妍妍,秦兵
录用类别:Main, Long Paper
简介:近年来,大语言模型在情感支持对话方面取得了显著进展。然而,基于大模型的支持系统仍面临两大挑战。首先,用户在对话初始阶段可能会犹豫,不愿完全袒露自己的情绪。其次,直接性的探询或过度的提问可能引发用户的不适甚至抵触情绪。为应对上述挑战,我们提出 COCOON,一种主动式情感支持框架。该框架借鉴积极倾听的核心原则,以更自然、渐进的方式挖掘用户的潜在需求。我们设计并实施了一个多阶段的数据构建与清洗流程,从而形成高质量的数据资源。在此基础上,我们微调了 COCOON-Llama3,并通过标准自动化指标与心理学量表对模型进行系统评估。实验结果表明,与现有基线模型相比,COCOON-Llama3 能够更有效地捕捉用户隐含的情感需求,并生成更具同理心的回应。这一结果不仅验证了框架的有效性,也凸显了其在构建更加包容与细腻的情感支持对话系统中的潜在价值。
5.
题目:Nullspace Disentanglement for Red Teaming Language Models
作者:韩一,刘元兴,张伟男,刘挺
录用类别:Main, Long Paper
简介:随着对大语言模型安全问题的担忧持续增加,基于红队测试生成的高质量微调数据对提升模型安全性具有关键作用。近期研究已提出自动化红队模型来生成高质量安全测试用例。然而,这些方法普遍存在效率低下和攻击成功率偏低的问题。本研究采取了一种新的红队视角,假设不同测试样例的攻击效果实质上是其内在信息或特征的外在表现。通过发现测试用例攻击成功的背后关键信息,本研究利用该信息更有效地生成测试用例。本研究提出了一种面向自动化红队测试的零空间解耦方法NDR,通过解耦并调整目标信息来生成测试用例。NDR首先基于现有红队测试结果训练,利用零空间捕捉并解耦测试用例中的目标信息。在生成时,NDR通过推理阶段的残差机制调控目标信息的权重,以得到多样的生成结果。实验结果表明,该方法在多个模型上的攻击成功率方面优于基线模型,生成的红队测试用例在多样性和流畅性方面也表现出色。
6.
题目:Stimulate the Critical Thinking of LLMs via Debiasing Discussion
作者:肖瑞宇,吴磊,刘元兴,张伟男,刘挺
录用类别:Main, Long Paper
简介:大语言模型(LLMs)在面对冲突观点时,往往会倾向于用户的立场,即使用户的观点是错误的。这种错误广泛存在于最先进的模型中,例如GPT4,Claude,DeepSeek。我们发现这一问题背后存在两大偏差:立场同质偏差和人类偏好偏差。为解决这些偏差,我们提出了一种新颖的两阶段训练框架:多立场讨论采样与真相对齐训练(MDTA)。首先,我们引入了一个平等多立场讨论框架,自动生成多模型讨论数据集。基于此框架,我们构建了首个且最大的多模型公平讨论数据集 Eq-Discussion,用于监督微调,从而减少立场同质偏差。其次,我们优化了基于人类反馈的强化学习(RLHF),使其与讨论的正确性对齐,缓解人类偏好偏差。大量实验结果表明,MDTA 有效降低了两种偏差,使模型能够批判性地审视用户观点,与用户进行平等、建设性的讨论。同时,MDTA显著提升了大型语言模型在阅读理解、逻辑推理和社会问答等多种下游任务中的表现。此外,我们还观察到 MDTA 增强了模型的泛化能力,在非讨论场景和领域外数据集上均带来了性能提升。
7.
题目:Probing and Boosting Large Language Models Capabilities via Attention Heads
作者:赵得志,刘欣,冯骁骋,王晖,秦兵
录用类别:Main, Long paper
简介:利用来自大规模语料库的通用数据子集,以最优方式增强大语言模型(LLMs)的特定能力,为解决领域特定数据稀缺性问题并降低训练成本提供了一种有效的解决方案。然而,当前主流方法依赖于观察训练阶段基准指标的变化或梯度相似性,这些方法基于表面观察,未能将LLMs的能力与其内部组件联系起来,因此缺乏可解释性,导致性能提升效率低下且受限。在本工作中,我们提出了一种轻量级且高可解释性的方法,用于关联LLMs的能力与其内部组件并增强特定能力。我们首先界定了LLMs的五种基本应用能力。然后,我们采用探针技术来识别与每种能力相对应的特定注意力头,从而建立了这些能力与内部模型组件之间的映射。在目标指令微调任务上,我们随后将复杂任务所需的复杂能力分解为这些基本能力的组合,并直接利用相应的注意力头来选择数据。在 LLaMA3.1-8B 和 Qwen2.5-7B 模型上的实验表明,我们的方法在各种能力上的判别准确率超过70%。在 MMLU 和 BBH 数据集上的结果显示,我们的方法性能优于基于梯度的选择方法 LESS 1.3%-2%,并优于其他基于中间状态的选择方法 5%-6%。
8.
题目:Context-Aware Hierarchical Taxonomy Generation for Scientific Papers via LLM-Guided Multi-Aspect Clustering
作者:朱坤,廖黎姿,顾宇轩,黄磊,冯骁骋,秦兵
录用类别:Main, Long paper
简介:随着科学文献数量的迅速增长,如何高效地组织和整合研究成果成为学术界面临的重要挑战。现有的分类体系构建方法主要依赖无监督聚类或直接利用大语言模型(LLMs)进行生成,往往存在整体连贯性不足、粒度不够精细等问题。为此,我们提出了一种全新的上下文感知分层分类体系生成框架,结合LLM引导的多维度表示与动态聚类策略,为大规模文献的结构化整理提供了突破性思路。具体而言,我们的方法利用LLM自动识别论文的关键维度(如方法、数据集、评测等),并生成针对不同维度的摘要;随后对这些摘要进行编码,并在综合各个维度进行动态聚类,自上而下构建出连贯的层级结构。与此同时,我们引入了一个全新的评测基准,涵盖了156个由专家精心构建的分类体系,覆盖约11,600篇论文,成为该任务上首个人工标注的数据集。实验结果显示,我们的方法在分类体系的连贯性、粒度与可解释性方面均显著优于现有方法,取得了最新的前沿性能。
9.
题目:Chart2Code53: A Large-Scale Diverse and Complex Dataset for Enhancing Chart-to-Code Generation
作者:牛天昊*,崔一鸣*,王宝鑫*,徐啸,姚鑫,朱庆福,伍大勇,王士进,车万翔
录用类别:Main, Long paper
简介:图表转代码(Chart2code)近期在多模态研究社区中受到广泛关注,因为它有望减轻可视化负担并促进对图表的更深入理解。然而,现有的 Chart2code 相关训练数据集至少存在以下问题之一:(1)规模有限;(2)图表类型覆盖不足;(3)复杂性不足。为了解决这些挑战,我们寻求更多多样化的数据来源,以更好地契合真实用户分布,并提出了双重数据合成流程:(1)基于在线绘图代码进行合成;(2)基于学术论文中的图表图像进行合成。我们据此构建了一个大规模 Chart2code 训练数据集 Chart2code53,涵盖 53 种图表类型、13 万个图表-代码配对。实验结果表明,即使在参数量较少的情况下,基于 Chart2code53 微调的模型在多个 Chart2code 基准测试上也能在开源模型中达到先进性能。
10.
题目:MA-GTS: A Multi-Agent Framework for Solving Complex Graph Problems in Real-World Applications
作者:袁梓珂,刘铭,王晖,秦兵
录用类别:Main, Long paper
简介:图论问题广泛存在于物流、通信网络及交通优化等实际应用中。这些问题通常具有复杂性、噪声干扰性和不规则性,对传统算法构成了严峻挑战。大语言模型虽提供潜在解决方案,但仍面临精度有限、输入长度受限及算法选择欠佳等问题。为应对这些挑战,我们提出MA-GTS(多智能体图论求解器),该框架通过智能体协同工作机制分解复杂问题。MA-GTS将隐式表达的文本图谱数据映射为清晰的结构化图表示,并依据问题约束与图结构规模动态选择最优算法。我们使用自主构建的真实场景图论数据集G-REAL进行验证,实验结果表明:MA-GTS在成本效益、精度与可扩展性方面均优于现有最优方法,在多个基准测试中(G-REAL 93.6%、GraCoRe 96.9%、NLGraph 98.4%)取得卓越性能,在闭源与开源模型上均表现出强劲的鲁棒性。
11.
题目:How do Language Models Reshape Entity Alignment? A Survey of LM-Driven EA Methods: Advances, Benchmarks, and Future
作者:陈则睿*,范会明*,王乾宇*,何涛,刘铭,常恒,余伟江,李泽,秦兵
录用类别:Main, Long paper
简介:实体对齐是知识图谱融合的关键技术,旨在识别不同知识图谱中的等价实体。然而,传统方法在语义理解与可扩展性方面常面临挑战。语言模型的兴起,特别是大语言模型的出现,为这一领域带来了强有力的全新策略。本文系统性地综述了由语言模型驱动的实体对齐方法,并提出了一种新颖的分类体系,将现有方法归纳为三个关键阶段:数据准备、特征嵌入与对齐判定。此外,我们还总结了该领域的核心基准数据集、评估指标,并探讨了未来的研究方向。本文旨在为研究人员和实践者提供一个清晰而全面的视角,以深入理解语言模型正在如何重塑实体对齐这一研究领域。
12.
题目:AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender
作者:赵伟翔*,郭家合*,胡雨林,邓扬,张岸,隋星宇,韩欣洋,赵妍妍,秦兵,Tat-Seng Chua,刘挺
录用类别:Main, Long paper
简介:尽管在安全对齐方面投入了大量努力,大语言模型(LLMs)仍然容易受到越狱攻击。激活引导(Activation Steering)提供了一种无需额外训练的防御方法,但它依赖固定的引导系数,导致保护效果不佳,并增加了对良性输入的误拒率。为了解决这一问题,我们提出 AdaSteer,一种自适应激活引导方法,可以根据输入特征动态调整模型行为。我们发现了对齐模型中的两个关键规律:拒绝规律(R-Law),表明对于与拒绝方向相反的越狱输入,需要更强的引导;有害性规律(H-Law),用于区分越狱输入与良性输入。AdaSteer 在 拒绝方向(RD) 和 有害性方向(HD) 上引导输入表示,并通过逻辑回归学习自适应系数,从而在保证对良性输入处理的同时,提供稳健的越狱防御。我们在 LLaMA-3.1、Gemma-2 和 Qwen2.5 上的实验表明,AdaSteer 在多种越狱攻击下均优于基线方法,并且对模型实用性影响最小。我们的结果凸显了可解释的模型内部机制在实现实时、灵活的安全防御中的潜力。
13.
题目:iTool: Reinforced Fine-Tuning with Dynamic Deficiency Calibration for Advanced Tool Use
作者:曾屹荣,丁效,王余贤,刘卫文,候宇泰,宁午,黄旭,唐都钰,涂丹丹,秦兵,刘挺
录用类别:Main, Long paper
简介:将大语言模型与外部工具相结合是一种提升其能力的有前景方法,尤其适用于复杂任务。通过现实世界模拟生成工具使用数据是实现这一目标的有效途径。然而,我们的研究表明,随着合成数据量的增加,训练效果的提升显著衰减。模型难以从更多合成数据中获益,也无法在复杂场景中获得高级的工具使用能力。此外,我们发现上述限制通常表现为响应中的小片段错误问题。为此,我们提出一种迭代式强化微调策略,实现动态的缺陷矫正。该策略包括:(1)通过蒙特卡洛树搜索的路径探索,增强合成数据响应的多样性;(2)通过构建细粒度的偏好对,迭代识别模型的不足,并利用偏好优化算法实现针对性改进。实验结果表明,与同等规模的基础模型相比,我们的方法性能提升了13.11%,在复杂场景中比基线方法提高了6.5%。
14.
题目:FroM: Frobenius Norm-Based Data-Free Adaptive Model Merging
作者:李子健,冯骁骋,刘慧新,黄毅翀,刘挺,秦兵
录用类别:Findings, Long paper
简介:随着大语言模型的发展,微调逐渐成为一种有效的方法,通过注入特定领域的知识来提升模型在特定场景下的表现。在这一背景下,模型合并技术应运而生,它通过融合不同微调模型的参数,实现多源知识的整合。然而,传统方法在合并全量微调模型时往往会遇到任务干扰的问题,而在参数高效微调的场景下,这一问题更为突出。
针对这一挑战,本文在RegMean方法的基础上提出改进方案。该方法通过间接利用训练数据,近似合并前后线性层的输出。进一步地,我们提出了一种全新的自适应合并方法——FroM。FroM不依赖任何训练数据,而是直接利用Frobenius范数对模型参数进行度量,并通过引入额外的超参数实现灵活控制。在多种微调场景中,FroM显著优于现有基线方法,有效缓解了任务干扰问题。
15.
题目:MULTITAT: Benchmarking Multilingual Table-and-Text Question Answering
作者:张玄靓*,王丁子睿*,徐柯炎,朱庆福,车万翔
录用类别:Findings, Long paper
简介:针对表格和文本混合上下文的问答(TATQA)是一项关键任务,在数据密集型领域有着广泛的应用。然而,现有的TATQA数据集仅限于英语,这导致了若干缺陷:(i)它们忽略了多语言TATQA的挑战,无法在多语言环境下评估模型性能;(ii)它们未能反映真实世界中,表格和文本常以非英语语言出现的多语言场景。为解决这些局限性,我们提出了首个多语言TATQA数据集(MULTITAT)。具体来说,我们从3个主流的TAT-QA数据集中进行采样,并将其翻译成10种不同的语言。为了对齐模型在英语及其他语言上的TAT-QA能力,我们开发了一个基线方法。实验结果表明,在MULTITAT上,非英语数据的性能相较于英语平均下降了19.4%,这证明了MULTITAT的必要性。我们进一步分析了造成这种性能差距的原因。此外,我们的方法比其他基线方法平均高出3.3个点,证明了其有效性。
16.
题目:DAC: Decomposed Automation Correction for Text-to-SQL
作者:王丁子睿,窦隆绪,张玄靓,朱庆福,车万翔
录用类别:Findings, Long paper
简介:本论文提出了一种名为分解式自动修正 (Decomposed Automation Correction, DAC) 的新方法,旨在提升Text-to-SQL任务的性能。研究发现,大型语言模型 (LLMs) 直接检测和修正SQL查询中的错误效果不佳。为此,DAC方法将修正过程分解为更简单的子任务。它首先从自然语言问题中生成关键的实体 (entities) 和查询骨架 (skeleton),然后将初始生成的SQL与这些实体和骨架进行比较,并将差异作为反馈信息来指导最终的修正。实验结果显示,与以往的自动修正方法相比,DAC在Spider、Bird和KaggleDBQA三个标准数据集上平均将准确率提升了1.4%,证明了该方法的有效性。
17.
题目:DocAssistant: Integrating Key-region Reading and Step-wise Reasoning for Robust Document Visual Question Answering
作者:张津旭,樊启元,张宇
录用类别:Findings, Long paper
简介:在多模态文档中进行有效理解,对于准确提取关键信息并基于证据开展推理具有重要意义。然而,现有文档理解模型往往难以聚焦于核心内容,且易忽略源文档中的证据。为此,本文提出了DocAssistant,以提升模型在文档视觉问答中的推理能力。具体而言,在视觉建模方面,我们设计了一种高效的视觉-语言适配机制,将文本信息融入视觉编码器,以提升模型对关键信息的注意力;在语言建模方面,我们利用多模态大语言模型作为数据生成与校验工具,构建高质量的推理问答数据。基于这些数据训练得到的增强模型,能够更好地应对复杂问题。实验结果验证了该方法在文档理解任务中的有效性与优势。
18.
题目:CrossQG: Improving Difficulty-Controllable Question Generation through Consistency Enhancement
作者:李昆泽,张宇
录用类别:Findings, Long paper
简介:可控难度问题生成在教育领域具有巨大的应用价值。尽管大语言模型能够生成不同难度的问题,但其生成的问题往往与目标难度不符。为了解决这一问题,本论文提出了CrossQG——一种无需训练即可提升难度一致性的新型问题生成方法。具体而言,CrossQG包含两个核心步骤:(1)对比增强,利用问题中包含的其他难度信息,增强基础模型对目标难度的理解;(2)交叉过滤,比较面向不同难度生成的问题,基于难度嵌入删去不符合目标难度的问题。本论文在三个高质量问答数据集上对CrossQG进行了评估。实验结果表明,CrossQG显著优于多种主流方法,不仅取得了更高的难度一致性,还提升了生成问题的整体质量。值得注意的是,即便在没有训练的情况下,CrossQG在多项实验中的表现甚至超越了有监督微调方法。
19.
题目:From Hypothesis to Publication: A Comprehensive Survey of Al-Driven Research Support Systems
作者:周泽焜,冯骁骋,黄磊,冯夏冲,宋子蕴,陈睿涵,赵亮,马伟涛,顾宇轩,王宝鑫,伍大勇,胡国平,刘挺,秦兵
录用类别:Findings, Long paper
简介:科学研究是推动人类文明进步的基石,但需要研究人员投入大量的时间和精力。近年来,人工智能(AI)的快速发展激发了研究人员探索如何利用 AI 来加速研究工作,并进行了大量相关工作。为了跟踪并推进领域的发展,我们为AI for Research领域提供了一个系统性的综述,通过模拟人类研究人员进行科学研究的通用框架,将相关研究分为三个方面:假设提出、假设验证和成果发布,并对相关技术的发展进行了总结。其中假设提出涉及知识整合与假设生成两个方向;假设验证包括科学声明验证、定理证明以及实验验证;成果发布涵盖手稿撰写与同行评审。此外,我们还讨论了这些领域目前面临的挑战,潜在的伦理问题,以及未来的研究方向,并对各个领域的benchmark和以及现有可直接使用的工具进行了总结。
20.
题目:ClueAnchor: Clue-Anchored Knowledge Reasoning Exploration and Optimization for Retrieval-Augmented Generation
作者:陈昊*,闫宇坤*,梅森,车万翔,刘正皓,施琦,李欣泽,范瑀纯,黄鹏程,熊秋实,刘知远,孙茂松
录用类别:Findings, Long paper
简介:检索增强生成 (RAG) 利用外部知识增强大语言模型 (LLM),以提高事实准确性。然而,现有的 RAG 系统通常未能充分利用检索到的文档,无法有效捕捉到可解释推理所需的关键线索,尤其是在相关证据隐含、分散或被噪声掩盖的情况下。为了解决这个问题,我们提出了 ClueAnchor,一个通过线索锚定推理探索和优化来增强 RAG 的全新框架。ClueAnchor 从检索到的内容中提取关键线索,并根据不同的知识配置生成多条推理路径,并通过基于奖励的偏好优化选择最有效的路径来优化模型。实验表明,ClueAnchor 在推理完整性和鲁棒性方面显著优于之前的 RAG 基线。通过进一步的实验分析证明了它对噪声或部分相关的检索内容具有强大的鲁棒性,并且即使在推理过程中没有明确的线索监督的情况下也能识别关键线索证据。
21.
题目:Chain of Strategy Optimization Makes Large Language Models Better Emotional Supporter
作者:赵伟翔*,隋星宇*,韩欣洋,邓扬,胡雨林,郭家合,覃立波,杜倩云,王士进,赵妍妍,秦兵,刘挺
录用类别:Findings, Long paper
简介:现代社会中日益增长的情绪压力提升了对情感支持对话(Emotional Support Conversations, ESC)的需求。尽管大语言模型(LLMs)在 ESC 中展现出潜力,但仍面临两个关键挑战:(1) 策略选择准确率低,(2) 偏好偏差明显,限制了其对用户情感需求的适应性。现有的监督微调(SFT)难以有效解决这些问题,因为它在训练中仅依赖单一的标准回复,缺乏对细微策略权衡的建模。为克服这些局限,我们提出了一种新颖的两阶段框架,用于在对话的每一轮优化策略选择偏好。首先,我们利用蒙特卡洛树搜索(Monte Carlo Tree Search)构建 ESC-Pro,一个包含轮次级别策略-回复对的高质量偏好数据集。随后,在 ESC-Pro 上进行训练,并结合链式策略优化(Chain-of-Strategy Optimization, CSO),能够同时提升策略准确率并缓解偏好偏差,使 LLMs 生成更具共情性和语境适配性的回复。在 LLaMA-3.1-8B、Gemma-2-9B 和 Qwen2.5-7B 上的实验表明,CSO 显著优于标准的 SFT,凸显了细粒度、轮次级别偏好建模在 ESC 中的有效性。
22.
题目:Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch
作者:曾屹荣,丁效,候宇泰,王余贤,杜理,代居益,丁秋阳,唐都钰,涂丹丹,刘卫文,秦兵,刘挺
录用类别:Findings, Long paper
简介:训练工具增强型大语言模型(LLMs)是提升其复杂任务能力的重要途径。现有监督微调依赖大量特定数据,泛化能力有限。近期强化学习(RL)在提升模型推理与泛化方面表现突出。本文探讨核心问题:纯RL能否有效激发模型内在推理能力并提升工具无关的泛化性能?我们提出一种动态泛化引导的规则化RL奖励机制,逐步从探索转向利用性工具使用。基于此,推出Tool-Zero系列模型,直接从零开始(基座模型)通过RL训练,实现模型自主使用通用工具。实验表明,相比SFT和RL-with-SFT范式下训练的模型,我们的模型性能提升超7%,在多个跨数据集和同数据集评估中均表现更优,验证了方法的有效性与鲁棒性。