哈工大SCIR提出的『具身行为规划』入选2025年度计算机科学技术研究前沿热点词

发布时间：2025年12月23日 14:59:51 阅读次数：10

2025年11月22日，全国科学技术名词审定委员会2025年度工作会议暨学术年会在中国科技会堂（北京）隆重召开。2025年度科学研究前沿热点词在会上发布，本次研究前沿热点词68条，涵盖民用航空、医学、公共卫生与预防医学、博物馆学、计算机科学技术、水利科学技术、煤炭科学技术、音乐、非物质文化遗产、编辑与出版学、测绘学等11个学科领域。这些热点词由相应的学科名词审定委员会专家根据2025年最新研究动态和发展趋势综合评价推出。旨在揭示当前学科研究的热点和趋势，同时也作为对科学发展历程的一种记录，反映了一个时期内科学发展的重点和特点。

其中，第四届全国计算机科学技术名词审定委员会发布了6个2025年度计算机科学技术研究前沿热点词，我中心田宇丰、张伟男、刘挺提出的“具身行为规划（Embodied Behavior Planning）”入选本年度研究前沿热点词。

1 摘要

在具身智能领域中，长时间多阶段任务因其复杂性一直是具身模型需要攻克的难点。本文定义了具身行为规划的概念，并对现存的几个相似的概念进行了辨析。同时，本文分析了目前具身行为规划的主要挑战，即并未收敛的模型架构、相对匮乏的高质量数据和测试任务的设计上的不统一。此外，本文还对目前学术界提出的方法进行了回顾，并探讨了未来具身行为规划的发展路径。

关键词：具身智能，预训练，视觉-语言-动作（VLA）大模型

2 定义

具身行为规划，是指具身智能体（如机器人、虚拟智能体）为完成复杂任务，在物理环境约束下，自主生成并决策出一系列具有语义的高层行为序列的认知过程。具体来说，它包含对任务的高层轨迹规划能力和低层动作执行能力。它强调“行为”作为规划的基本单元，如对于一个给定任务“找到餐桌上的盘子并放到洗碗机中”而言，具身行为规划能够规划这个任务并分解成多个高层次的子任务，如“寻找盘子”、“拿起盘子”、“移动到水槽前”、“放置盘子”等。这些规划得到的子任务在逻辑层级上高于低层、具体的、根据机器人逆动力学求解出的“动作”（如关节角度、电机扭矩、末端执行器位姿等），体现了智能体在环境交互中的自主决策能力。

3 概念辨析

学术界有几个相似的概念：具身行为规划(Embodied Behavior Planning)、具身长序列规划(Embodied Long-Sequence Planning)和具身长程规划(Embodied Long-Horizon Planning)。这几个概念存在内在的联系。具身长序列规划侧重动作序列的生成，而具身长程规划则侧重整体轨迹的时间长度，受限于现有的硬件和推理速度的影响，长动作序列同时也意味着执行轨迹的时间长，说明二者概念之间存在很强的相似性。需要指出的是，任务的长与短之间并没有明确的界限。一般认为，长时间任务的阶段更多，对具身模型的泛化能力要求更高。同时，具身行为规划也包含了解决长时间多阶段任务的含义 [37]。因此，我们将具身长序列规划和具身长程规划的概念合并到具身行为规划的概念中。

4 重要性

随着大型语言模型（LLM）和人工智能技术的飞速发展，具身智能(Embodied AI)领域正迅速崛起。尽管该领域在导航(Navigation)、操控(Manipulation)等方面已取得显著进展，但在实际应用中仍面临诸多挑战。受到硬件限制和模型自身缺陷的影响，具身智能体在处理需要高泛化能力和长时序控制能力的长时间多阶段任务时，表现往往不尽理想。与传统控制算法相比，基于预训练大模型的具身智能研究方向其核心优势恰恰在于出色的泛化能力和处理分布外(Out-Of-Distribution, OOD)信息的能力。因此，如何让通过学习得到的智能体更好的具备泛化能力，成为了如今具身智能领域研究者着重研究的方向。

具身行为规划是具身智能研究的前沿与核心。它充当了环境感知与底层动作控制之间的“智能枢纽”，将抽象任务目标转化为可执行且符合物理现实的行为步骤。这使得智能体不再是简单的动作执行者，而是能主动应对环境不确定性、进行任务分解和灵活决策的自主实体，是实现通用智能的关键一环。这要求模型必须具备以下核心能力 [31]：1. 时序记忆与追踪：有效记住并追踪过去帧的信息，这些信息包括但不限于视觉信息、传感器信息、本体感知(Proprioception)信息，而不仅仅是识别当前帧的信息。2. 高层规划能力：能够预测和制定连贯的未来行为序列。3. 环境自适应性：适应任务和环境的动态变化。

5 研究概括

从具身行为规划发展的脉络来看，传统控制算法(Control Algorithm)与基于深度学习(Learning-based Algorithm)的现代算法的分界点主要源自人工智能和具身智能的兴起。过去机器人领域关于具身行为规划的研究中，通常使用感知-规划-行动(Sense-Plan-Act, SPA)的范式，通过将任务分解成子任务再串联的方式来解决具身行为规划任务[23]。传统方法通常包括操作规划[26]，实时状态评估[20]等，但这些方法通常对环境变化极敏感，难以处理复杂任务、高动态性任务和开放环境[2][8]。近年来，随着以pi0[4]为代表的视觉-语言-动作(Vision-Language-Action, VLA)大模型的兴起，研究人员对这些通过大规模数据预训练展现出的对物体位置、物体形状等物理设置相关的泛化能力产生了浓厚兴趣。许多观点（如[4][11][29]）认为，具身模型解决具身行为规划任务的核心规划能力来源于大规模数据的预训练。

目前，具身行为规划的核心挑战在于三点：1. 并未收敛的模型架构。2. 相对匮乏的高质量数据，限制了真实环境中策略的训练。3. 测试任务的设计上的不统一，对模型复现和与基线比较的合理性和公平性产生了影响。

当前具身行为规划的技术路线并未收敛，在高层行为规划阶段，当前研究工作主要基于预训练大模型，以EmbodiedGPT[22]，TaPA[38]，ETO[39]，ReACT[40]为代表，这些工作把大语言模型（LLM）的常识与视觉感知结合，用场景中实际存在的物体列表来“落地”计划，构建高效的行为规划。此外，有许多工作在大模型的基础上引入了强化学习(Reinforcement Learning)机制来辅助进行学习和规划，以Embodied Planner-R1 [41]，OREO[42]，Steca[43]为代表，通过强化学习对大语言模型进行有效后训练，从而提升了模型的高层行为规划能力。而在低层动作生成阶段，具身行为规划的方法主要分为两大类：端到端预训练模型(End-to-End Pre-training Models)和分层预训练模型(Hierarchical Pre-training Models)。端到端预训练模型直接从多模态输入生成行为规划和动作输出，主要分为两种实现方式：1. 多模态VLA模型：使用视觉信息、语言指令和专家数据共同进行训练的模型，通常通过在大规模预训练多模态大语言模型(MLLM)的基础上增加动作头或额外的专家模块来生成行为规划[4][11][12][36]。2. 单一模态编码器：仅对某一模态（如视觉或语言）进行预训练或微调，而将另一模态的训练冻结。例如，模型如Uniter [7], Oscar [15], VinVL[35]和LiT [34] 冻结了视觉编码器, 而Frozen [27] and VGPT[5]则冻结了语言编码器。更进一步，Flamingo[1]和 BLIP-2 [14]则同时冻结两种编码器。分层预训练模型，以G0[12]为代表，采用双模型分层的架构，一个模型通过快速推理实现“快执行”，一个模型通过将高层指令分解成可执行的任务序列完成“慢思考”。而VLA-OS[10]则指出将规划(Plan)和执行阶段相分离的做法和端到端VLA相比，在具身行为规划任务中或许能产生更好的结果。

具身行为规划任务策略的预训练对数据量要求巨大，目前主流的解决方案有三种，真机数据，仿真数据和网络数据。真机数据训练是应用最广泛的训练数据，因其不存在sim-to-real gap的问题。pi0[4], pi0.5[11], G0[12], Palm-e[9], TinyVLA[28]等都采用了大量真机数据进行训练。然而，真机数据也存在着自身的问题，例如，采集需要大量人力和时间，不同机器人本体之间存在数据鸿沟，高质量数据占比较低。从上往下数据规模增大，但能被现实中具身本体利用的程度减小。由于真机数据的缺乏，研究人员把目光转向了仿真数据和网络数据。仿真数据指在仿真环境中收集对应机器人的大量数据，从而避免了因为本体不同导致的gap。然而，显著的sim-to-real gap使得直接利用仿真数据并不能带来明显的效果。研究者或通过MimicGen [19], DexMimicGen [13], DemoGen [30] 等方法生成大量仿真数据，结合少量真机数据进行联合训练，如 GR00T [3], RoboCasa [24], Sim-real Co-training[18]，或使用sim-to-real的方法进行真实世界的迁移，如 Maniwhere[32]。网络数据数据量最大（如文字、人类操作视频），但也是相对最难以用于训练的，难以直接用于具身行为规划预训练。近年来，也有工作通过训练基座模型(Foundation Model)的方法来利用大量的网络数据，如RT-2[36]。

训练得到的具身行为规划算法需要评价指标。真实环境中，人们可以设计许多相对复杂的任务作为真机实验指标，如晾晒衣物，倒果汁, 叠衣服([4], [17])。而在仿真中，LIBERO[16], RoboTwin[21], RoboTwin2.0[6]等基准的出现，也使得具身行为规划效果的衡量有了更精准和可重复的指标，为进一步打通具身行为规划的学习通路提供了前置条件。

6 研究趋势与展望

具身行为规划任务下具身智能面临着三大核心挑战 [22]：1. 建立第一视角下灵活的具身认知系统：这要求具身模型具有更好的环境感知能力，随着世界模型(World Model)的发展，这个问题逐渐得到缓解。2. 实现高度灵活的环境自适应决策规划能力，这要求策略能够更好的进行决策，将大任务拆分成若干能够执行的小任务。3. 实现目标驱动的与物理世界的精确运动交互，这对硬件和求解器要求同样很高，可以减小策略在仿真环境和在真实世界中执行任务时所产生的复合误差，同样也是未来研究的趋势。

在未来，具身行为规划的下游任务会逐渐超越传统的拿起-放置(Pick-and-Place)任务，转向主要以灵巧操作、可形变物体操作为主的高动态性、高灵巧度、任务周期长的任务。同时，多模态、高泛化能力、强鲁棒性的具身智能大模型将会是具身行为规划的重要目标。关于预训练模型所用的数据，目前技术路径并未收敛，分为纯真机数据和真机仿真数据融合两种思路，但这两种思路都有其对应问题。例如，纯真机数据可能出现数据量不足以训练大模型的问题，而真机仿真数据融合可能受到仿真-真机差异(sim-to-real gap)的影响。在未来，一种可能的思路是以大量仿真数据和部分真机数据共同训练为主，同时结合数据生成范式来扩展仿真数据和真机数据的数量，以及利用周期性矫正 [33] 的方法来减弱仿真环境和真机环境在动力学上的差距，进而降低仿真-真机差异。

参考文献：

[1] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katherine Millican, Malcolm Reynolds, et al. Flamingo: a visual language model for few-shot learning. Advances in neural information processing systems, 35:23716–23736, 2022.

[2] H Bavle, JL Sanchez-Lopez, EF Schmidt, and H Voos. From slam to situational awareness: Challenges and survey. arxiv 2021. arXiv preprint arXiv:2110.00273.

[3] Johan Bjorck, Fernando Castañeda, Nikita Cherniadev, Xingye Da, Runyu Ding, Linxi Fan, Yu Fang, Dieter Fox, Fengyuan Hu, Spencer Huang, et al. Gr00t n1: An open foundation model for generalist humanoid robots. arXiv preprint arXiv:2503.14734, 2025.

[4] Kevin Black, Noah Brown, Danny Driess, Adnan Esmail, Michael Equi, Chelsea Finn, Niccolo Fusai, Lachy Groom, Karol Hausman, Brian Ichter, et al. pi_0: A vision-languageaction flow model for general robot control. arXiv preprint arXiv:2410.24164, 2024.

[5] Jun Chen, Han Guo, Kai Yi, Boyang Li, and Mohamed Elhoseiny. Visualgpt: Dataefficient adaptation of pretrained language models for image captioning. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 18030–18040, 2022.

[6] Tianxing Chen, Zanxin Chen, Baijun Chen, Zijian Cai, Yibin Liu, Zixuan Li, Qiwei Liang, Xianliang Lin, Yiheng Ge, Zhenyu Gu, et al. Robotwin 2.0: A scalable data generator and benchmark with strong domain randomization for robust bimanual robotic manipulation. arXiv preprint arXiv:2506.18088, 2025.

[7] Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, and Jingjing Liu. Uniter: Universal image-text representation learning. In European conference on computer vision, pages 104–120. Springer, 2020.

[8] Zixuan Chen, Jing Huo, Yangtao Chen, and Yang Gao. Robohorizon: An llmassisted multi-view world model for long-horizon robotic manipulation. arXiv preprint arXiv:2501.06605, 2025.

[9] Danny Driess, Fei Xia, Mehdi SM Sajjadi, Corey Lynch, Aakanksha Chowdhery, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, Wenlong Huang, et al. Palm-e: An embodied multimodal language model. 2023.

[10] Chongkai Gao, Zixuan Liu, Zhenghao Chi, Junshan Huang, Xin Fei, Yiwen Hou, Yuxuan Zhang, Yudi Lin, Zhirui Fang, Zeyu Jiang, et al. Vla-os: Structuring and dissecting planning representations and paradigms in vision-language-action models. arXiv preprint arXiv:2506.17561, 2025.

[11] Physical Intelligence, Kevin Black, Noah Brown, James Darpinian, Karan Dhabalia, Danny Driess, Adnan Esmail, Michael Equi, Chelsea Finn, Niccolo Fusai, et al. pi0.5: a vision-language-action model with open-world generalization. arXiv preprint arXiv:2504.16054, 2025.

[12] Tao Jiang, Tianyuan Yuan, Yicheng Liu, Chenhao Lu, Jianning Cui, Xiao Liu, Shuiqi Cheng, Jiyang Gao, Huazhe Xu, and Hang Zhao. Galaxea open-world dataset and g0 dual-system vla model, 2025.

[13] Zhenyu Jiang, Yuqi Xie, Kevin Lin, Zhenjia Xu, Weikang Wan, Ajay Mandlekar, Linxi Jim Fan, and Yuke Zhu. Dexmimicgen: Automated data generation for bimanual dexterous manipulation via imitation learning. In 2025 IEEE International Conference on Robotics and Automation (ICRA), pages 16923–16930. IEEE, 2025.

[14] Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. Blip-2: Bootstrapping languageimage pre-training with frozen image encoders and large language models. In International conference on machine learning, pages 19730–19742. PMLR, 2023. 5

[15] Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei, et al. Oscar: Object-semantics aligned pre-training for vision-language tasks. In European conference on computer vision, pages 121–137. Springer, 2020.

[16] Bo Liu, Yifeng Zhu, Chongkai Gao, Yihao Feng, Qiang Liu, Yuke Zhu, and Peter Stone. Libero: Benchmarking knowledge transfer for lifelong robot learning. Advances in Neural Information Processing Systems, 36:44776–44791, 2023.

[17] Yiyang Lu, Yufeng Tian, Zhecheng Yuan, Xianbang Wang, Pu Hua, Zhengrong Xue, and Huazhe Xu. H3dp: Triply-hierarchical diffusion policy for visuomotor learning. arXiv preprint arXiv:2505.07819, 2025.

[18] Abhiram Maddukuri, Zhenyu Jiang, Lawrence Yunliang Chen, Soroush Nasiriany, Yuqi Xie, Yu Fang, Wenqi Huang, Zu Wang, Zhenjia Xu, Nikita Chernyadev, et al. Sim-andreal co-training: A simple recipe for vision-based robotic manipulation. arXiv preprint arXiv:2503.24361, 2025.

[19] Ajay Mandlekar, Soroush Nasiriany, Bowen Wen, Iretiayo Akinola, Yashraj Narang, Linxi Fan, Yuke Zhu, and Dieter Fox. Mimicgen: A data generation system for scalable robot learning using human demonstrations. arXiv preprint arXiv:2310.17596, 2023.

[20] Andrew T Miller and Peter K Allen. Graspit! a versatile simulator for robotic grasping. IEEE Robotics & Automation Magazine, 11(4):110–122, 2004.

[21] Yao Mu, Tianxing Chen, Shijia Peng, Zanxin Chen, Zeyu Gao, Yude Zou, Lunkai Lin, Zhiqiang Xie, and Ping Luo. Robotwin: Dual-arm robot benchmark with generative digital twins (early version). In European Conference on Computer Vision, pages 264– 273. Springer, 2024.

[22] Yao Mu, Qinglong Zhang, Mengkang Hu, Wenhai Wang, Mingyu Ding, Jun Jin, Bin Wang, Jifeng Dai, Yu Qiao, and Ping Luo. Embodiedgpt: Vision-language pre-training via embodied chain of thought. Advances in Neural Information Processing Systems, 36:25081–25094, 2023.

[23] Robin R Murphy. Introduction to AI robotics. MIT press, 2019. 6

[24] Soroush Nasiriany, Abhiram Maddukuri, Lance Zhang, Adeet Parikh, Aaron Lo, Abhishek Joshi, Ajay Mandlekar, and Yuke Zhu. Robocasa: Large-scale simulation of everyday tasks for generalist robots. arXiv preprint arXiv:2406.02523, 2024.

[25] Yuzhe Qin, Wei Yang, Binghao Huang, Karl Van Wyk, Hao Su, Xiaolong Wang, Yu-Wei Chao, and Dieter Fox. Anyteleop: A general vision-based dexterous robot arm-hand teleoperation system. arXiv preprint arXiv:2307.04577, 2023.

[26] Russ H Taylor, Matthew T Mason, and Kenneth Y Goldberg. Sensor-based manipulation planning as a game with nature. In Fourth International Symposium on Robotics Research, pages 421–429, 1987.

[27] Maria Tsimpoukelli, Jacob L Menick, Serkan Cabi, SM Eslami, Oriol Vinyals, and Felix Hill. Multimodal few-shot learning with frozen language models. Advances in Neural Information Processing Systems, 34:200–212, 2021.

[28] Junjie Wen, Yichen Zhu, Jinming Li, Minjie Zhu, Zhibin Tang, Kun Wu, Zhiyuan Xu, Ning Liu, Ran Cheng, Chaomin Shen, Yaxin Peng, Feifei Feng, and Jian Tang. Tinyvla: Toward fast, data-efficient vision-language-action models for robotic manipulation. IEEE Robotics and Automation Letters, 10(4):3988–3995, 2025.

[29] Lik Hang Kenny Wong, Xueyang Kang, Kaixin Bai, and Jianwei Zhang. A survey of robotic navigation and manipulation with physics simulators in the era of embodied ai. arXiv preprint arXiv:2505.01458, 2025.

[30] Zhengrong Xue, Shuying Deng, Zhenyang Chen, Yixuan Wang, Zhecheng Yuan, and Huazhe Xu. Demogen: Synthetic demonstration generation for data-efficient visuomotor policy learning. arXiv preprint arXiv:2502.16932, 2025.

[31] Siyu Yuan, Kaitao Song, Jiangjie Chen, Xu Tan, Dongsheng Li, and Deqing Yang. Evoagent: Towards automatic multi-agent generation via evolutionary algorithms. arXiv preprint arXiv:2406.14228, 2024.

[32] Zhecheng Yuan, Tianming Wei, Shuiqi Cheng, Gu Zhang, Yuanpei Chen, and Huazhe Xu. Learning to manipulate anywhere: A visual generalizable framework for reinforcement learning. arXiv preprint arXiv:2407.15815, 2024. 7

[33] Zhecheng Yuan, Tianming Wei, Langzhe Gu, Pu Hua, Tianhai Liang, Yuanpei Chen, and Huazhe Xu. Hermes: Human-to-robot embodied learning from multi-source motion data for mobile dexterous manipulation. arXiv preprint arXiv:2508.20085, 2025.

[34] Xiaohua Zhai, Xiao Wang, Basil Mustafa, Andreas Steiner, Daniel Keysers, Alexander Kolesnikov, and Lucas Beyer. Lit: Zero-shot transfer with locked-image text tuning. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 18123–18133, 2022.

[35] Pengchuan Zhang, Xiujun Li, Xiaowei Hu, Jianwei Yang, Lei Zhang, Lijuan Wang, Yejin Choi, and Jianfeng Gao. Vinvl: Revisiting visual representations in vision-language models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 5579–5588, 2021.

[36] Brianna Zitkovich, Tianhe Yu, Sichun Xu, Peng Xu, Ted Xiao, Fei Xia, Jialin Wu, Paul Wohlhart, Stefan Welker, Ayzaan Wahid, et al. Rt-2: Vision-language-action models transfer web knowledge to robotic control. In Conference on Robot Learning, pages 2165– 2183. PMLR, 2023. 8

[37] Wang, Jin, Arturo Laurenzi, and Nikos Tsagarakis. Autonomous behavior planning for humanoid loco-manipulation through grounded language model. 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2024.

[38] Zhenyu Wu and Ziwei Wang and Xiuwei Xu and Jiwen Lu and Haibin Yan. “Embodied Task Planning with Large Language Models”. arXiv preprint arXiv: 2307.01848, 2023.

[39] Song, Yifan, et al. Trial and error: Exploration-based trajectory optimization for llm agents. arXiv preprint arXiv:2403.02502 (2024).

[40] Yao, Shunyu, et al. React: Synergizing reasoning and acting in language models. The eleventh international conference on learning representations. 2022.

[41] Fei, Zhaoye, et al. Unleashing Embodied Task Planning Ability in LLMs via Reinforcement Learning. arXiv preprint arXiv:2506.23127 (2025).

[42] Wang, Huaijie, et al. Offline reinforcement learning for llm multi-step reasoning. Findings of the Association for Computational Linguistics: ACL 2025. 2025.

[43] Wang, Hanlin, et al. Steca: Step-level trajectory calibration for llm agent learning. arXiv preprint arXiv:2502.14276 (2025).

中心新闻

哈工大SCIR提出的『具身行为规划』入选2025年度计算机科学技术研究前沿热点词