赛尔讲坛 | 北京大学杨耀东研究员讲座成功举办

发布时间：2025年04月30日 10:26:58 阅读次数：11

2025年4月21日上午10:00，哈尔滨工业大学社会计算与交互机器人研究中心（哈工大SCIR）邀请到了北京大学人工智能研究院研究员（博雅学者）、人工智能安全与治理中心执行主任杨耀东博士，为我中心全体在校师生带来学术讲座。

杨耀东研究员作报告

本次“赛尔讲坛”在哈尔滨工业大学活动中心214举行，杨耀东研究员的报告主题为《视觉-语言-行为模型的对齐问题》，讲坛由哈工大SCIR副主任车万翔教授主持。

车万翔教授主持讲坛

视觉-语言-行为（Vision-Language-Action，VLA）模型在具身智能领域发挥着关键作用，使智能体能够通过视觉感知环境、理解语言指令，并执行合理的物理交互。然而，由于跨模态融合的复杂性，VLA模型在实际应用中面临对齐问题，包括跨模态一致性偏差、长尾任务泛化困难、价值偏差以及安全性约束。

在本次讲座中，杨耀东研究员以生动的“血钻”故事引出AI系统与人类价值之间潜在的偏差问题，从控制论和阿西莫夫机器人定律讲起，系统梳理了价值对齐的历史脉络与科学挑战，指出通用人工智能系统在实现强大能力的同时，可能会出现“奖励篡改”、“伪装对齐”甚至“逆向对齐”等风险现象。讲座深入探讨了大模型对齐的核心机制，包括预训练与对齐的两阶段范式、RLHF及其扩展方法、自博弈和MPO算法的最后一轮收敛等问题，以及如何借助树形奖励建模提升细粒度过程监督能力。此外，杨耀东研究员还介绍了从文本到图像、视频乃至具身行为的全模态对齐框架，强调模态穿透、多模态偏好建模及可扩展监督对于推动AI安全与人类价值一致性的关键作用，最终提出了“可验证价值安全”作为未来智能无人系统发展的核心目标。杨耀东研究员系统深入的讲座内容获得了师生的一致好评。

哈工大SCIR师生听杨耀东研究员作报告

讲座过后，哈工大SCIR师生向杨耀东研究员请教了全模态模型对齐的难点和“经验时代”下大模型发展等问题，杨耀东研究员认为智能体本质上都是从经验中不断学习的，无论是来自人类历史积淀的大规模语料，还是通过与环境交互所获得的奖励信号；基于经验的规划与推理，或将成为通向真正通用人工智能（AGI）的关键路径。

哈工大SCIR师生提问

讲者简介：

杨耀东博士，北京大学人工智能研究院研究员（博雅学者）、人工智能安全与治理中心执行主任。获人社部海外高层次人才、国家级高层次青年人才、中国科协青年托举人才资助。研究方向为智能体安全交互与价值对齐，科研领域涵盖强化学习、AI对齐、多智能体学习、具身智能。发表AI领域顶会顶刊论文一百余篇，谷歌引用八千余次，曾获ICCV'23最佳论文奖入围、CORL'20最佳系统论文奖、AAMAS'21最具前瞻性论文奖、WAIC'22云帆奖璀璨明星、ACM SIGAl China新星奖。带领国内团队研发多智体强化学习算法首登Nature Machine Intelligence，主导Baichuan2、鹏城脑海33B、香港HKGAI大模型价值对齐工作，碳材料大模型工作刊登于Cell子刊。

中心新闻

赛尔讲坛 | 北京大学杨耀东研究员讲座成功举办