引言
近年来,以DeepSeek为代表的大模型技术取得了重大突破,推动着人类社会向通用人工智能时代迈进。随着大模型能力的不断提升,也让我们看到大众对于人工智能的技术期待不再局限于认知智能水平,而是向着决策智能努力,这意味着人们不再满足于大模型能够给出通用的常识问题回答,更期望大模型能够进一步给出决策建议。然而,大模型在这方面还存在明显的技术短板。例如,有研究表明,基于GPT-4-turbo给出旅游规划决策建议,其决策方案被采纳的成功率低于10%。
在此大的背景下,2024年,工信部、中央网信办、国家发改委和国家标准委四部门联合印发的《国家人工智能产业综合标准化体系建设指南》中明确提出,加强人机协同决策与控制的标准化工作建设。决策智能成为我国新一代人工智能战略规划的重要组成部分,也是当前国际前沿热点研究领域和我国打破西方技术围堵的关键战场,更是大国博弈背景下,国家安全的重要保障。
然而,如何实现决策智能,仍然面临着诸多科学问题及技术挑战。为了更好地应对这一挑战,哈工大社会计算与交互机器人研究中心刘挺教授于2024年10⽉19⽇在CCIR 2024大会上正式提出“辩论式决策机”作为⼀种创新的决策智能实现路径:以⼤语⾔模型的强⼤基础能⼒作为辩论式决策机的技术⽀撑,通过模拟⼈类辩论式决策思维模式,辩论式决策机整合不同智能体带来的多⽅观点,权衡不同⽴场,在⾮完全信息条件下做出决策建议,随后通过人类与智能体之间的协作式辩论对决策建议进一步优化。这种基于辩论的决策机制,不仅能够提升决策的透明度和可解释性,还能通过多轮辩论迭代不断优化决策质量,推动⼈⼯智能向更⾼层次的决策智能发展。
决策智能的研究现状
决策(Decision-Making),指的是基于可用信息来选择行动方案的过程。需要考虑多种因素,包括预测的结果、个人或组织的目标、资源的可用性以及可能的风险和收益。一般的决策流程包含有决策主体、决策动作、决策目标和决策环境几类要素。作为辅助人类决策的重要组成部分,智能决策(IDM,Intelligent Decision-Making)技术指的是AI智能体作为决策主体,自主与决策环境交互,根据决策目标实施合理的决策方案。
如图1所示,智能决策技术经历了专家系统、统计机器学习、深度强化学习到大模型的发展。在传统的专家系统和机器学习决策方法中,需要人对问题有清晰的理解、对决策问题进行拆解和定义、以及人工确定问题中的决策特征,这些都限制了智能决策的应用场景。而基于深度强化学习的智能决策,无需人类知识,使用智能体自主与环境进行动态交互,基于交互经验自动提升智能体的性能,由模型去学习能够最大化期望奖励的行动,一定程度解决了依赖人类专家知识的问题。但是其价值函数依赖于特定环境、特定任务,且跨任务跨场景泛化能力差,故该方法难以应用于全新场景的复杂问题决策。
图1:智能决策的近期趋势:从基于深度强化学习到基于大模型
最新的发展趋势为从深度强化学习到基于大模型的智能决策。典型特点是利用大数据、大算力训练大模型,解决决策任务中的开放环境、环境变化、策略泛化性等问题,其又可分为两类技术路线,一类是基于强化学习大模型,通过与环境的交互进行自我探索,在海量任务中学习到可泛化的策略,得到可泛化的决策智能体;另一类是基于大语言模型,以LLMs为中心,配合外部环境交互模块构建决策智能体。
2022年5月,DeepMind发布Gato决策大模型,使用同一个Transformer网络(11.8亿参数)同时完成约600个任务(机械臂、小游戏),其基本思想是将多模态决策轨迹数据按照统一格式进行离散化,转变为Token序列,统一送入GPT架构进行训练,预测下一个动作。2024年2月,DeepMind发布强化学习大模型研究工作:Genie,其类似于Sora,生成连续视频,预测在一系列动作后环境将会发生的变化。然而,基于强化学习大模型的决策智能体的决策依据来源于与模拟环境的交互,该模拟环境的运行机制完全已知,而真实世界的模拟环境难以构建。同时,在有限边界、封闭环境中学习到的经验难以迁移到真实世界,因此该方法难以应用到复杂问题决策。而基于大语言模型的决策智能体,其决策依据并非来自于与环境动态交互,而是来源于人类文字记录,有完成复杂问题决策的潜力。例如为了完成一个软件设计开发的工作,大语言模型的决策能力来源于无监督学习的方式从海量文本中学习到相关知识,而不是基于与一个模拟“产品经理日常工作”的环境进行交互。然而当今的大语言模型仍难以进行复杂问题决策,例如医学场景中的治疗方案制定等决策问题。
辩论式决策机的定义
定义1:复杂问题是指具有系统性强、要素多样且高度关联耦合、问题的发展变化具有极大不确定性、背后涉及的事理逻辑复杂等特征的问题。
定义2:复杂问题决策是指解决复杂问题的策略或办法,是人们为复杂问题出主意、做决定的过程,它是一个复杂的思维操作过程,是信息搜集、加工,最后作出判断、得出决策结论的过程。复杂问题决策涉及在非确定性、部分可观察或动态环境下行动或策略的选择。
定义3:辩论式决策机是一种 AI 智能体决策系统,它基于可用信息,通过多个智能体与专家之间的论证与辩论,在不同观点、方案之间进行权衡和对比,来选择最佳行动方案。辩论式决策机主要面向复杂问题给出智能决策建议。
复杂问题决策需要群体辩论研讨,因为尽管个体独立决策能够更快速和高效,但是会影响决策的质量和效果,科学的复杂问题决策需要不同知识背景、不同立场群体的共同讨论。辩论式决策的优势在于,通过人类与智能体相互补充知识、客观数据与分析结果,更准确地为决策提供支持依据,同时可以弥补人类群体决策中向权威专家妥协的弊端,由智能体作为客观的挑战者,在观点的冲突融合中提升决策准确率。
图2:辩论式决策机框架
基于这些观察,我们提出了辩论式决策机的基本研究框架。如图2所示,辩论式决策机依托多模态感知系统获取可用信息,借助多智能体的自组织自学习融合出初步决策意见。随后,与人类专家展开迭代论证和辩论,在不同观点与方案之间进行权衡和对比,从而筛选出最佳行动方案。该决策系统可高效完成决策中的5个重要步骤:信息采集、定性判断、溯因、预测、确定方案,其中信息采集、定性判断和确定方案为必选步骤,而溯因和预测为可选步骤。以疾病诊断方案决策为例,给定一个待决策的病例,该系统首先要采集患者历史病例、CT片、医生问诊情况等信息,在此基础上系统中的多个智能体根据不同来源的信息进行一个初步定性诊断,随后智能体可能会对该病例进行溯因,也就是要研究导致疾病的原因是什么,然后推断/预测可能的治疗方案,经过多智能体多次推演、意见融合后,再跟人类进行协作式辩论,最终确定治疗方案。
四个关键科学技术问题
1.类人多轮协商的智能体自组织机理。
多智能体系统在决策过程中面临决策环境数据复杂异构,各智能体考虑问题角度不一等问题,其协同决策过程必然面临决策冲突与融合挑战。解决以上冲突的有效方法是以任务目标为导向,以动态协商为核心,实现多智能体间的深度协作与决策优化。为此,需要多智能体在决策过程中保持实时交互,在多个维度上实现信息共享与结果融合。
此外,多智能体协同决策机制至关重要。针对任务特点,需要探索多智能体的角色分工模式及群体组织机制,实现能力互补,并制定高效的冲突消解策略。进一步,如何基于历史决策数据与效果反馈来优化多智能体协同决策模型,也是重点研究方向。
2.复杂决策环境模拟。
复杂决策环境中,利益主体多元化,各方决策相互影响,形成动态博弈,且往往是非零和博弈,这使得在进行决策措施评估时必须要进行长期推演。为此,需要针对复杂决策环境研究能够准确预测其动态演化过程的仿真模型的构建方法。
此外,复杂决策环境中,参与者行为与系统演化之间存在高度不确定性,涉及要素高度耦合,解决这一问题的有效方法是以事理逻辑知识为基础,以动态强泛化建模为核心,实现对复杂决策环境的深度刻画。该如何寻找多方博弈的决策模式及演化规律,实现要素关联的动态建模,是一个重点研究方向。
3.人机辩论中大模型批判性思维的构建与优化。
人类专家与大模型之间存在认知与决策逻辑的根本性差异,其在辩论与决策过程中必然会产生观点分歧与信任问题。解决这些问题的有效方法是以批判性思维为基础,以可解释性为核心,让大模型在辩论过程中一方面保持批判性思维,对人不盲从,敢于挑战人类专家;另一方面保持决策透明性,在多个维度上提供可溯源、可理解的决策依据。
此外,人机辩论的协同机制至关重要。针对任务特点,需要探索人类与大模型的分工模式及意见权重分配,实现能力互补,同时考虑如何制定高效的辩论冲突消解机制,实现高效辩论与决策意见生成。
4.决策方案的自动评价方法。
目前尚缺乏针对复杂问题决策方案的自动评价基准。特定领域的复杂问题决策案例往往涉及到用户个人隐私,诸多背景信息难以公开,确保收集的决策案例数据的全面性、多样性和准确性与保证收集数据的合法性、可用性和安全性是一个天然矛盾,如何在构建一个能够全面、准确、动态地评价决策方案的基准过程中,克服数据偏差和背景信息不足的问题,是该领域亟待解决的关键科学问题。
此外,系统化的决策方案需要包含具体实施步骤、决策依据等。针对这种开放域的长文本生成任务,现有评价方法主要关注文本的连贯性、一致性和相关性,无法直接适用于决策方案的质量评价。因此还需要研究针对决策方案的细粒度评价方法,综合考虑方案的可行性与可解释性,对决策结果和决策过程进行分阶段、多维度评价。
辩论式决策机在医学领域初探
哈工大社会计算与交互机器人研究中心初步完成辩论式决策机1.0版本的开发,并且在医疗领域进行了初步尝试,我们在完成国家重点研发项目《人机融合医疗会诊关键技术与应用》(如图3)以及中国移动项目《面向心血管疾病的人机融合会诊系统》过程中,成功将辩论式决策机从理论推向实际应用,通过多模态感知系统获取患者的多源数据,结合多智能体的自组织自学习能力,生成初步诊疗意见。随后,系统与人类专家展开多轮辩论和论证,最终得出最优的诊疗方案。这一过程不仅提升了诊断的准确性和决策的透明度,还通过人机协同优化了医疗资源的利用效率,展示了辩论式决策机在复杂医学决策中的巨大潜力。
图3:《人机融合医疗会诊关键技术与应用》系统界面示例
总结
智能决策是国家重⼤战略需求,从信息检索到智能决策,从认知智能到决策智能,是一项重要的技术路线变革。对于复杂问题的决策,需要更强大的大模型,需要多智能体间的协作(群体智能),更需要人与机器的协作(混合智能)。辩论式决策机作为一个全新的技术路线, 还面临着诸多的未知难题与挑战。这些问题可能涉及用户体验与感受、成本与效益、伦理与法律、隐私与安全、文化与社会等多个方面,需要学术界的多学科合作,以及产业界和管理部门的共同努力来解决,以促进辩论式决策机技术更早、更有效、更安全地服务于人类社会,推动辩论式决策机在医疗、司法、金融等更多领域落地应用。