SMP机器人群聊比赛(\(\text{SMP-MC}^2\))
重要:
SMP-MCC初赛自动评价结果公布
欢迎
欢迎来到SMP机器人群聊比赛(SMP Multi-bot Conversation Challenge,\(\text{SMP-MC}^2\))。 人机对话技术是人工智能领域的一个重要研究方向,从手机智能助手,到闲聊陪护型聊天机器人,再到各种面向场景的任务型对话系统平台和智能家居,人机对话系统渐渐融入人类社会的日常运行中,促进了将来人机共融社会的发展。然而,目前的人机对话仅限于人机双方的对话模式,而更具挑战的人机多方混合对话乃至机器人多方群聊的任务在研究和应用上鲜有涉及。 SMP机器人群聊比赛(\(\text{SMP-MC}^2\))由中国中文信息学会社会媒体处理专委会社交机器人工作组主办。旨在促进人机对话技术在多方对话场景上的发展,充分挖掘人机对话技术在各种应用场景下的潜力,为人机对话技术相关的学术界研究人员和产业界从业人员提供一个良好的沟通平台。在此,我们诚邀各个单位参加SMP机器人群聊比赛(\(\text{SMP-MC}^2\))!
评测任务
- 任务描述
在机器人群聊场景中,已知群聊主题和历史消息记录,要求生成符合群聊主题和上下文逻辑的回复。所生成的回复需要流畅且与群聊对话主题相关。
- 任务说明
- 群聊主题 在任务中,我们会给定群聊主题,在每个主题下进行\(N \times 10\)轮对话(N表示参与群聊机器人总数)。其中,主题包括但不限于医疗、交通、教育、金融等。
- 轮转策略 在某个群聊主题下,我们将按一定策略初始机器人回复顺序,确保所有机器人的回复优先级总体相同。而在其他群聊主题中,我们将多次轮番调换机器人回复顺序,以保证最终评分环境的公平性。
- 消息决策 在评测任务中,当我们向每个机器人请求回复时,会提供当前群聊主题和历史消息记录。参赛队伍需要根据群聊主题和历史消息记录进行相关决策,以生成合理的回复。
评测形式
- 接口设定
参赛队伍需要提供聊天机器人的接口API,我们将使用该接口API进行群聊评测。需要注意的是,接口API的阻塞时间为10s。若超时未回复,则标记回复失败,多次回复失败将影响最终评测得分。 接口API的交互数据格式如下:
# 数据编码格式均为UTF-8 # 输入消息数据格式 data = { # 当前群聊id "group_id": group_id, # 当前群聊主题 "topic": topic, # 自该机器人上次回复之后的消息记录(按时间先后顺序) "msgs":[ { "from_id": robot_id, "msg": msg }, ... ] } # 回复消息数据格式 resp = { # 当前群聊id "group_id": group_id, # 回复机器人id "from_id": robot_id, # 回复消息 "msg": msg }
- 训练数据
参赛队伍可以使用包括但不限于医疗、交通、教育、金融等主题的多方对话数据进行模型训练。
评价指标
- 自动评价
初赛阶段采用自动评价指标,参赛队伍需提交自己的聊天机器人接口API。机器人在群聊中的性能表现将会作为排名依据。 自动评测所使用的指标包括:
- Topic:评估输出回复和群聊主题的相关程度。
- Perplexity:评估输出回复的流畅性。
- Distinct:评估输出回复的多样性。
我们将综合考虑三个指标来进行初赛排名。
- 人工评价
决赛阶段,我们将选取初赛排名靠前的聊天机器人进行人工评估,使用众包的方式对群聊中每个机器人的回复在如下三个方面进行评价:
- Topic:生成的回复是否符合当前群聊主题(考虑主题)。
- Fluency:生成回复的表达是否流畅,无语法错误(考虑句子)。
- Appropriateness:生成的回复是否符合人们的日常交流习惯(考虑上下文语境)。
其中,在每个指标上至少有5个人进行评价,每个指标评分取值集合为\(\{0, 1, 2\}\),0表示差,1表示一般,2表示好。 决赛排名将以人工评估结果为依据。
注:此次比赛中我们将采取匿名评测,即对外只公布参赛队伍的代号和评测成绩,不公布参赛队伍的具体信息。
注册报名
有意向参加的单位机构请直接填写在线报名表。 报名存在任何问题,请联系评测会务组:smp_mcc@163.com
重要日期
以下所有时间点为北京时间(GMT+8)11:59 PM。
时间 | 任务 | 形式 |
---|---|---|
2019年6月28日-2019年8月28日 | 报名 | 线上 |
2019年8月31日 | 发布群聊主题 | 邮件 |
2019年9月1日-2019年11月15日 | 参赛队伍系统开发 | 线下 |
2019年10月15日 | 预评测(开发集) | 邮件 |
2019年11月16日 | 正式评测(初赛) | 直播 |
2019年11月17日-2019年11月31日 | 人工评测(复赛) | 人工标注评测 |
2019年12月14日 | 召开论坛 | 主题报告 |
组织委员会
张洪忠(北京师范大学)、黄民烈(清华大学)、张伟男(哈尔滨工业大学)
联系方式
如果有任何与本次评测相关的问题,请随时联系会务组。
评测会务组邮箱:smp_mcc@163.com
致谢
主办方:中国中文信息学会社会媒体处理专委会社交机器人工作组
承办方:哈尔滨工业大学社会计算与信息检索研究中心