第六届全国社会媒体处理大会
SMP2017中文人机对话技术评测(ECDT)
重要:
SMP2017-ECDT评测任务1具体评测方案
SMP2017-ECDT评测任务2具体评测方案
SMP2017-ECDT评测结果公示
SMP2017-ECDT会议议程
SMP2017-ECDT技术报告
SMP2017-ECDT任务一数据集发布
欢迎
欢迎来到SMP2017中文人机对话技术评测(The Evaluation of Chinese Human-Computer Dialogue Technology,SMP2017-ECDT)。
“第六届全国社会媒体处理大会(The Sixth China National Conference on Social Media Processing)”将于2017年9月15—17日在北京召开。全国社会媒体处理大会专注于以社会媒体处理为主题的科学研究与工程开发,为传播社会媒体处理最新的学术研究与技术成果提供广泛的交流平台,旨在构建社会媒体处理领域的产学研生态圈,成为中国乃至世界社会媒体处理的风向标,会议将以社交网络的形式改变传统的学术会议交流体验。全国社会媒体处理大会每年举办一次,现已成为社会媒体处理的重要学术活动。第六届全国社会媒体处理大会(SMP 2017)由中国中文信息学会社会媒体处理专委会主办,中国科学院计算技术研究所承办。SMP 2017欢迎社会媒体相关方面的原创研究和应用论文。
在本届SMP会议上,我们计划举办中文人机对话技术评测(ECDT)。近年来,人机对话技术受到了学术界和产业界的广泛关注。学术上,人机对话是人机交互最自然的方式之一,其发展影响及推动着语音识别与合成、自然语言理解、对话管理以及自然语言生成等研究的进展;产业上,众多产业界巨头相继推出了人机对话技术相关产品,如个人事务助理、虚拟情感陪护机器人、娱乐型聊天机器人等等,并将人机对话技术作为其公司的重点研发方向。以上极大地推动了人机对话技术在学术界和产业界的发展。
本届中文人机对话技术评测由中国中文信息学会社会媒体处理专委会主办,哈尔滨工业大学、科大讯飞股份有限公司承办,讯飞公司提供数据,华为公司提供奖金。旨在促进中文人机对话系统相关研究的发展,为人机对话技术相关的学术研究人员和产业界从业人员提供一个良好的沟通平台。在此,评测会务组诚邀各个单位参加本次人机对话技术评测活动!
评测内容
评测任务概述
本届人机对话技术评测主要包括两个任务,参赛者可以选择参加任意一个任务或全部任务。
任务1:用户意图领域分类
在人机对话系统的应用过程中,用户可能会有多种意图,相应地会触发人机对话系统中的多个领域(domain),其中包括任务型垂直领域(如查询机票、酒店、公交车等)、知识型问答以及闲聊等。因而,人机对话系统的一个关键任务就是正确地将用户的输入分类到相应的领域(domain)中,从而才能返回正确的回复结果。
【用户意图领域分类示例】
1) 你好啊,很高兴见到你! — 闲聊类
2) 我想订一张去北京的机票。 — 任务型垂类(订机票)
3) 我想找一家五道口附近便宜干净的快捷酒店 — 任务型垂类(订酒店)
【评测说明】
评测任务1包含闲聊和垂类两大类,其中垂类又细分为30个垂直领域。本次评测任务1中,仅考虑针对单对话轮用户意图的领域分类,多轮对话整体意图的领域分类不在此次评测范围之内。
【评测方式】
1)封闭式评测
参赛者仅允许使用主办方提供的评测数据进行训练和开发,评测时,主办方给定测试集,并运行参赛系统,在测试集上面得出评测结果。
2)开放式评测
参赛者可以开放地获取除主办方提供的数据之外的训练及开发数据,评测时,主办方给定测试集,并运行参赛系统,在测试集上面得出评测结果。
【评价指标】
准确率(P)、召回率(R)及F值。
任务2:特定域任务型人机对话在线评测
针对特定域的任务型人机对话系统,人工实时在线对话交互及评价能够反映系统对于用户意图响应的性能以及用户真实的满意度。因此,本次评测任务2为面向特定领域的任务型人机对话在线评测。
【特定域任务型人机对话示例】:其中U表示用户,R表示对话系统。
任务型对话示例1:
用户完整意图:预定下周三(2017年4月12日)从北京去上海的上午或者中午出发,价格低于8折的便宜机票。
U:下周从北京去上海
R:请问您需要订票吗?
U:恩,是的
R:请问您要下周哪天出发呢?
U:周三吧
R:帮您预订2017年04月12日从北京到上海的机票,请问有餐饮,价格等其他的要求吗?
U:尽量订上午的吧,价格找便宜一点的
R:帮您查询了2017年04月12日从北京到上海的机票,没有上午出发的航班,中午12:10出发是否可以?7.3折,910元
U:也行,就订这个吧
R:即将帮您预订2017年04月12日从北京到上海的机票,南方航空,CZ6412 空客321(中),12:10:00出发,7.3折,910元,不可退改签,确定要订票吗?
U:是的
R:已经帮您预订该航班机票,将跳转至付款页面
任务型对话示例2:
用户完整意图:预定明天(2017年4月10日),丽江古城区附近的一家酒店,价格不超过200元每晚。
U:我想预定丽江古城区附近的酒店
R:请问您想哪天入住呢?
U:明天吧
R:请问您对价格有要求吗?
U:别太贵,每晚200元以下吧
R:2017年04月10日入住,丽江古城区附近,价格200元以下的酒店,为您找到以下结果(与用户意图最相关的5个酒店结果),请问您想预定哪一个?
U:就这个丽江古城联强酒店吧
R:好的,已经帮您预订丽江古城联强酒店,2017年04月10日入住。
任务型对话示例3:
用户完整意图:查询明天(2017年4月10日)从哈尔滨到北京的晚间软卧火车票信息,上下铺均可。
U:到北京的软卧火车票还有吗?
R:请问您要从哪里出发?
U:哈尔滨
R:您要定哪天的呢?
U:明天吧
R:请问您对发车时间有要求吗?
U:晚上的,正好能睡一觉
R:请问您要上铺还是下铺呢?
U:都行
R:您要查询的2017年04月10日 晚间出发从哈尔滨到北京的软卧火车票信息如下(与用户意图最相关的5个火车票查询结果)
任务型对话示例4:
用户完整意图:预定2017年4月10日从哈尔滨到北京的上午的航班或火车,价格低于500元,同时预定2017年4月10日五道口附近300-400元的快捷酒店一晚。
U:查一下明天从哈尔滨到北京的机票
R:请问您要什么舱位?
U:经济舱
R:您要上午,下午,晚上哪个时间段出发?
U:上午吧
R:有一个上午6:25出发的南方航空CZ6421的航班,5.8折,不含税价720,请问您要预订此航班机票吗?
U:有点贵啊,不订机票了,看看火车票吧
R:2017年4月10日从哈尔滨到北京,上午的火车车次信息如下(与用户意图最相关的5条火车车次信息),请问您要预定哪一个车次?几等座?
U:D26,二等座吧
R:即将帮您预定2017年4月10日从哈尔滨到北京,D26次列车二等座。
U: 好的,再帮我找找北京五道口附近的快捷酒店吧
R:请问您哪天入住?住几晚?
U:明天入住,一晚。
R:请问您对房间价格有要求吗?
U:别超过400元一晚
R:以下是2017年4月10日入住,五道口附近的快捷酒店信息(与用户意图最相关的5个快捷酒店信息),请问您想预定哪一个?
U:第一个吧
R:即将预定2017年4月10日入住一晚,五道口附近,汉庭酒店(清华东门店)标准间一间,每晚377元,请问您确认要预定吗?
U:确认
R:已经帮您预订该酒店,将跳转至付款页面
【评测说明】
本次评测任务2的特定领域包括:机票类、火车票类和酒店类3个垂直领域,系统通过与测试人员实时在线对话完成相应的预定或查询任务,满足测试人员的需求。
【评测方式】
任务2采用人工评价的方式,对于每个参赛系统,主办方提供给测试人员完整的用户意图描述,对于任意相同的用户意图描述,对不同的参赛系统均给定相同的首轮对话输入,启动在线评测,评测过程中评测员根据给定的完整意图描述与参赛系统进行交互,直至对话结束。对话结束的条件为系统返回所有任务(单任务或多任务)的执行结果(出于对模拟终端设备显示区域大小限制的考虑,单任务的多条结果只显示相关性最高的前5条),或超过50个对话轮数之后仍未返回测试员所需的结果,测试员手动结束对话测试。
【数据】
1) 完整的用户意图描述示例
2) Json格式的静态航班、酒店、火车票数据资源
【评价指标】
1) 任务完成率
2) 用户满意度
3) 回复语言的自然度
4) 对话轮数
5) 静态的数据库资源未覆盖情况的引导能力
举例来说,如果当前只支持查询十日航班,那么当查到十日之外信息时,是否能友好引导。
【注】:除“对话轮数”之外,以上指标均由人工给出评分。
奖项设置
本次评测对于上述两个任务包含的3个Track分别比赛及排名,并根据每个Track的最终评测结果分别取前三名进行奖励,奖金总额5万元人民币
任务1(封闭式评测): 第一名4000元,第二名2000元,第三名1000元。
任务1(开放式评测): 第一名6000元,第二名4000元,第三名3000元。
任务2:第一名15000元;第二名10000元;第三名5000元。
【注】由SMP2017主办方中国中文信息学会(CIPS)为参评队伍提供成绩证书认证。
重要时间点
以下所有时间点为北京时间(GMT+8)11:59 PM。
(除报名时间以外,其他时间点可能会有变动,请注册参加者密切关注本网站以及邮件通知。)
事件 | 时间 |
预报名 | 2017年4月24日 — 5月5日 |
正式报名 | 2017年5月6日 — 5月16日 |
发布训练及开发集 | 2017年5月17日 |
系统搭建及调整 | 2017年5月18日 — 8月8日 |
任务1系统提交及测试 | 2017年8月9日 |
任务2在线测试及结果评价 | 2017年8月10日 — 8月12日 |
系统介绍性文章撰写 | 2017年8月13日 — 8月27日 |
在SMP2017大会期间召开ECDT研讨会 | 2017年9月15日 |
【说明】
1、预报名:参赛队伍填写报名表,填报初步的参赛意向。
2、正式报名:正式注册参加本次评测。
3、发布训练集和开发集:向参赛者发布本次评测的训练集、开发集用于训练和调整系统。
4、系统搭建及调整:参赛者利用训练集、开发集搭建系统并调整。
5、任务1系统提交及测试:参赛者提交最终系统,组委会在封闭测试集上验证结果。
6、任务2在线测试及结果评价:参赛系统以Web Service的形式提供系统调用,测试人员在线进行特定域任务型人机对话测试,并在测试后进行结果评价。
7、撰写系统描述文章:参赛者需要对参赛系统进行描述,提交评测汇报PPT的初稿(在此时间点之后仍可以继续修改);
8、召开ECDT研讨会:与SMP2017同步举办本次ECDT评测总结会,公布最终的排名,各个参赛者汇报评测时应用的系统和技术,以及最终的颁奖表彰环节。
注册报名
有意向参加的单位机构请直接填写报名表后发给评测会务组。
报名表格请发送至邮箱:smp2017ecdt@126.com
报名表格下载:
评测委员会
主席:
张伟男(哈尔滨工业大学)
委员:
陈志刚(科大讯飞股份有限公司)、车万翔(哈尔滨工业大学)、芮祥麟(华为公司)
联系方式
如果有任何与本次评测相关的问题,请随时联系会务组。
评测会务组邮箱:smp2017ecdt@126.com
致谢
主办方:中国中文信息学会社会媒体处理专业委员会(CIPS-SMP)
承办方:哈尔滨工业大学社会计算与信息检索研究中心(哈工大SCIR)、科大讯飞股份有限公司(iFLYTEK)
赞助方:华为公司