哈工大社会计算与信息检索研究中心
友爱  力行  乐学  日新

HIT-SCIR

CCL2020中文语义依存图分析任务评测

CCL2020中文语义依存图分析任务评测

一、任务简述

语义依存分析是依存句法和语义的有机结合,其建立在依存理论基础上,是对语义的一种深层分析。语义依存用“图”而非“树”来表示,允许一个节点拥有多个父节点,且弧之间可以交叉。

该任务可分解为两个部分,首先是根据依存语法建立依存结构,即找出句子中的所有修饰词与核心词对,然后再对所有的修饰词与核心词对指定语义关系。

这样我们就能够解析出句子中词语间的语义关系,进而回答“Who did what to whom when where and how”等问题。和传统的句法依存分析任务相比,语义依存分析得出的结果能够为自然语言处理的其他下游任务提供更为直接和丰富的语义信息。

评测语料由北京语言大学信息科学学院和哈尔滨工业大学社会计算与信息检索中心联合推出,根据语义依存图结构语义标注方案中粗粒度标准标注的语料共35430条,其中涉及新闻、中小学语文课本、散文、剧本四个领域。

sdp例子

在 2012 年和 2016年本任务申请单位(哈工大社会计算与信息检索研究中心北京语言大学信息科学学院)已经针对中文语义依存分析展开了两次国际公开评测(SemEval-2012, SemEval-2016)推动了中文语义分析科研领域的发展。而今,预训练模型已经将自然语言处理的各项任务推向一个新的高度,我们再次组织中文语义依存图分析评测,希望各科研单位、企业研究部门聚焦中文语义依存分析任务,是非常有必要且有价值的。

二、评测数据

我们将提供由北京语言大学根据语义依存图结构语义标注方案中粗粒度标准标注得来的语料共35430条,其中涉及新闻、中小学语文课本、散文、剧本四个领域,并按照一定比例切分为训练集、验证集、测试集。训练集、验证集对参赛者可见,测试集对参赛者不可见。

具体语料数目如下表所示:

新闻 课本 散文 剧本 总计
训练集 8301 10754 4000 4000 27055
验证集 534 1535 250 250 2569
测试集 1233 3073 750 750 5806
总计 10068 15362 5000 5000 35430

标注格式:Conll-U;具体标签说明见附录。

这里特别说明,之前在 SemEval-2012、SemEval-2016 开源的语义依存图库是以语义依存图结构语义标注方案中细粒度标准标注的,不允许在本次评测中使用。

三、评价标准

我们将按照是否检查依存关系将指标分为两类:Unlabeled 和 Labeled。

Unlabeled指标下,对于每一个语义对,只要预测出它们是依存词和被依存词,不限它们的依存关系;而 Labeled 的指标更为严格,对于每一个语义对,不仅要预测出它们确实是依存词和被依存词,还要正确预测出它们的依存关系。我们在此基础上定义以下六个指标:

 

名称 具体指标 计算方式
UP 准确率 #无标签正确依存关系/#预测依存关系
UR 召回率 #无标签正确依存关系/#答案依存关系
UF F1值 2*UP*UR/(UP+UR)
LP 准确率 #带标签正确依存关系/#预测依存关系
LR 召回率 #带标签正确依存关系/#答案依存关系
LF(关键指标) F1值 2*LP*LR/(LP+LR)

 

参赛者通过在评测平台上提交模型来参与测评,系统将评测上述六个指标,最终,我们将通过计算模型预测四个领域语料的算数平均 F1(LF)来进行排名。 

 

四、注册报名

 

有意向参加的单位机构、团体请直接填写在线报名表

报名存在任何问题,请联系评测会务组:sdp2020ccl@163.com

 

五、预计赛程

2020-05-25:公布训练样本和验证样本,开放评测注册;(下载评测样本数据)

2020-06-15:数据及评测平台上线;

2020-06-16:模型调优阶段提交开始;评测结果提交指南  评测结果提交表单  Leaderboard

2020-08-30:评测注册结束

2020-09-15:模型调优阶段提交截止;

2020-09-16:最终模型提交阶段开始;

2020-09-22:最终模型提交阶段截止;

2020-09-25:公布结果;

2020-09-26:邀请优秀测评单位撰写技术报告;

2020-10-12:技术报告收取截止;

2020-10-31:CCL2020 测评研讨会。

 

六、奖励设置

一等奖(1名)12000元

二等奖 (1名)6000元

三等奖(1名)2000元

 

七、评测委员会

主席:邵艳秋(北京语言大学)、车万翔(哈尔滨工业大学)

成员:季雨秋(哈尔滨工业大学)、刘殿卿(北京语言大学)

 

八、评测结果

第一名:小白菜不菜队 LF=79.39

第二名:圣罗兰队 LF=78.59

第三名:SSDP队 LF= 74.35

 

附录 粗粒度语义关系标签说明:

角色系统

标签表示

概念说明&举例

主体

角色

施事

AGT

指发出具体行为动作的主体或动作持续以及表现心理活动的有意识的主体,具有主观能动性。如:明天我将去看他。(看,我,施事AGT)

当事

EXP

指非行为动作的发出者,不具有主观能动性。包括无意识运动的主体、非可控运动的主体以及各种关系的主体。如:宝塔很高。(高,宝塔,当事EXP)

客体

角色

受事

PAT

指受主体的行为动作所改变的直接客体。一般与施事相对应,是受施事影响而导致位置、性质、结果等发生改变的对象,最明显的语义特征是具有被动性。如:从桌子上把书拿走。(拿走,书,受事PAT)

客事

CONT

指事件所涉及但是并未改变的客体以及动作行为产生的新事物或结果。如:我相信苏珊的话。(相信,话,客事CONT)

涉事

DATV

也称与事,是动作行为的非主动参与者,也可以说,涉事角色是语义事件的第三方参与者。从语义上说,是事件接受者、伴随者、来源者以及比较的基准等等;从句法上说,经常出现在双宾语句中的间接宾语位置。如:班长给他一套工具。(给,他,涉事DATV)

系事

LINK

是跟事件的参与者有关系的客体。一般由表示某种关联的动词连接主客体,表达主客体之间的某种具体的、或抽象的关系。如:弟弟是中学生。(是,中学生,系事LINK)

情境

角色

工具

TOOL

是事件中所使用的工具。典型的工具角色主要由介词“用”等引出,通常是由物体充当,但是一些有生命的、或者是抽象的事物也可以作为事件所凭借的工具。如:妈妈用砂锅熬稀饭。(熬,砂锅,工具TOOL)

材料

MATL

是事件中所使用的材料。如:学生们用纸折飞机。(折,纸,材料MATL)

方式

MANN

包括事件中出现的方式、方法以及事件所依照的根据、凭借。如:军士齐声高喊。(高喊,齐声,方式MANN)

范围

SCO

指事件中所关涉的方面、限定的界限、被审视的角度、发生作用的范围,通常都为抽象名词。一般由不同的介词引出,可以出现在“在……方面”、“在……角度上”、“在……中”等的结构中。如:数学方面他是专家。(是,方面,范围SCO)

缘由

REAS

包括引起事件发生或发展变化的原因以及事件所要达到的目的。如:他因为堵车迟到了。(迟到,堵车,缘由REAS)

时间

TIME

指事件发生所涉及到的各种时间因素。如:周一早上升旗。(升旗,早上,时间TIME)

空间

LOC

指事件所涉及到的各种空间因素。如:我明天去哈尔滨。(去,哈尔滨,空间LOC)

度量

MEAS

指事件中的数量,名量或动量。如:一年有365天。(天,365,度量MEAS)

状态

STAT

表示事件发生时的情形、状态等。如:人类是从类人猿进化来的吗?。(进化,类人猿,状态STAT)

修饰FEAT

包括描写主体属性、特征的标签以及、时间修饰语和名词修饰语的标签。如:她是个漂亮的女孩。(女孩,漂亮,修饰FEAT)

反关系

反关系指,当述谓概念转位修饰指称概念时,其述谓性质消失,增添了修饰性质,与中心语的关系相当于句法上的定中关系。需要注意的是,虽反关系的句法结构有变化,但是待标成分所充当的语义角色却是一样的。举例来说:①选手受伤了。(受伤,选手,当事EXP)②受伤的选手。(选手,受伤,反当事rEXP)反关系标签统一表示为r+语义周边角色标签,如rEXP,rLOC等等,此处不一一列举。

嵌套

关系

一个事件作为一个整体概念被嵌套进另一个主体事件内,被嵌套的事件称为“降级”事件。有两种情况:1. 被嵌套的事件相当于一个论元。爷爷看见小孙女在操作计算机。(看见,操作,嵌套客事dCONT)2. 被嵌套的事件相当于一个修饰成分。爷爷拍摄了小孙女在操作计算机的照片。(照片,操作,嵌套客事dCONT)嵌套关系标签统一表示为d+语义周边角色标签,如dCONT,dPAT等等,此处不一一列举。

事件

关系

并列关系eCOO 指两个或多个平行的语义事件,重在叙述和描写。如:兄弟俩边走边说。(走,说,并列eCOO)
先行关系ePREC 指在时间、空间上发生有序的事件或在逻辑、语义上关联性较强的先行发生的事件。如:要想成功,就要努力。(成功,努力,先行ePREC)
后继关系eSUCC 主要描述语义上更进一步的结果类事件,包括时间、空间或逻辑、语义上后续发生的事件。如:他穿好衣服,走出门去。(穿,走,后继eSUCC)

标点

标记

标点标记mPUNC 是对语义事件中的出现的标点符号的标注。如:他喜欢音乐。(喜欢,句号。,mPUNC)

依附

标记

否定标记mNEG 是对事件中否定关系的标记。如:她不像她母亲。(像,不,mNEG)
关系标记mRELA 是对句法事件中各种关系的标记,如一些连词、介词等。如:但是我没有放弃看书。(放弃,但是,mRELA)
依附标记mDEPD 是概念或事件的语义依附的形式标记,如一些助词。如:他在这里住了三十年。(住,了,mDEPD)

 


Copyright © Research Center for Social Computing and Information Retrieval 2001 - 2015
P.O.Box 321, HIT, P.R.China 150001
webmaster at ir dot hit dot edu dot cn