最新!哈工大SCIR在国际多语言通用依存分析评测中夺得冠军

发布时间:2018年07月04日 00:00:00 阅读次数:0

在刚刚结束的CoNLL-2018国际评测(http://universaldependencies.org/conll18/)中,哈工大社会计算与信息检索研究中心(HIT-SCIR)取得了第一名的好成绩。CoNLL 系列评测每年由 ACL 的计算自然语言学习会议(Conference on Computational Natural Language Learning,CoNLL) 主办,是自然语言处理领域影响力最大的国际技术评测,有力推动了自然语言处理各项任务的发展。

与去年的评测任务相同,今年的 CoNLL 任务仍为:Multilingual Parsing from Raw Text to Universal Dependencies,即面向生文本的多语言通用依存分析。从生文本出发,需要进行分句、分词、形态学分析、词性标注、依存句法分析等。今年评测任务面向57种语言的82个测试集。最终评价指标为在全部评测集上依存分析任务的平均 LAS(依存弧及标签准确率),除此之外还评测了 MLAS(形态学标记正确前提下的LAS) 和 BLEX (内容词词形还原正确前提下的LAS)两项指标。

最终有包括斯坦福大学、IBM公司在内的27支队伍成功提交了评测系统,我们的系统在最关键的评测指标,即 LAS 上获得了1,高出第二名2.56%。

在去年的评测中,共有45种语言64个数据集,斯坦福大学获得第一名,我们的系统获得了第四名。今年,我们采用了基于图的依存分析算法,并使用大规模未标注数据预训练了上下文相关的词向量模型,大幅提高了系统的准确率。我们的这些技术进步将融入语言技术平台(LTP)中,进一步提高LTP的性能。

项目组成员:车万翔教授,博士生:刘一佳、王宇轩、郑博

最终的LAS排名如下(http://universaldependencies.org/conll18/results.html):

 

队名城市 LAS

1

HIT-SCIRHarbin75.84

2

TurkuNLPTurku73.28

3

UDPipe FuturePraha73.11

4

LATTICEParis73.02

5

ICS PASWarszawa73.02

6

CEA LISTParis72.56

7

UppsalaUppsala72.37

8

StanfordStanford72.29

9

AntNLPShanghai70.9

10

NLP-CubeBucurești70.82

11

ParisNLPParis70.64

12

SLT-InteractionsBengaluru69.98

13

IBM NYYorktown Heights69.11

14

UniMelbMelbourne68.66

15

LeisureXShanghai68.31

16

KParseİstanbul66.58

17

FudanShanghai66.34

18

BASELINE UDPipe 1.2Praha65.8

19

PhoenixShanghai65.61

20

CUNI x-lingPraha64.87

21

BOUNİstanbul63.54

22

SagTeamMoskva62.9

23

ONLP labRa’anana58.35

24

iParsePittsburgh55.83

25

HUJIYerushalayim53.69

26

ArmParserYerevan47.02

27

SParseİstanbul1.95