哈工大社会计算与信息检索研究中心
友爱  力行  乐学  日新

HIT-SCIR

最新!哈工大SCIR在国际多语言通用依存分析评测中夺得冠军

最新!哈工大SCIR在国际多语言通用依存分析评测中夺得冠军

2018年07月04日

在刚刚结束的CoNLL-2018国际评测(http://universaldependencies.org/conll18/)中,哈工大社会计算与信息检索研究中心(HIT-SCIR)取得了第一名的好成绩。CoNLL 系列评测每年由 ACL 的计算自然语言学习会议(Conference on Computational Natural Language Learning,CoNLL) 主办,是自然语言处理领域影响力最大的国际技术评测,有力推动了自然语言处理各项任务的发展。

与去年的评测任务相同,今年的 CoNLL 任务仍为:Multilingual Parsing from Raw Text to Universal Dependencies,即面向生文本的多语言通用依存分析。从生文本出发,需要进行分句、分词、形态学分析、词性标注、依存句法分析等。今年评测任务面向57种语言的82个测试集。最终评价指标为在全部评测集上依存分析任务的平均 LAS(依存弧及标签准确率),除此之外还评测了 MLAS(形态学标记正确前提下的LAS) 和 BLEX (内容词词形还原正确前提下的LAS)两项指标。

最终有包括斯坦福大学、IBM公司在内的27支队伍成功提交了评测系统,我们的系统在最关键的评测指标,即 LAS 上获得了1,高出第二名2.56%。

在去年的评测中,共有45种语言64个数据集,斯坦福大学获得第一名,我们的系统获得了第四名。今年,我们采用了基于图的依存分析算法,并使用大规模未标注数据预训练了上下文相关的词向量模型,大幅提高了系统的准确率。我们的这些技术进步将融入语言技术平台(LTP)中,进一步提高LTP的性能。

项目组成员:车万翔教授,博士生:刘一佳、王宇轩、郑博

最终的LAS排名如下(http://universaldependencies.org/conll18/results.html):

 

队名 城市  LAS

1

HIT-SCIR Harbin 75.84

2

TurkuNLP Turku 73.28

3

UDPipe Future Praha 73.11

4

LATTICE Paris 73.02

5

ICS PAS Warszawa 73.02

6

CEA LIST Paris 72.56

7

Uppsala Uppsala 72.37

8

Stanford Stanford 72.29

9

AntNLP Shanghai 70.9

10

NLP-Cube București 70.82

11

ParisNLP Paris 70.64

12

SLT-Interactions Bengaluru 69.98

13

IBM NY Yorktown Heights 69.11

14

UniMelb Melbourne 68.66

15

LeisureX Shanghai 68.31

16

KParse İstanbul 66.58

17

Fudan Shanghai 66.34

18

BASELINE UDPipe 1.2 Praha 65.8

19

Phoenix Shanghai 65.61

20

CUNI x-ling Praha 64.87

21

BOUN İstanbul 63.54

22

SagTeam Moskva 62.9

23

ONLP lab Ra’anana 58.35

24

iParse Pittsburgh 55.83

25

HUJI Yerushalayim 53.69

26

ArmParser Yerevan 47.02

27

SParse İstanbul 1.95

Copyright © Research Center for Social Computing and Information Retrieval 2001 - 2015
P.O.Box 321, HIT, P.R.China 150001
webmaster at ir dot hit dot edu dot cn