哈尔滨工业大学社会计算与信息检索研究中心 – 理解语言，认知社会 » 最新！哈工大SCIR在国际多语言通用依存分析评测中夺得冠军

最新！哈工大SCIR在国际多语言通用依存分析评测中夺得冠军

2018年07月04日

在刚刚结束的CoNLL-2018国际评测（http://universaldependencies.org/conll18/）中，哈工大社会计算与信息检索研究中心（HIT-SCIR）取得了第一名的好成绩。CoNLL 系列评测每年由 ACL 的计算自然语言学习会议（Conference on Computational Natural Language Learning，CoNLL）主办，是自然语言处理领域影响力最大的国际技术评测，有力推动了自然语言处理各项任务的发展。

与去年的评测任务相同，今年的 CoNLL 任务仍为：Multilingual Parsing from Raw Text to Universal Dependencies，即面向生文本的多语言通用依存分析。从生文本出发，需要进行分句、分词、形态学分析、词性标注、依存句法分析等。今年评测任务面向57种语言的82个测试集。最终评价指标为在全部评测集上依存分析任务的平均 LAS（依存弧及标签准确率），除此之外还评测了 MLAS（形态学标记正确前提下的LAS）和 BLEX （内容词词形还原正确前提下的LAS）两项指标。

最终有包括斯坦福大学、IBM公司在内的27支队伍成功提交了评测系统，我们的系统在最关键的评测指标，即 LAS 上获得了第1名，高出第二名2.56%。

在去年的评测中，共有45种语言64个数据集，斯坦福大学获得第一名，我们的系统获得了第四名。今年，我们采用了基于图的依存分析算法，并使用大规模未标注数据预训练了上下文相关的词向量模型，大幅提高了系统的准确率。我们的这些技术进步将融入语言技术平台（LTP）中，进一步提高LTP的性能。

项目组成员：车万翔教授，博士生：刘一佳、王宇轩、郑博

最终的LAS排名如下（http://universaldependencies.org/conll18/results.html）：

	队名	城市	LAS
1	HIT-SCIR	Harbin	75.84
2	TurkuNLP	Turku	73.28
3	UDPipe Future	Praha	73.11
4	LATTICE	Paris	73.02
5	ICS PAS	Warszawa	73.02
6	CEA LIST	Paris	72.56
7	Uppsala	Uppsala	72.37
8	Stanford	Stanford	72.29
9	AntNLP	Shanghai	70.9
10	NLP-Cube	București	70.82
11	ParisNLP	Paris	70.64
12	SLT-Interactions	Bengaluru	69.98
13	IBM NY	Yorktown Heights	69.11
14	UniMelb	Melbourne	68.66
15	LeisureX	Shanghai	68.31
16	KParse	İstanbul	66.58
17	Fudan	Shanghai	66.34
18	BASELINE UDPipe 1.2	Praha	65.8
19	Phoenix	Shanghai	65.61
20	CUNI x-ling	Praha	64.87
21	BOUN	İstanbul	63.54
22	SagTeam	Moskva	62.9
23	ONLP lab	Ra’anana	58.35
24	iParse	Pittsburgh	55.83
25	HUJI	Yerushalayim	53.69
26	ArmParser	Yerevan	47.02
27	SParse	İstanbul	1.95