最新!哈工大SCIR在国际多语言通用依存分析评测中夺得冠军
2018年07月04日在刚刚结束的CoNLL-2018国际评测(http://universaldependencies.org/conll18/)中,哈工大社会计算与信息检索研究中心(HIT-SCIR)取得了第一名的好成绩。CoNLL 系列评测每年由 ACL 的计算自然语言学习会议(Conference on Computational Natural Language Learning,CoNLL) 主办,是自然语言处理领域影响力最大的国际技术评测,有力推动了自然语言处理各项任务的发展。
与去年的评测任务相同,今年的 CoNLL 任务仍为:Multilingual Parsing from Raw Text to Universal Dependencies,即面向生文本的多语言通用依存分析。从生文本出发,需要进行分句、分词、形态学分析、词性标注、依存句法分析等。今年评测任务面向57种语言的82个测试集。最终评价指标为在全部评测集上依存分析任务的平均 LAS(依存弧及标签准确率),除此之外还评测了 MLAS(形态学标记正确前提下的LAS) 和 BLEX (内容词词形还原正确前提下的LAS)两项指标。
最终有包括斯坦福大学、IBM公司在内的27支队伍成功提交了评测系统,我们的系统在最关键的评测指标,即 LAS 上获得了第1名,高出第二名2.56%。
在去年的评测中,共有45种语言64个数据集,斯坦福大学获得第一名,我们的系统获得了第四名。今年,我们采用了基于图的依存分析算法,并使用大规模未标注数据预训练了上下文相关的词向量模型,大幅提高了系统的准确率。我们的这些技术进步将融入语言技术平台(LTP)中,进一步提高LTP的性能。
项目组成员:车万翔教授,博士生:刘一佳、王宇轩、郑博
最终的LAS排名如下(http://universaldependencies.org/conll18/results.html):
|
队名 | 城市 | LAS |
1 |
HIT-SCIR | Harbin | 75.84 |
2 |
TurkuNLP | Turku | 73.28 |
3 |
UDPipe Future | Praha | 73.11 |
4 |
LATTICE | Paris | 73.02 |
5 |
ICS PAS | Warszawa | 73.02 |
6 |
CEA LIST | Paris | 72.56 |
7 |
Uppsala | Uppsala | 72.37 |
8 |
Stanford | Stanford | 72.29 |
9 |
AntNLP | Shanghai | 70.9 |
10 |
NLP-Cube | București | 70.82 |
11 |
ParisNLP | Paris | 70.64 |
12 |
SLT-Interactions | Bengaluru | 69.98 |
13 |
IBM NY | Yorktown Heights | 69.11 |
14 |
UniMelb | Melbourne | 68.66 |
15 |
LeisureX | Shanghai | 68.31 |
16 |
KParse | İstanbul | 66.58 |
17 |
Fudan | Shanghai | 66.34 |
18 |
BASELINE UDPipe 1.2 | Praha | 65.8 |
19 |
Phoenix | Shanghai | 65.61 |
20 |
CUNI x-ling | Praha | 64.87 |
21 |
BOUN | İstanbul | 63.54 |
22 |
SagTeam | Moskva | 62.9 |
23 |
ONLP lab | Ra’anana | 58.35 |
24 |
iParse | Pittsburgh | 55.83 |
25 |
HUJI | Yerushalayim | 53.69 |
26 |
ArmParser | Yerevan | 47.02 |
27 |
SParse | İstanbul | 1.95 |