哈工大SCIR在CoNLL-2017多语言通用依存句法分析评测中取得佳绩
2017年06月05日在刚刚结束的CoNLL-2017 评测(http://universaldependencies.org/conll17/)中,哈工大社会计算与信息检索研究中心取得了第四名的优异成绩。CoNLL 系列评测(http://www.conll.org/)每年由 ACL 的计算自然语言学习会议(Conference on Computational Natural Language Learning,CoNLL) 主办,是自然语言处理领域影响力最大的技术评测,有力推动了自然语言处理各项任务的发展。
今年的 CoNLL 评测任务为:Multilingual Parsing from Raw Text to Universal Dependencies,即面向生文本的多语言通用依存分析。从生文本出发,需要进行分句、分词、形态学分析、词性标注、依存句法分析等。任务提供了45种语言的64个多领域通用依存树库作为训练资源,最终面向49 种语言的81个树库进行评测,其中包含4种训练数据中未出现的资源稀缺语言以及多种跨领域数据。最终评价指标为在全部树库上依存分析任务的平均 LAS(依存标签准确率)。
本次评测共吸引了来自卡内基梅隆大学、华盛顿大学、多伦多大学、牛津大学、爱丁堡大学、东京大学、 IBM研究院、Facebook等113支队伍报名参赛,最终有33支队伍成功提交了评测系统,美国斯坦福大学、美国康奈尔大学和德国斯图加特大学获得评测总成绩的前三名,哈工大获得了第四名,也是亚洲参赛队伍的最好成绩。
最终提交系统的33支队伍排名的排名如下:
队伍/单位名称(城市) | 平均LAS |
1. Stanford (Stanford) | 76.30 |
2. C2L2 (Ithaca) | 75.00 |
3. IMS (Stuttgart) | 74.42 |
4. HIT-SCIR (Harbin) | 72.11 |
5. LATTICE (Paris) | 70.93 |
6. NAIST SATO (Nara) | 70.14 |
7. Koç University (İstanbul) | 69.76 |
8. ÚFAL – UDPipe 1.2 (Praha) | 69.52 |
9. UParse (Edinburgh) | 68.87 |
10. Orange – Deskiñ (Lannion) | 68.61 |
11. TurkuNLP (Turku) | 68.59 |
12. darc (Tübingen) | 68.41 |
13. BASELINE UDPipe 1.1 (Praha) | 68.35 |
14. MQuni (Sydney) | 68.05 |
15. fbaml (Palo Alto) | 67.87 |
16. LyS-FASTPARSE (A Coruña) | 67.81 |
17. LIMSI-LIPN (Paris) | 67.72 |
18. RACAI (București) | 67.71 |
19. IIT Kharagpur (Kharagpur) | 67.61 |
20. naistCL (Nara) | 67.59 |
21. Wanghao-ftd-SJTU (Shanghai) | 66.53 |
22. UALING (Tucson) | 65.24 |
23. Uppsala (Uppsala) | 65.11 |
24. METU (Ankara) | 61.98 |
25. CLCL (Genève) | 61.82 |
26. Mengest (Shanghai) | 61.33 |
27. ParisNLP (Paris) | 60.02 |
28. OpenU NLP Lab (Ra’anana) | 56.56 |
29. TRL (Tokyo) | 43.07 |
30. MetaRomance (Santiago de Compostela) | 34.05 |
31. UT (Tartu) | 21.1 |
32. ECNU (Shanghai) | 3.18 |
33. Wenba-NLU (Wuhan) | 0.58 |