哈工大社会计算与信息检索研究中心
友爱  力行  乐学  日新

HIT-SCIR

信息检索研究室免费共享中文依存句法分析器

信息检索研究室免费共享中文依存句法分析器

2014年04月18日

继汉语分词系统之后,信息检索研究室又推出汉语依存句法分析系统,向学术界共享,以进一步加强与同仁的交流,共同促进中文信息处理技术的发展。

该依存分析系统使用的训练数据是本实验室标注的汉语依存树库(该树库已经共享),在平均句长为20词的测试集中,该系统的准确率为70%左右。本依存体系共包括24个依存关系类型,准确率是指结点及关系类型均分析正确的依存弧总数,占测试集中全部依存弧数量的比例。

目前,对该系统的改进工作正在进行。希望借此机会,和大家共同能够探讨中文句法分析的理论和方法。另外,对该系统的不足之处,诚恳地希望得到您的指点和建议。

本次共享共包括以下五部分: (1)依存句法分析的源代码――可根据您的需要进行修改; (2)依存句法分析的dll文件――可在您的程序中调用; (3)依存句法分析的控制台程序――可用命令行的方式为您处理文本文件; (4)分词词性标注的dll文件――为依存句法分析提供前端处理; (5)依存树的查看工具――帮助您查看分析结果。

如果您对该共享模块感兴趣,可参考主页上的“哈工大信息检索研究室依存句法分析源代码免费共享步骤”,按其中的说明程序进行申请。


Copyright © Research Center for Social Computing and Information Retrieval 2001 - 2015
P.O.Box 321, HIT, P.R.China 150001
webmaster at ir dot hit dot edu dot cn