信息检索研究室免费共享中文依存句法分析器
2014年04月18日继汉语分词系统之后,信息检索研究室又推出汉语依存句法分析系统,向学术界共享,以进一步加强与同仁的交流,共同促进中文信息处理技术的发展。
该依存分析系统使用的训练数据是本实验室标注的汉语依存树库(该树库已经共享),在平均句长为20词的测试集中,该系统的准确率为70%左右。本依存体系共包括24个依存关系类型,准确率是指结点及关系类型均分析正确的依存弧总数,占测试集中全部依存弧数量的比例。
目前,对该系统的改进工作正在进行。希望借此机会,和大家共同能够探讨中文句法分析的理论和方法。另外,对该系统的不足之处,诚恳地希望得到您的指点和建议。
本次共享共包括以下五部分: (1)依存句法分析的源代码――可根据您的需要进行修改; (2)依存句法分析的dll文件――可在您的程序中调用; (3)依存句法分析的控制台程序――可用命令行的方式为您处理文本文件; (4)分词词性标注的dll文件――为依存句法分析提供前端处理; (5)依存树的查看工具――帮助您查看分析结果。
如果您对该共享模块感兴趣,可参考主页上的“哈工大信息检索研究室依存句法分析源代码免费共享步骤”,按其中的说明程序进行申请。