信息检索研究室词法分析系统(Information Retrieval Laboratory Lexical Analysis System,IRLAS)是集中文分词、未登录词识别、词性标注于一体的系统。此系统参加了于2005年举行的第二届国际 SIGHAN分词评测中北大语料的开放和封闭测试。在北大语料封闭测试中,共 16家机构,23个结果,我们提交的两个结果排名第3、第4,和第一名的F值差距为千分之一。在北大语料开放测试中,14家机构,17个结果,我们提交的两个结果排名第4、第6,和第一名的F值差距为千分之四。
信息检索研究室词法分析系统具有如下特点:
1.支持多线程,保证资源只会加载一次
2.在Windows和Linux下都可以运行
3.良好的可配置性,使您可以最大限度的进行DIY,以满足不同的需求
4.支持大文本输入,无论您一次输入多长的文本它都能处理,不过我不推荐您这样做,因为文本长的话未登录词识别效果稍有下降
5.支持扩展词表,您可以手工加入任意新词或专有词汇
6.灵活的资源加载和释放,一切尽在您掌握之中,不必强行占领您宝贵的memory
7.较快的速度,完全配置的版本速度可达到100K字节/秒(3G CPU,1G memory)
欢迎大家到<a href="http://ir.hit.edu.cn/cgi-bin/IRLAS/IRLAS.cgi">词法分析在线演示</a>进行测试。
目前,此系统已经共享源代码,向研究机构免费提供,具体步骤请参见<a href="http://ir.hit.edu.cn/phpwebsite/index.php?module=pagemaster&PAGE_user_op=view_page&PAGE_id=138">哈工大信息检索研究室词法分析源代码共享步骤</a>。 如果在使用中发现任何问题,欢迎到<a href="http://ir.hit.edu.cn/cgi-bin/newbbs/forums.cgi?forum=3">IR论坛词法版</a>讨论,或直接email至 zhp@ir.hit.edu.cn。
|