哈工大社会计算与信息检索研究中心
友爱  力行  乐学  日新

HIT-SCIR

信息检索研究室词法分析系统源代码向研究机构免费共享

信息检索研究室词法分析系统源代码向研究机构免费共享

2014年04月18日
信息检索研究室词法分析系统(Information Retrieval Laboratory Lexical Analysis System,IRLAS)是集中文分词、未登录词识别、词性标注于一体的系统。此系统参加了于2005年举行的第二届国际 SIGHAN分词评测中北大语料的开放和封闭测试。在北大语料封闭测试中,共 16家机构,23个结果,我们提交的两个结果排名第3、第4,和第一名的F值差距为千分之一。在北大语料开放测试中,14家机构,17个结果,我们提交的两个结果排名第4、第6,和第一名的F值差距为千分之四。

 信息检索研究室词法分析系统具有如下特点: 
 1.支持多线程,保证资源只会加载一次 
 2.在Windows和Linux下都可以运行 
 3.良好的可配置性,使您可以最大限度的进行DIY,以满足不同的需求 
 4.支持大文本输入,无论您一次输入多长的文本它都能处理,不过我不推荐您这样做,因为文本长的话未登录词识别效果稍有下降 
 5.支持扩展词表,您可以手工加入任意新词或专有词汇
 6.灵活的资源加载和释放,一切尽在您掌握之中,不必强行占领您宝贵的memory 
 7.较快的速度,完全配置的版本速度可达到100K字节/秒(3G CPU,1G memory)

 欢迎大家到<a href="http://ir.hit.edu.cn/cgi-bin/IRLAS/IRLAS.cgi">词法分析在线演示</a>进行测试。 

 目前,此系统已经共享源代码,向研究机构免费提供,具体步骤请参见<a href="http://ir.hit.edu.cn/phpwebsite/index.php?module=pagemaster&PAGE_user_op=view_page&PAGE_id=138">哈工大信息检索研究室词法分析源代码共享步骤</a>。 如果在使用中发现任何问题,欢迎到<a href="http://ir.hit.edu.cn/cgi-bin/newbbs/forums.cgi?forum=3">IR论坛词法版</a>讨论,或直接email至 zhp@ir.hit.edu.cn。 

Copyright © Research Center for Social Computing and Information Retrieval 2001 - 2015
P.O.Box 321, HIT, P.R.China 150001
webmaster at ir dot hit dot edu dot cn