哈工大信息检索研究中心(HIT CIR)语言技术平台共享资源和程序步骤
一、语言技术平台相关资源和程序库说明:
全部资源介绍如表1所示:
表1. 哈工大信息检索研究中心对外共享资源
Table 1. Sharing Resource of
HIT-CIR
共享内容 |
详细内容 |
语料资源 |
哈工大信息检索研究中心汉语依存树库 [HIT-CIR Chinese Dependency
Treebank] |
哈工大信息检索研究中心同义词词林扩展版 [HIT-CIR Tongyici Cilin
(Extended)] |
|
语言处理模块 |
断句[SplitSentence: Sentence
Splitting ] |
词法分析[IRLAS: Lexical Analysis
System] |
|
基于SVMTool的词性标注[PosTag:
Part-of-speech Tagging ] |
|
命名实体识别[NER: Named Entity
Recognition ] |
|
基于动态局部优化的依存句法分析[Parser: Dependency Parsing] |
|
基于图的依存句法分析[GParser: Graph-based DP] |
|
全文词义消歧[WSD: Word Sense
Disambiguation] |
|
浅层语义标注模块[SRL: hallow Semantics
Labeling] |
|
数据表示 |
语言技术置标语言[LTML: Language Technology
Markup Language] |
可视化工具 |
LTML可视化XSL |
二、语言技术平台资源和程序库共享步骤
特别说明:HIT-CIR语言技术平台共享资源的完整数据只免费提供给“高校和科研院所”用于科学研究,对于独立个人或者商业公司的申请恕不免费提供。
1、HIT-CIR将全部资源的10%样本以及相关的规范和说明文档放到主页上;
2、如果您对这些资源有兴趣,可以下载样本、规范和说明文档,决定是否需要该项资源100%的数据;
3、如果确认希望获得全部资源100%的数据,请详细填写《哈工大信息检索研究中心(HIT-CIR)共享资源和程序库协议》,并请您所在课题组的负责人直接将填好后的《协议》作为附件发邮件给车万翔老师(car@ir.hit.edu.cn),在协议中默认同意下述条款。
(1) 该资源或程序库不用于商业目的;
(2) 不将资源或程序库扩散给第三方;
(3) 在发表论文和申报成果时将声明“使用了哈工大信息检索研究中心语言技术平台中的的某资源或者某程序模块”,并且发信给car@ir.hit.edu.cn,说明发表论文题目,出处等情况。
4、经确认《协议》符合规格后,HIT-CIR共享资源联系人将在三个工作日以内把该项共享资源的全部数据通过Email寄给您,您可以免费用于研究;
5、在使用过程中,如果发现了问题,欢迎您直接到HIT-CIR BBS IR资源版去讨论,欢迎您批评指正,也欢迎您和我们一起丰富这些资源,加工这些资源;
6、这些资源和程序库一旦有新的版本出来,将免费给各位使用者升级。
三、语料资源和程序库下载说明
2、程序库需要签署协议才能共享,效果请参见语言技术平台的在线演示。
四、讨论区
2、邮件列表 ltp-users, http://ir.hit.edu.cn/mailman/listinfo/ltp
五、升级
1、
2、
3、
4、
5、
6、
在此版本中,添加了LTP程序包的使用文档,请看LTP使用文档v1.3。
7、
在此版本中,添加了LTP程序包的使用文档,请看LTP使用文档v1.4。
8、
9、
10、
11、
12、
在此版本中,添加了LTP程序包的使用文档,请看LTP使用文档v1.5。
13、2009年1月1日,发布HIT-CIR_LTP_Sharing_Package_Full_v2.0,升级说明。
在此版本中,添加了LTP程序包的使用文档,请看LTP使用文档v2.0。
14、2009年6月19日,发布升级包Update_v2.0.1_20090619.rar,升级说明。
15、2009年6月19日,发布HIT-CIR_LTP_Sharing_Package_Full_v2.0.1,升级说明。
在此版本中,添加了LTP程序包的使用文档,请看LTP使用文档v2.0.1。