哈工大信息检索研究室向学术界免费共享“语言技术平台LTP”
2014年04月18日- 总体介绍
语言技术平台(LTP)是一个语言处理系统框架。它定义了基于XML的文本表示,提供了一整套自底向上的语言处理模块,提供了处理结果的可视化工具,并且共享了依存树库、同义词词林扩展版等语料资源。LTP集成了包括词法、词义、句法、语义等6项中文处理核心技术。LTP在线演示参见
LTP的目标并不只是技术的集成,它更远的目标在于探索各个模块之间的联系,从而间接地探讨人类进行语言认知和理解时的思维机制。我们深信人类理解语言是一种分层互动的机制,但是这种机制到底是怎样运行的,则不得而知。对这种机理的好奇,也是我们研制LTP平台的一个重要原因。
希望LTP能够给业内同行,特别是刚刚进入这个领域的同仁们带来方便,使他们能够跨越语言处理的基本门槛,在LTP的基础上直接针对高层的课题进行研究,也衷心地希望业内的高手们能够对LTP给予指点。
- 对外共享
从2006年9月5日开始该平台对外免费共享。截止2010年9月28日,已经有国内外370余家单位共享了LTP。很多共享单位在LTP基础上进行科学研究。也有国内外多家商业公司购买了LTP,用于实际的商业项目中。 关于LTP的详细内容以及共享方面的细节,请访问:http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
- 系统升级
2006年五一前夕,哈工大信息检索实验室在网上发布了其历时5年开发出来的“语言技术平台LTP1.0版”。经过三年的锤炼,LTP目前已更新至2.0版本,较1.0版本主要有如下改进:
- 增加了基于CRF的分词方法
- 增加了基于SVMTool的词性标注器
- 使用最大熵与规则相结合的命名实体识别方法
- 增加了基于图的依存分析器,依存分析性能得到大的提升
- 改进了可视化工具
- 删除了文本分类、单文档文摘、指代消解等篇章级处理模块,专注于句子级处理
- 增加了python接口
- 很多LTP热心用户还在LTP论坛上给出了Java封装接口
- 增加了VS2003,VS2005,VS2008 DLL支持 LTP论坛地址
- 下一步工作
- 提供Linux版本
- 提供Web Service。随着各个模块占用系统资源不断增大,提供Web Service对于LTP用户而言将会很有用。用户不需要在本地加载大量的模型文件或者进行复杂的运算,只需要通过网络调用获取结果。这样也有跨平台,跨开发语言的好处
- 共享部分源代码(模块调用、XML操作等)
- 开发更加稳定、效率更高的商业版本
- LTP参与人员
- 总体设计:刘挺
- 具体指导:车万翔
- 具体设计、实现、维护:
- 郎君 2005.3-2005.5
- 张会鹏 2005.5-2005.12
- 郎君 2005.12-2007.11
- 李正华 2007.11- lzh@ir.hit.edu.cn
- 各语言处理模块开发:
- 断句模块:陈儒,高立琦
- 分词和词性标注:张会鹏、高立琦、王丽杰
- 命名实体识别:廖先桃、付瑞吉
- 词义消歧:卢志茂、杨宇娜、郭宇航
- 句法分析:马金山、李正华
- 语义分析:车万翔、刘怀军、胡禹轩、李永强