哈工大社会计算与信息检索研究中心
友爱  力行  乐学  日新

HIT-SCIR

哈工大信息检索研究室向学术界免费共享“语言技术平台LTP”

哈工大信息检索研究室向学术界免费共享“语言技术平台LTP”

2014年04月18日
    • 总体介绍

语言技术平台(LTP)是一个语言处理系统框架。它定义了基于XML的文本表示,提供了一整套自底向上的语言处理模块,提供了处理结果的可视化工具,并且共享了依存树库、同义词词林扩展版等语料资源。LTP集成了包括词法、词义、句法、语义等6项中文处理核心技术。LTP在线演示参见

LTP的目标并不只是技术的集成,它更远的目标在于探索各个模块之间的联系,从而间接地探讨人类进行语言认知和理解时的思维机制。我们深信人类理解语言是一种分层互动的机制,但是这种机制到底是怎样运行的,则不得而知。对这种机理的好奇,也是我们研制LTP平台的一个重要原因。

希望LTP能够给业内同行,特别是刚刚进入这个领域的同仁们带来方便,使他们能够跨越语言处理的基本门槛,在LTP的基础上直接针对高层的课题进行研究,也衷心地希望业内的高手们能够对LTP给予指点。

    • 对外共享

从2006年9月5日开始该平台对外免费共享。截止2010年9月28日,已经有国内外370余家单位共享了LTP。很多共享单位在LTP基础上进行科学研究。也有国内外多家商业公司购买了LTP,用于实际的商业项目中。 关于LTP的详细内容以及共享方面的细节,请访问:http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm

    • 系统升级

2006年五一前夕,哈工大信息检索实验室在网上发布了其历时5年开发出来的“语言技术平台LTP1.0版”。经过三年的锤炼,LTP目前已更新至2.0版本,较1.0版本主要有如下改进:

 

      1. 增加了基于CRF的分词方法
      2. 增加了基于SVMTool的词性标注器
      3. 使用最大熵与规则相结合的命名实体识别方法
      4. 增加了基于图的依存分析器,依存分析性能得到大的提升
      5. 改进了可视化工具
      6. 删除了文本分类、单文档文摘、指代消解等篇章级处理模块,专注于句子级处理
      7. 增加了python接口
      8. 很多LTP热心用户还在LTP论坛上给出了Java封装接口
      9. 增加了VS2003,VS2005,VS2008 DLL支持 LTP论坛地址

 

    • 下一步工作

 

      1. 提供Linux版本
      2. 提供Web Service。随着各个模块占用系统资源不断增大,提供Web Service对于LTP用户而言将会很有用。用户不需要在本地加载大量的模型文件或者进行复杂的运算,只需要通过网络调用获取结果。这样也有跨平台,跨开发语言的好处
      3. 共享部分源代码(模块调用、XML操作等)
      4. 开发更加稳定、效率更高的商业版本

 

    • LTP参与人员

 

    • 总体设计:刘挺
    • 具体指导:车万翔
    • 具体设计、实现、维护:
      • 郎君 2005.3-2005.5
      • 张会鹏 2005.5-2005.12
      • 郎君 2005.12-2007.11
      • 李正华 2007.11- lzh@ir.hit.edu.cn
    • 各语言处理模块开发:
      • 断句模块:陈儒,高立琦
      • 分词和词性标注:张会鹏、高立琦、王丽杰
      • 命名实体识别:廖先桃、付瑞吉
      • 词义消歧:卢志茂、杨宇娜、郭宇航
      • 句法分析:马金山、李正华
      • 语义分析:车万翔、刘怀军、胡禹轩、李永强

Copyright © Research Center for Social Computing and Information Retrieval 2001 - 2015
P.O.Box 321, HIT, P.R.China 150001
webmaster at ir dot hit dot edu dot cn