信息检索研究室发布“语言技术平台”
2014年04月18日历时一年的信息检索研究室“语言技术平台”(LTP, Language Technology Platform)在2006年4月28日完成第一版。
整个平台基于XML的统一数据表示,采用模块级连的方式将实验室五年以来积累的各种自然语言处理技术连为一体。现在连入平台的模块有断句、词法分析(分词和词性标注)、命名实体(Name Entity)识别、词义消歧(Word Sense Disambiguation)、依存句法分析(Dependency Parser)、浅层语义标注(Semantic Role Labelling)、指代消解(Ananphora resolution)、单文档自动文摘(Single Document Summarization)、文本分类(Document Classification)。
整个平台主要成果包括如下内容:
- 推动实验室各个自然语言处理模块的研发,现在各个层面的模块均可单独抽取出来联入新的应用;
- 基于XML数据表示方式和操作函数库,将各个层面的自然语言处理模块连为一体;
- 采用网页显示任意文档的各个层面的自然语言处理结果,是自然语言处理变得更加可视化,为深入理解各个处理阶段存在的问题以及各个处理模块之间的关系提供了方便的手段。
- 制定了一套采用XML的统一的自然语言处理结果表示方法,构建“语言技术描述语言”(LTML,Language Technology Markup Language);
- 按照LTML,实验室已有资源的XML化。
语言技术平台的地址:http://ir.hit.edu.cn/demo/ltp/