哈工大信息检索实验室获得一项国家863计划探索类专题项目资助
2014年04月18日日前,刘挺教授牵头申请的“基于XML的分层交互式中文处理开放平台(2006AA01Z145)”项目获863计划探索类专题项目的资助。在863的支持下,IR实验室将进一步大力开发LTP平台,向业界同行提供更好的技术服务。
[ 课题简介 ]
自然语言处理(NLP)从以句子为处理单元的词法、句法、语义分析到以篇章为单元的指代消解、文摘等,再到以篇章集合为单元的多文档文摘、文本检索等,构成了一个复杂的认知体系。高层模块(句法、语义分析等)建立在低层模块(分词、词性标注等)处理基础之上,同时低层模块的处理又必须依赖于高层模块才能够获得更理想的结果,如此构成循环依赖问题。以往人们主要研究单项技术,随着各项技术的提高,NLP系统趋于实用,需要构建一整套实用的语言技术平台,平台内各模块之间循环依赖成为了主要问题。
为解决循环依赖问题,申请人研究基于分层互动机制的系统结构,这种机制是对以往串联机制的扩展,包括一体化、反馈、重排序和分层搜索等机制。我们将就该机制涉及的数学模型,求解方法,各模块性能的提高等方面开展研究,并在若干各层面进行互动实验。该语言技术平台内部使用XML(我们已实现了一套语言技术置标语言LTML)对数据进行统一的表示,定义基于XML操作的函数库,实现可视化工具,标注基于XML的语料库资源,最终以基于网络服务的方式提供给人们使用。我们已于2006年9月5日开放了语言技术平台(LTP),其集成了10余个处理模块和6种语料库资源,至今已共享50余家国内外科研单位,收到大量反馈意见和建议;同时,我们较早开放的多种语料库,共享单位超过了100家。在各个模块的研发过程中,我们还积极参与国际国内举行的各项评测,特别是在863人机接口评测中,我们于2003年获得了自动文摘的第一名,2004年信息检索的第二名和2005年的多项指标第一名。这些都将成为构建最终平台的坚实基础。
我们期望通过分层互动机制,提高NLP系统的整体性能以及其中各个子模块的性能。同时提供一套完整的、性能较高的NLP工具,使NLP系统更好的支持上层应用。基于XML的自然语言数据表示方式,能够成为将来语义网的基础,并能够以网络服务的方式方便的将处理结果提供给用户,推动自然语言处理等相关产业发展,并期望形成自然语言数据表示的标准化,平台接口的标准化除使用方便外,还可以使研究者非常方便的贡献各自的处理模块,共同投身到该平台的建设中来,使得该平台成为一个真正“开放”的系统。基于XML的语料库使其他研究者可以方便使用我们共享的资源,并能够为语料库语言学研究提供良好素材。NLP结果的可视化工具可作为演示实例供相关领域的教学使用。总之,我们在不断提高NLP系统性能的同时,也可以为用户提供一套方便实用的NLP工具。