模块名称：中文文本自动断句模块

哈工大信息检索研究室语言技术平台相关技术简介

平台总指导：刘挺教授

平台架构及程序实现负责人：郎君

下列模块按平台处理顺序列出

模块名称：中文文本自动断句模块

负责人姓名：高立琦

曾经开发人员：陈儒

模块简介：将中文文本按照有分割意义的标点符号(如句号)分开，以句子

的序列方式返回。

基本功能：输入为中文文本，输出为中文句子的序列。模块采用迭代子

(iterator)的方式，可以方便地配合STL等标准组件使用。

方法简介：首先实现一个分隔符(Separator)的实例，然后实现句子迭代子(sentence_iterator)的实例。例如:

Separator sep;

sentence_iterator si(&sr, sep), send;

while( si != send )

{

cout << *si << endl; //输出句子

si++;

}

模块名称：词法分析系统

模块开发者：张会鹏

模块负责人：廖先桃

曾经开发人员：高立琦、和为、王卓然

模块简介：词法分析系统IRLAS具有分词、时间数词识别、未登录词识别和词性标注等功能，支持多线程，具有良好的可配置性和健壮性。该系统参加了第二届SIGHAN分词评测，获北大语料封闭测试第3名（共16家机构23个结果，和第一名的F值相差0.1％）。获北大语料开放测试第4名（共14家机构17个结果，和第一名的F值相差0.4％）。系统实现方法是以Unigram和Bigram为基础，利用规则的方法识别时间和数词，以基于HMM的角色标注方法识别未登陆词，以HMM进行词性标注，最后寻优得到最佳的结果。系统利用人民日报6月份语料测试，准确率、召回率、F值分别达到97.2%、97.7%、97.4%。

模块名称：NE识别系统

模块负责人：廖先桃

曾经开发人员：于海滨

模块简介：命名实体识别系统可识别人名、地名、机构名、专有名词、时间、日期、数量短语等七类实体。该模块采用统计和规则相结合的方法实现。先利用基于HMM的方法对文本进行初始标注，然后再利用规则的方法对错标或漏标的结果进行修正，使规则和统计相结合，达到最佳的识别效果。我们抽取的规则包括NE的内部结构特征，上下文特征，用字特征等。利用人民日报语料测试，总的F值为86.93％。

模块名称：中文词义消歧模块

负责人姓名：杨宇娜

指导老师：卢志茂副教授

模块简介：词义消歧是一项词义理解技术，让机器代替人去分析、判断和识别特定语言环境中的词义信息，这就是此模块要完成的任务。

基本功能：词义消歧模块，输入是经过分词的句子，经过词义消歧系统，输出是所有的词汇都标注了词义的句子。模块可以进行全文的词义消歧。

方法简介：此模块采用了基于单纯贝叶斯概率模型的有指导词义消歧方法，封闭测试准确率93.388%，开放测试准确率可以达到89.667%。

模块名称：中文依存句法分析

负责人姓名：马金山

基本功能：由于句法分析识别出句子的语法结构，对语言的处理不再局限于表层的匹配，而是深入语言的内部结构。其分析结果为信息检索、机器翻译、信息抽取等应用领域提供有力的支持。

模块简介：依存句法分析系统用于对汉语进行句法分析，将句子由一个线性序列转化为一棵结构化的依存分析树，通过依存弧反映句子中词汇之间的依存关系，例如：“武汉取消了49个收费项目”，依存分析的结果如下：

方法简介：有效利用句法结构和词汇化是句法分析建模所面临的两个主要困难，本系统在这两方面做了有益的探索。首先，实验室标注了6万句的大规模依存树库，提供较为丰富的词汇信息来源。通过对大规模依存树库的统计学习，获取其中的词汇依存信息，建立了一个词汇化的概率分析模型。然后引入词汇支配度的概念，充分利用了句子中的结构信息。该词汇化方法有效地弥补了以前工作中词性信息的粒度过粗问题，同时词汇支配度增强了对句法结构的识别，有效地避免了非法结构的生成。

在分析算法上，我们使用一个确定性的搜索算法，在线性时间内对句子进行解码。使分析结果的准确率和运行的时空效率上都达到了较高的水平。

以下是该依存分析模块所使用的依存关系标记含义，为XML系统的介绍提供参考

依存关系标记（共24个）

定中关系ATT（attribute）

数量关系QUN（quantity）

并列关系COO（coordinate）

同位关系APP（appositive）

前附加关系LAD（left adjunct）

后附加关系RAD（right adjunct）

动宾关系VOB（verb-object）

介宾关系POB（preposition-object）

主谓关系SBV（subject-verb）

比拟关系SIM（similarity）

核心HED（head）

连动结构VV（verb-verb）

关联结构CNJ（conjunctive）

语态结构MT（mood-tense）

独立结构IS（independent structure）

状中结构ADV（adverbial）

动补结构CMP（complement）

“的”字结构DE

“地”字结构DI

“得”字结构DEI

“把”字结构BA

“被”字结构BEI

独立分句IC（independent clause）

依存分句DC（dependent clause）

模块名称：语义角色标注（SRL）

负责人姓名：刘怀军

指导老师：车万翔

模块简介：找到给定输入句子中所有动词的句法成分，并且用一定的语义角色参数来填充这些句法成分，最后输出能在一定程度上反映句子意义的某种表示形式

基本功能：对于给定的句子，标注所有动词的句法成分为对应的语义角色类型。目前模块只标注7类语义角色：施事，受事，数量词性质的施事和受事，附加成分时间、地点和方位

方法简介：基于依存句法分析和对应的一些规则。考虑语义角色和目标动词的依存关系，以及和动词的相对位置，对上述的7类语义角色分别制定对应的识别规则。

模块名称：单文档文摘模块

负责人姓名：龚诚

曾经开发人员：于海滨

模块简介：通过此模块可以得到一篇文本的文摘

基本功能：输入XML格式的文本，将单文档文摘加入XML格式的文本中

方法简介：基于句子权重的文摘生成方法。首先计算词的权重，然后根据句子中的词的权重和句子在文本中的位置信息产生句子权重，然后根据句子权重选择备选文摘句，最后根据要求的文摘字数生成文摘。

模块名称：单一文本分类系统

负责人姓名：林建国

曾经开发人员：赵世奇、陈毅恒

模块简介：本模块为文本分类模块。应用文本分类技术对给定的未知文本根据设定的文本类别系统，自动标记该给定文本的类别信息。现在该模块共有两套文本系统可供选择，一个是中图分类系统，共有包括机械，经济，哲学等36个类别另一个是新闻文本分类系统，包括财经，生活，教育，军事等11个类别。

基本功能：在有一个规定的类别系统的情况下，我们可以根据文本的内容给该文本一个所属的类别信息。比如网易就把新闻文本根据内容分为财经，生活，军事等14个类别。而该模块的功能就是在设定一个文本分类体系的前提下，对一个未知文本自动标示出该文本的所属类别。

方法简介：使用向量空间模型表示一个文本信息，使用文本的词条作为特征信息，在对特征的降维之后，使用SVM分类器进行分类。

模块名称：指代消解

负责人姓名：李正华

指导老师：郎君

基本功能：对文本中出现的第三人称代词单数形式“他”或“她”进行消解，识别出代词所指的人的姓名。

模块简介：

指代消解功能举例：

李四现在是哈工大计算机系大四的学生。他非常的喜欢体育运动。

其中，“他”所指的是“李四”。指代消解要做的工作就是识别出这种指代关系。

方法简介：现在系统是一个最基本的系统。采用的方法也非常简单。

哈工大信息检索研究室 语言技术平台相关技术简介

哈工大信息检索研究室语言技术平台相关技术简介