哈工大社会计算与信息检索研究中心
友爱  力行  乐学  日新

HIT-SCIR

语言分析(LA组)

语言分析(LA组)

2014年05月14日

语法分析

李正华

以依存句法分析为研究重点,涉及汉语分词、词性标注、命名实体识别及名词短语识别、动词细分类等内容。已建立汉语依存标注规范,并对6万汉语句子进行了依存骨架分析树的人工标注,对其中的1万汉语句子进行了依存关系类型的人工标注,目前正在不断完善已有的汉语依存句法分析器。

词义消歧

郭宇航

词义消歧(Word Sense Disambiguation, WSD)主要研究如何根据具体上下文确定其中多义词的含义的问题。在刚刚结束的SemEval-2007评测中,我们获得Task 11任务的第一名。

语义分析

车万翔

语义分析的主要任务是根据输入句子的句法结构和句中每个实词的词义推导出能够反映这个句子意义(即句义)的某种形式化表示。在文摘、翻译、问答等众多应用方面具有广阔的应用。但是限于自然语言处理中其它底层模块还不够完善,深层的语义分析难度较大,因此我们主要关注浅层语义分析(Shallow Semantic Parsing),又被称作语义角色标注(Semantic Role Labeling)研究。

语言技术平台

车万翔、 李正华

语言技术平台(Language Technology Platform, LTP)是一个集成的,基于XML数据表示的语言处理平台,包含了一整套从底层到高层的汉语处理模块,其中有句子切分、分词、词性标注、命名实体识别、词义消歧、句法分析、语义角色标注、自动文摘、文本分类、共指消解。LTP也提供了一套可视化工具,以更清晰的观察处理结果。同时,LTP还提供了一套XML格式化的语料资源。LTP一直免费向外界共享,发布一年多以来,已有120多家研究单位共享了LTP。

科研项目

在研:

  1. 汉语依存句法分析若干关键技术研究,60803093,国家自然科学青年基金,2009—201
  2. 汉语语义角色标注方法研究,60675034,国家自然科学基金面上项目,2007-2009

完成:

  1. 基于等价伪词的汉语全文无指导词义消歧技术研究,60575042,国家自然科学基金面上项目,2006-2008
  2. 基于XML的分层交互式中文处理开放平台,2006AA01Z145,863计划探索类专题项目,2007-2008
  3. 基于Kernel的语义角色标注研究,微软亚洲研究院,2006
  4. 中文词义消歧技术研究,东芝中国研发中心,2005-2006
  5. 简繁转换等七项技术授权金山WPS专业版使用,珠海金山软件公司,2005

IMG_6247

成员介绍

教师:

车万翔 博士/讲师

博士生:

李正华、 张梅山(LA)、 郭江(LA)

硕士生:
邓知龙(LA)、 刘一佳(LA)、 丁宇(LA)、 任彬(LA)、 韩冰(LA)


Copyright © Research Center for Social Computing and Information Retrieval 2001 - 2015
P.O.Box 321, HIT, P.R.China 150001
webmaster at ir dot hit dot edu dot cn