哈工大社会计算与信息检索研究中心
友爱  力行  乐学  日新

HIT-SCIR

语言分析(LA组)

语言分析(LA组)

2014年05月14日

语法分析

刘一佳

以依存句法分析为研究重点,涉及汉语分词、词性标注、命名实体识别及名词短语识别、动词细分类等内容。

语音转写后处理

王少磊

由于口语的不规范性,直接进行语音转写的可阅读性往往存在较大的问题,所以凸显了语音转写后处理的重要性,即对口语化的文本进行分句、加标点,并对文本内容的流利性进行处理,甚至进行内容的摘要,以利于更好的阅读与编辑。

自然语言处理中的长期记忆机制

徐俊

记忆的重要特点是可以将新的内容和已有内容联系起来,Memory Network是一种简单可供读写的长期记忆机制,在问答等多个自然语言子领域均取得不错成绩。

语义依存(图)分析

王宇轩

语义依存分析是通往语义深层理解的一条蹊径,它通过在句子结构中分析实词间的语义关系(这种关系是一种事实上或逻辑上的关系,且只有当词语进入到句子时才会存在)来回答句子中”Who did what to whom when and where”等问题。语义分析可以跨越句子的表层结构直接获取深层语义表达的本质,这种性质在信息检索、机器翻译等诸多领域有重要作用。

任务型对话系统

施晓明

在当下日益加快的社会节奏中,人们对于更便捷,更智能的生活助手用来完成日常生活中的一些简单任务的需求越来越高。这里简单的任务包括查询机票,火车票,酒店等等。任务型对话系统研究的就是这类问题。任务型的对话系统主要分为对话状态跟踪,即从用户的请求中解析得到关键信息;对话策略,即制定回复策略以更好,更快地协助人们完成任务。任务型对话系统的研究有很广泛的运用场景。

语言云(语言技术平台云)

车万翔、 郭江刘一佳徐梓翔徐伟 、王宇轩、刘洋

语言技术平台(LTP) 提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。经过 哈工大社会计算与信息检索研究中心 11 年的持续研发和推广,LTP 已经成为国内外最具影响力的中文处理基础平台,曾获 CoNLL 2009七国语言句法语义分析评测 总成绩第一名,中文信息学会钱伟长一等奖等重要成绩和荣誉。目前,LTP 已经被 500 多家国内外研究机构和企业使用,多家大企业和科研机构付费使用。

“语言云” 以哈工大社会计算与信息检索研究中心研发的 “语言技术平台(LTP)” 为基础,为用户提供高效精准的中文自然语言处理云服务。使用 “语言云” 非常简单,只需要根据 API 参数构造 HTTP 请求即可在线获得分析结果,而无需下载 SDK 、无需购买高性能的机器, 同时支持跨平台、跨语言编程等。2014年11月,哈工大 联合科大讯飞公司共同推出 “哈工大-讯飞语言云”, 为广大用户提供电信级稳定性和支持全国范围网络接入的语言云服务,有效支持包括中小企业在内开发者的商业应用需要。

科研项目

在研:

  1. 依存句法分析子结构可信度计算研究,61370164,国家自然科学基金面上项目,2014—2017
  2. 面向三元空间的互联网中文信息处理理论与方法,2014CB340503,国家973计划项目,2014—2018
  3. 语音识别后处理,科大讯飞股份有限公司,2017
  4. 语法纠错、句法分析,华为技术有限公司,2017

完成:

  1. 汉语依存句法分析若干关键技术研究,60803093,国家自然科学青年基金,2009—2011
  2. 汉语语义角色标注方法研究,60675034,国家自然科学基金面上项目,2007-2009
  3. 基于等价伪词的汉语全文无指导词义消歧技术研究,60575042,国家自然科学基金面上项目,2006-2008
  4. 基于XML的分层交互式中文处理开放平台,2006AA01Z145,863计划探索类专题项目,2007-2008
  5. 基于Kernel的语义角色标注研究,微软亚洲研究院,2006
  6. 中文词义消歧技术研究,东芝中国研发中心,2005-2006
  7. 简繁转换等七项技术授权金山WPS专业版使用,珠海金山软件公司,2005

IMG_6247

成员介绍

教师:

车万翔 副教授/博士生导师、张梅山、 郭江

博士生:

刘一佳王少磊徐俊王宇轩施晓明

硕士生:

徐梓翔徐伟邓文超赵怀鹏郑博朱嘉琪

本科生:

滕德川覃立波候宇泰、刘洋、韩宇、文灏洋、陈三元


Copyright © Research Center for Social Computing and Information Retrieval 2001 - 2015
P.O.Box 321, HIT, P.R.China 150001
webmaster at ir dot hit dot edu dot cn