哈工大社会计算与信息检索研究中心
友爱  力行  乐学  日新

HIT-SCIR

美国Google林德康博士来访

美国Google林德康博士来访

2014年04月18日

2012年8月8日,美国Google林德康博士来我实验室访问。林老师上一次访问我们实验室是在2002年,相距整整十年。

上午9:00-12:00,林老师给我们做了一场精彩的学术报告,题为“Chinese and English NLP: Commonalities and Differences”。

报告首先比较了中文和英语的共性和差异,比如字符集、词语边界、形态变化、语法等方面。进而,探讨了中文和英文的交流效率(communication efficiency)的问题。发现虽然平行语料中,汉语的长度总是比英文短,但是文本压缩后的长度基本相同。

通过类比,林老师认为英文的multi-word expression (MWE)和non-compositional compounds的识别任务,与汉语分词 (Chinese Word Segmentation, CWS)任务有类似之处。林老师还介绍了一种基于大规模语料统计的non-compositional compounds识别方法。

观察到不同的英语对于分词单元的需求不同,林老师提出soft segmentation的概念,即分词结果中标注出所有合理的词语单元。林老师还提出不少中文NLP任务可以不预先分词,比如Information Retrieval, Distributional Clustering, Named Entity Recognition, Parsing。

Distributional Clustering指的是,通过统计候选汉字串(string)的上下文信息(context)(比如前后一个汉字),构成这个string上下文向量。这样就可以计算string间的相似度,进而可以对大量的候选string进行聚类。

最后,林老师提到universal grammar,认为可以构造一组约束(constraints),涵盖所有自然语言的共性。

结语部分,林老师认为通过分析对比不同语言的共性和差异,会给NLP工作带来更多的启示。

会后的提问环节,林老师和我们就谷歌搜索退出大陆市场、Google Now、Google做研究的方式、Google的公司文化等方面进行了热烈的讨论。 


Copyright © Research Center for Social Computing and Information Retrieval 2001 - 2015
P.O.Box 321, HIT, P.R.China 150001
webmaster at ir dot hit dot edu dot cn