哈尔滨工业大学社会计算与信息检索研究中心 – 理解语言，认知社会

美国Google林德康博士来访

2014年04月18日

2012年8月8日，美国Google林德康博士来我实验室访问。林老师上一次访问我们实验室是在2002年，相距整整十年。

上午9:00-12:00，林老师给我们做了一场精彩的学术报告，题为“Chinese and English NLP: Commonalities and Differences”。

报告首先比较了中文和英语的共性和差异，比如字符集、词语边界、形态变化、语法等方面。进而，探讨了中文和英文的交流效率（communication efficiency)的问题。发现虽然平行语料中，汉语的长度总是比英文短，但是文本压缩后的长度基本相同。

通过类比，林老师认为英文的multi-word expression (MWE)和non-compositional compounds的识别任务，与汉语分词 (Chinese Word Segmentation, CWS)任务有类似之处。林老师还介绍了一种基于大规模语料统计的non-compositional compounds识别方法。

观察到不同的英语对于分词单元的需求不同，林老师提出soft segmentation的概念，即分词结果中标注出所有合理的词语单元。林老师还提出不少中文NLP任务可以不预先分词，比如Information Retrieval, Distributional Clustering, Named Entity Recognition, Parsing。

Distributional Clustering指的是，通过统计候选汉字串（string）的上下文信息（context）（比如前后一个汉字），构成这个string上下文向量。这样就可以计算string间的相似度，进而可以对大量的候选string进行聚类。

最后，林老师提到universal grammar，认为可以构造一组约束（constraints），涵盖所有自然语言的共性。

结语部分，林老师认为通过分析对比不同语言的共性和差异，会给NLP工作带来更多的启示。

会后的提问环节，林老师和我们就谷歌搜索退出大陆市场、Google Now、Google做研究的方式、Google的公司文化等方面进行了热烈的讨论。