美国Google林德康博士来访
2014年04月18日2012年8月8日,美国Google林德康博士来我实验室访问。林老师上一次访问我们实验室是在2002年,相距整整十年。
上午9:00-12:00,林老师给我们做了一场精彩的学术报告,题为“Chinese and English NLP: Commonalities and Differences”。
报告首先比较了中文和英语的共性和差异,比如字符集、词语边界、形态变化、语法等方面。进而,探讨了中文和英文的交流效率(communication efficiency)的问题。发现虽然平行语料中,汉语的长度总是比英文短,但是文本压缩后的长度基本相同。
通过类比,林老师认为英文的multi-word expression (MWE)和non-compositional compounds的识别任务,与汉语分词 (Chinese Word Segmentation, CWS)任务有类似之处。林老师还介绍了一种基于大规模语料统计的non-compositional compounds识别方法。
观察到不同的英语对于分词单元的需求不同,林老师提出soft segmentation的概念,即分词结果中标注出所有合理的词语单元。林老师还提出不少中文NLP任务可以不预先分词,比如Information Retrieval, Distributional Clustering, Named Entity Recognition, Parsing。
Distributional Clustering指的是,通过统计候选汉字串(string)的上下文信息(context)(比如前后一个汉字),构成这个string上下文向量。这样就可以计算string间的相似度,进而可以对大量的候选string进行聚类。
最后,林老师提到universal grammar,认为可以构造一组约束(constraints),涵盖所有自然语言的共性。
结语部分,林老师认为通过分析对比不同语言的共性和差异,会给NLP工作带来更多的启示。
会后的提问环节,林老师和我们就谷歌搜索退出大陆市场、Google Now、Google做研究的方式、Google的公司文化等方面进行了热烈的讨论。