哈工大社会计算与信息检索研究中心
友爱  力行  乐学  日新

HIT-SCIR

重磅!《大词林》V2.0:自动消歧的开放域中文知识图谱

重磅!《大词林》V2.0:自动消歧的开放域中文知识图谱

2019年08月05日

1. 《大词林》的升级介绍

《大词林》(www.bigcilin.com)是由哈尔滨工业大学社会计算与信息检索研究中心推出,由我中心秦兵教授和刘铭副教授主持开发,是一个自动构建的大规模开放域中文知识库(有关《大词林》的介绍请参见以往公众号文章“《大词林》—自动构建的大规模开放域中文实体知识库”)。由于《大词林》是自动由文本中构建而来,这使得来自不同文本的具有多个义项的同一词语在大词林中对应于一个实体,从而引起混淆。例如“苹果”一词即具有多个义项。为此,我们针对《大词林》中的实体消歧任务进行解决,并升级了《大词林》系统,其改进主要包括:

  • 为《大词林》中的实体添加了义项,同时根据实体的义项修改了《大词林》中的上位词概念路径获取方式,使得每一个实体的义项均能够唯一对应到细粒度的上位词概念路径。
  • 为《大词林》中的实体添加属性,将属性和属性值映射到实体的义项上以更加清晰明确的展示实体的含义。

2. 《大词林》中的实体消歧

《大词林》中的上下位关系是由文本中自动获取的,这使得《大词林》中的上下位关系路径是细粒度且层次化的,其实体具有的每条上下位关系路径(也称为概念路径)都是非常明确的。以实体“苹果”为例,“苹果->水果->食品->物”明确表征了这条路径上的“苹果”是一种可以食用的水果,“苹果->电脑->机器->物”则明确表征了这条路径上的“苹果”是一种可以使用的机器。当实体与其不同的上下位概念路径结合后,则有了明确的释义,而这种明确的释义,是可以与对应的实体义项相匹配的。《大词林》中的实体消歧正是完成了这项工作。下图即展示了消歧前后《大词林》中实体的变化情况。
 1

                                                         图1 升级前后《大词林》中实体“苹果”的上位词结构(左图为升级前的1.0版本,右图为升级后的2.0版本)
由图1可见,未升级前,实体“苹果”的上位词有“水果”,“公司”,“科技产品”等,“水果”与“公司”很明显并不是一个领域的概念。这说明,未升级前,不同的概念混杂在一起使得“苹果”的含义极不明确。《大词林》2.0版为实体“苹果”赋予了义项,当选择某个义项后,例如“苹果(动漫角色)”义项后,则仅保留与该义项对应的上下位概念路径(加亮),而当实体义项切换到“苹果(蔷薇科苹果属果实)”后,上下位关系图也动态将该义项对应的路径显示出来。

3. 《大词林》中的属性填充和属性向实体义项的映射

属性在知识图谱的构建中起着至关重要的作用,属性能够丰富实体的概念、揭示实体的特性。我们从网络中自动挖掘了4千多万的属性和属性值数据用于丰富《大词林》2.0版中实体的含义。在未升级的《大词林》中,属性是挂接在实体之上。以“苹果”为例,其属性的展示情况由图2可见,由于苹果具有多个义项,所以多个义项下的属性混杂在一起。
2

图2 未升级前《大词林》中“苹果”的属性分配情况
为此,《大词林》2.0版提出了一种基于实体的层次化概念体系的属性自动映射方法,使用层次化的概念路径(几个表示概念的单词连接为一条路径,例如“机构/学校/高等院校”,前者是后者的上位词)表示实体的概念,之后将《大词林》所具有的层次化的概念体系和属性集合中的属性映射到连续的向量空间,以获取属性和实体义项的对应关系。消歧结果如图3所示:
3

图3 升级后实体的属性映射结果(深色代表将属性映射到实体的该义项下)
由图3可见,利用实体的概念路径后,能够将实体的属性自动对应到其相应的义项下,这使实体在不同概念下的含义更加明确。

4. 提供更好的应用支撑

值得指出的是,《大词林》中的概念和属性均是由网络中自动挖掘获取的,相比于其他通用知识图谱,《大词林》的优势之处在于:构建无须人工参与,其概念和属性完全由文本中自动挖掘获取,因此其粒度非常精细且可随语料的丰富而自动扩充。同时,为保证质量,《大词林》中设置了质量控制机制,只有超过置信度的可靠概念和属性才会被引入《大词林》中。简而言之,《大词林》2.0版的特点为:
  • 无需手工参与,自动构建而成
  • 细粒度、高质量的层次化概念体系
  • 消歧后清晰的实体语义表示
  • 丰富的实体属性数据
为方便上层应用使用,《大词林》2.0版提供了如下数据接口,包括:读取某实体的上位词和同义词、读取实体的属性和属性值、读取满足某一关系的所有实体对、确定实体对间是否存在某种关系等。
《大词林》1.0版中未考虑实体的歧义特性,因此多种类型的概念混杂在一起,同时不同概念下的实体属性也混杂在一起,给浏览和上层应用的使用均带来不便。比如,会有多人叫同样的名字,在《大词林》1.0版本中,这多个人的属性会混杂在一起,以“李宁”为例,其属性既会有与“体育明星”相关的属性,也会有与“演员”相关的属性。这样,当用户查询“李宁”的身份时显然会出现问题,而《大词林》2.0版能够将多个不同人物对应的概念和属性区分开,可以更好的支撑上层应用。

5. 更新进展

当前在利用《大词林》查询实体时,会展示该实体的多个义项,例如查询“苹果”,会显示“苹果”的多个义项。点击具体的义项,则展示该义项下实体所拥有的属性和属性值。同时在实体属性数据下方会展示苹果在某个义项下所具有的细粒度、上下位概念层次关系。在《大词林》的首页下列出了部分样例:
4

图4 《大词林》首页样例
用户可以通过首页样例查看《大词林》中实体消歧后的展示情况。由于《大词林》中的实体数目较多,并且在消歧时需要逐个匹配实体的义项和实体的每一条上下位概念路径的相似度,因此需要一定的处理周期。目前消歧工作已经展开,但是由于有些实体可能没有被处理到,使得用户在查询时可能会出现某些实体处于未消歧状态,还望大家谅解。

6. 结语

《大词林》系统网站(http://www.bigcilin.com/)支持用户查询任意实体,并以有向图的形式展现实体的层次化概念体系,同时支持以目录方式浏览部分公开的知识库。经过如上的改进后,目前《大词林》2.0版已拥有实体10,041,344 (一千万),上位词182,079(十八万),优质的实体上下位关系对12,081,984(一千二百万对),属性-值对45,854,287(四千五百万对),关系(属性)数161,983(十六万)。
目前《大词林》已被科大讯飞、腾讯、奇虎360等多所公司以及高校付费使用。有关《大词林》的功能介绍及详细的接口说明请联系bigcilin@ir.hit.edu.cn。

Copyright © Research Center for Social Computing and Information Retrieval 2001 - 2015
P.O.Box 321, HIT, P.R.China 150001
webmaster at ir dot hit dot edu dot cn