哈工大社会计算与信息检索研究中心
友爱  力行  乐学  日新

HIT-SCIR

哈工大SCIR正式对外发布金融事理图谱Demo V1.0

哈工大SCIR正式对外发布金融事理图谱Demo V1.0

2018年09月10日

知识图谱等现有知识库普遍以名词性实体为核心,聚焦于实体及其关系的挖掘,无法很好地表示事件之间的事理逻辑关系。针对知识图谱的这一局限性,哈工大社会计算与信息检索研究中心提出了事理图谱的概念,并基于大规模财经新闻文本构建了一个金融领域事理图谱。本文中我中心正式对外发布该金融事理图谱Demo(http://eeg.8wss.com)。

一、事理图谱相关概念介绍

以知识图谱为代表,现有的大型公开知识库普遍是以“实体及实体间的关系”为核心,缺乏对“事理逻辑”知识的挖掘。我们认为事理逻辑(抽象事件之间的演化规律和模式)是一种非常有价值的常识知识,挖掘这种知识对我们认识人类行为和社会发展变化规律非常有意义。基于此背景,我中心提出了事理图谱(Event Evolutionary Graph)的概念。结构上,事理图谱是一个有向有环图,节点代表抽象事件,有向边代表事件之间的顺承、因果等事理逻辑关系。本质上,事理图谱是一个事理逻辑知识库,描述了抽象事件之间的演化规律和模式。图1中总结了事理图谱和知识图谱的区别与联系。

3

图1. 事理图谱和知识图谱的区别与联系

二、金融事理图谱的构建

基于上述对事理图谱概念的定义,我们在金融领域语料上进行了探索与实践,经过多次迭代与完善,构建了一个金融领域的事理图谱。构建该金融事理图谱所用的语料为腾讯、网易、和讯等网站的财经新闻文本,以及人民日报、中国青年报等多家报纸的开放领域新闻文本。构建该图谱用到了事件抽取、因果关系抽取、相似事件识别等关键技术。目前该金融事理图谱中含有约134万事件节点(用一个短语或句子来表示事件)以及约140万的因果关系。从该图谱中随机选取1000条因果关系对进行人工评价,因果事件关系抽取准确率达到了72.5%。

三、金融事理图谱Demo使用说明

基于上述构建的金融领域事理图谱,我们开发、搭建了相应的前端展示平台,供用户浏览和使用。我中心在此正式发布该Demo,地址为http://eeg.8wss.com。鉴于该Demo的展示特点,建议大家在电脑网页端进行浏览,效果较好。用户可以点击页面右上方的“使用说明”来了解Demo的使用方法。下面对该Demo的使用进行简要说明,主要有以下功能:

1. 输入事件进行搜索查询

用户在搜索框中输入,或者从候选事件列表中选择一个事件(例如“通胀”,“粮食减产”,“人民币升值”等),并点击提交按钮后,系统会自动在数据库中进行精确匹配,如果没有精确匹配结果则会进行模糊匹配。如果有匹配结果,则会在网页灰色区域呈现一个围绕输入事件扩展开的事理图谱子图。默认情况下,该子图围绕输入事件向外扩展3层。该子图可以用鼠标拖动灰色区域移动位置,用鼠标滚轮实现缩放。如图2所示,是提交“人民币升值”事件后显示的结果,图中用不同的颜色区分了不同的显示元素:红色节点为输入的核心事件,黄色节点和绿色节点表示围绕核心事件展开的事件节点;蓝色箭头有向边连线从原因事件节点指向结果事件节点,橙色无向边连接两个相似事件。

2

图2:金融事理图谱页面结构

2. 点击事件节点向外扩展

除默认显示的事件节点和关系以外,用户可以用鼠标双击任一事件节点,来向外扩展默认显示的子图。如果能够继续向外扩展,双击后则会显示扩展后的结果。如图3所示,在“通胀”事件扩展出的子图中,双击“货币贬值”事件,则“货币贬值”事件节点会变为红色,并以其为中心向外扩展一层。

222

图3:鼠标双击事件节点继续向外扩展

3. 查看因果事件关系所在的上下文

用户可以将鼠标移动到某条蓝色因果关系边上时,右侧会显示出抽取该因果关系时的上下文。如图3所示,将鼠标移动到“生产成本上涨”à“生猪价格猛涨”的蓝色有向边上时,会在右侧深灰色区域显示该条因果事件对所在的上下文。

1

图4:查看因果上下文

四、总结

本文中我中心正式对外发布金融事理图谱Demo,地址为:

http://eeg.8wss.com

欢迎大家浏览使用,并恳请大家提出宝贵意见。现阶段版本的金融事理图谱还有诸多可改进的地方,未来我们会持续改进、日臻完善。此版本的指导老师为刘挺、丁效,主要开发者为李忠阳、廖阔。有任何问题、建议或想法,请联系丁效(xding@ir.hit.edu.cn)或李忠阳(zyli@ir.hit.edu.cn)。谢谢!

 


Copyright © Research Center for Social Computing and Information Retrieval 2001 - 2015
P.O.Box 321, HIT, P.R.China 150001
webmaster at ir dot hit dot edu dot cn