信息检索研究室推出“机构信息抽取系统”
2014年04月18日HIT IR实验室历时九个月,开发了 “机构信息抽取系统OIE(Organization Information Extraction)”。 “机构信息抽取系统”将纷繁复杂的非结构化的黄页转化为结构化的信息(信息项包括:机构名称、简称/别称、机构名标引分类、机构地址、联系人、电话、邮编、传真、E-mail等多项结构化信息),存储于数据库中,便于用户搜索感兴趣的机构及其相关信息,并提供机构位置关系搜索功能。该系统主要包括网页内容预处理、机构信息知识库的构建两个主要步骤,其中调用了实验室的多项技术,包括网页过滤、正文提取、分词、词性标注、命名实体识别、简称/别称识别、关系抽取等技术模块。OIE系统的平均精确率达92.63%,召回率为82.90%,达到了实用水平。
OIE系统有以下几大功能:
- 准确地分析web页面内容,返回机构名称,及一系列的相关机构信息
- 提供了机构名称的简称/别称
- 为机构名称提供了标引分类
- 提供了机构之间的位置关系识别
- 为每一篇web页面提供了置信度,供读者参考
- 提供了机构信息搜索功能,并提供了机构关系搜索功能
OIE系统综合使用了实验室的多项技术,并具有很好的可移植性、扩展性和实用性,这是IR-Lab用于测试各项技术,展示各项技术的又一个重要的应用平台。
机构信息抽取系统(OIE, Organization Information Extraction)