华东师范大学学报(自然科学版) ›› 2018, Vol. 2018 ›› Issue (3): 55-66.doi: 10.3969/j.issn.1000-5641.2018.03.007

• 计算机科学 • 上一篇    下一篇

面向企业知识图谱构建的中文实体关系抽取

孙晨, 付英男, 程文亮, 钱卫宁   

  1. 华东师范大学 数据科学与工程学院, 上海 200062
  • 收稿日期:2017-08-19 出版日期:2018-05-25 发布日期:2018-05-29
  • 通讯作者: 钱卫宁,男,教授,博士生导师,研究方向为数据库科学.E-mail:wnqian@sei.ecnu.edu.cn E-mail:钱卫宁,男,教授,博士生导师,研究方向为数据库科学.E-mail:wnqian@sei.ecnu.edu.cn
  • 作者简介:孙晨,女,硕士研究生,研究方向为知识图谱.E-mail:2683122260@qq.com.
  • 基金资助:
    国家重点研发计划(2016YFB1000905);国家自然科学基金广东省联合重点项目(U1401256);国家自然科学基金(61672234,61402177);华东师范大学信息化软科学研究课题(41600-10201-562940/018).

Chinese named entity relation extraction for enterprise knowledge graph construction

SUN Chen, FU Ying-nan, CHENG Wen-liang, QIAN Wei-ning   

  1. School of Data Science and Engineering, East China Normal University, Shanghai 200062, China
  • Received:2017-08-19 Online:2018-05-25 Published:2018-05-29

摘要: 企业知识图谱是针对金融领域为描述企业间商业往来关系而构建的一类垂直领域知识库.尽管垂直领域知识图谱在领域覆盖的广度上不如开放知识图谱,但是它对知识准确率的要求却远远高于开放知识图谱,因此虽然近些年开放知识图谱取得了很大的进展,但在垂直领域中却并未得到深入应用,尤其是商业领域,其对企业知识图谱提出了很大的需求.针对企业知识图谱目前在关系抽取效果上的局限性,在分析了实体关系抽取研究现状的基础上,提出了一种基于分类的中文实体关系抽取方法.该方法使用最大熵模型,通过对上市公司公报数据进行实验分析,从而寻找到该关系抽取的最优特征模板,并使在企业公报这一数据集上的准确率普遍达到85%以上.

关键词: 企业知识图谱, 实体关系抽取, 最大熵模型

Abstract: The enterprise knowledge graph is a kind of domain knowledge base for the financial field to describe business relationships between enterprises. Although the domain knowledge graph is not broadly covered in the field, the precision of the knowledge is better than with an open knowledge graph. Despite the fact that open knowledge graphs have made significant advancements in recent years, vertical fields-especially business-have not seen in-depth applications in practice; this has resulted in significant demands on the enterprise knowledge graph. This paper proposes a Chinese entity relation extraction method based on classification for the limitation of extraction results. In this method, the maximum entropy model is used to analyze the data of selected companies' announcements to determine the optimal feature template. The results show that accuracy rates reach over 85% in the enterprise bulletin data set.

Key words: enterprise knowledge graph, named entity relation extraction, maximum entropy

中图分类号: