金融知识图谱 栏目所有文章列表

    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    1. 面向领域知识图谱的实体关系联合抽取
    付瑞, 李剑宇, 王笳辉, 岳昆, 胡矿
    华东师范大学学报(自然科学版)    2021, 2021 (5): 24-36.   DOI: 10.3969/j.issn.1000-5641.2021.05.003
    摘要1249)   HTML76)    PDF(pc) (842KB)(1021)    收藏

    文本数据中的实体和关系抽取是领域知识图谱构建和更新的来源. 针对金融科技领域中文本数据存在重叠关系、训练数据缺乏标注样本等问题, 提出一种融合主动学习思想的实体关系联合抽取方法. 首先, 基于主动学习, 以增量的方式筛选出富有信息量的样本作为训练数据; 其次, 采用面向主实体的标注策略将实体关系联合抽取问题转化为序列标注问题; 最后, 基于改进的BERT-BiGRU-CRF模型实现领域实体与关系的联合抽取, 为知识图谱构建提供支撑技术, 有助于金融从业者根据领域知识进行分析、投资、交易等操作, 从而降低投资风险. 针对金融领域文本数据进行实验测试, 实验结果表明, 本文所提出的方法有效, 验证了该方法后续可用于金融知识图谱的构建.

    图表 | 参考文献 | 相关文章 | 多维度评价
    2. 针对命名实体识别的数据增强技术
    马晓琴, 郭小鹤, 薛峪峰, 杨琳, 陈远哲
    华东师范大学学报(自然科学版)    2021, 2021 (5): 14-23.   DOI: 10.3969/j.issn.1000-5641.2021.05.002
    摘要994)   HTML433)    PDF(pc) (689KB)(498)    收藏

    近年来, 深度学习方法被广泛地应用于命名实体识别任务中, 并取得了良好的效果. 但是主流的命名实体识别都是基于序列标注的方法, 这类方法依赖于足够的高质量标注语料. 然而序列数据的标注成本高昂, 导致命名实体识别训练集规模往往较小, 这严重地限制了命名实体识别模型的最终性能. 为了在不增加人工成本的前提下扩大命名实体识别的训练集规模, 本文分别提出了基于EDA(Easy Data Augmentation)、基于远程监督、基于Bootstrap(自展法)的命名实体识别数据增强技术. 通过在本文给出的FIND-2019数据集上进行的实验表明, 这几种数据增强技术及其它们的组合能够低成本地增加训练集的规模, 从而显著地提升命名实体识别模型的性能.

    图表 | 参考文献 | 相关文章 | 多维度评价
    3. 金融领域中文命名实体识别研究进展
    徐秋荣, 朱鹏, 罗轶凤, 董启文
    华东师范大学学报(自然科学版)    2021, 2021 (5): 1-13.   DOI: 10.3969/j.issn.1000-5641.2021.05.001
    摘要1585)   HTML674)    PDF(pc) (821KB)(1346)    收藏

    命名实体识别(Named Entity Recognition, NER)作为自然语言处理的基本任务之一, 一直以来都是国内外研究的热点. 随着金融互联网的快速发展, 迄今为止, 金融领域中文NER不断进步, 并得以应用到其他金融业务中. 为了方便研究者了解金融领域中文NER方法的发展状况和未来发展趋势, 进行了一项相关方法的研究和总结. 首先, 介绍了NER的相关概念和金融领域中文NER的特点; 然后, 按照金融领域中文NER的发展历程, 将研究方法分为基于字典和规则的方法、基于统计机器学习的方法和基于深度学习的方法, 并详细介绍了每类方法的特点和典型模型; 接下来, 简要概括了金融领域中文NER的公开数据集和工具、评估方法及其应用; 最后, 向读者阐述了目前面临的挑战和未来的发展趋势.

    图表 | 参考文献 | 相关文章 | 多维度评价