华东师范大学学报（自然科学版）

Select

“金融科技关键技术与系统”——70周年校庆专辑

2021 (5): 0-0.

摘要 ( 451 )

HTML ( 399 )

PDF(224KB) ( 92 )

参考文献 | 相关文章 | 计量指标

Select

金融领域中文命名实体识别研究进展

徐秋荣, 朱鹏, 罗轶凤, 董启文

2021 (5): 1-13. doi: 10.3969/j.issn.1000-5641.2021.05.001

摘要 ( 3152 )

HTML ( 683 )

PDF(821KB) ( 5090 )

命名实体识别(Named Entity Recognition, NER)作为自然语言处理的基本任务之一, 一直以来都是国内外研究的热点. 随着金融互联网的快速发展, 迄今为止, 金融领域中文NER不断进步, 并得以应用到其他金融业务中. 为了方便研究者了解金融领域中文NER方法的发展状况和未来发展趋势, 进行了一项相关方法的研究和总结. 首先, 介绍了NER的相关概念和金融领域中文NER的特点; 然后, 按照金融领域中文NER的发展历程, 将研究方法分为基于字典和规则的方法、基于统计机器学习的方法和基于深度学习的方法, 并详细介绍了每类方法的特点和典型模型; 接下来, 简要概括了金融领域中文NER的公开数据集和工具、评估方法及其应用; 最后, 向读者阐述了目前面临的挑战和未来的发展趋势.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

针对命名实体识别的数据增强技术

马晓琴, 郭小鹤, 薛峪峰, 杨琳, 陈远哲

2021 (5): 14-23. doi: 10.3969/j.issn.1000-5641.2021.05.002

摘要 ( 2114 )

HTML ( 437 )

PDF(689KB) ( 619 )

近年来, 深度学习方法被广泛地应用于命名实体识别任务中, 并取得了良好的效果. 但是主流的命名实体识别都是基于序列标注的方法, 这类方法依赖于足够的高质量标注语料. 然而序列数据的标注成本高昂, 导致命名实体识别训练集规模往往较小, 这严重地限制了命名实体识别模型的最终性能. 为了在不增加人工成本的前提下扩大命名实体识别的训练集规模, 本文分别提出了基于EDA(Easy Data Augmentation)、基于远程监督、基于Bootstrap(自展法)的命名实体识别数据增强技术. 通过在本文给出的FIND-2019数据集上进行的实验表明, 这几种数据增强技术及其它们的组合能够低成本地增加训练集的规模, 从而显著地提升命名实体识别模型的性能.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

面向领域知识图谱的实体关系联合抽取

付瑞, 李剑宇, 王笳辉, 岳昆, 胡矿

2021 (5): 24-36. doi: 10.3969/j.issn.1000-5641.2021.05.003

摘要 ( 2428 )

HTML ( 80 )

PDF(842KB) ( 1409 )

文本数据中的实体和关系抽取是领域知识图谱构建和更新的来源. 针对金融科技领域中文本数据存在重叠关系、训练数据缺乏标注样本等问题, 提出一种融合主动学习思想的实体关系联合抽取方法. 首先, 基于主动学习, 以增量的方式筛选出富有信息量的样本作为训练数据; 其次, 采用面向主实体的标注策略将实体关系联合抽取问题转化为序列标注问题; 最后, 基于改进的BERT-BiGRU-CRF模型实现领域实体与关系的联合抽取, 为知识图谱构建提供支撑技术, 有助于金融从业者根据领域知识进行分析、投资、交易等操作, 从而降低投资风险. 针对金融领域文本数据进行实验测试, 实验结果表明, 本文所提出的方法有效, 验证了该方法后续可用于金融知识图谱的构建.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

基于非易失性内存的LSM-tree存储系统优化

余阳, 胡卉芪, 周煊

2021 (5): 37-47. doi: 10.3969/j.issn.1000-5641.2021.05.004

摘要 ( 1887 )

HTML ( 69 )

PDF(1368KB) ( 828 )

随着大数据时代的到来, 金融行业产生的数据越来越多, 对数据库的压力也越来越大. LevelDB是谷歌开发的一款基于LSM-tree架构的键值对数据库, 有写入快和占用空间小的优点, 被金融行业广泛应用. 针对LSM-tree架构的写停顿、写放大、对读不友好等缺点, 提出了一种基于非易失性内存和机器学习的L₀层的设计方法, 能够减缓甚至解决上述问题. 实验结果表明, 该设计能够实现较好的读写性能.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

基于CITA区块链的纠删码分片存储实现

尹芙蓉, 朱承宇, 赵斌, 张召

2021 (5): 48-59. doi: 10.3969/j.issn.1000-5641.2021.05.005

摘要 ( 1595 )

HTML ( 72 )

PDF(1572KB) ( 731 )

区块链系统采用全复制的数据存储机制, 为每个节点保留整个区块链的完整副本, 系统扩展性差. 同时由于区块链系统中拜占庭节点的存在, 导致传统分布式系统中使用的分片方案不能被直接应用于区块链系统中. 本文结合纠删码和拜占庭容错算法, 使每个区块的存储消耗由 $ O\left(n\right) $ 降到 $ O\left(1\right) $ , 增强了系统的可扩展性. 本文还提出了对区块数据进行划分的方法, 在降低存储冗余的同时减小对查询效率的影响. 提出了无需网络通信的编码块存储方法, 降低了系统存储和通信开销. 还提出了区块链节点加入和退出的动态重编码方法, 既保证系统的稳定性, 又降低了系统重编码开销. 最后, 在开源区块链系统CITA上实现, 并通过充分的实验, 证明系统可扩展性、可用性和存储效率提升.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

面向区块链的数据管理中间件

邓思佳, 佟兴, 唐海波, 张召, 金澈清

2021 (5): 60-73. doi: 10.3969/j.issn.1000-5641.2021.05.006

摘要 ( 1535 )

HTML ( 53 )

PDF(1224KB) ( 669 )

作为一种去中心化的分布式账本, 区块链被广泛应用于互不可信的多方之间共享数据. 相比于发展多年的传统数据库, 区块链存在无法支持丰富查询、对外提供查询接口单一和查询响应慢的问题. 简单的组织结构和离散的存储方式是限制交易数据表达的主要原因. 为了弥补现有区块链系统的不足, 构建抽象模型、封装易于使用的接口以及提升查询效率是实现基于区块链的高效应用开发的主要方式. 鉴于此, 提出一种面向区块链的通用数据管理中间件, 具有如下特征: ①支持自定义构建数据模型, 灵活地为交易数据抽象新模型; ②提供多种数据访问接口支持丰富查询并采用同步缓存机制等优化方式提升查询效率; ③设计提前哈希计算和异步批处理策略优化交易的延迟和吞吐. 提出的数据管理中间件已集成于开源区块链CITA中, 并通过实验验证其易用性与高效性.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

面向OLAP数据库查询处理功能的模糊测试工具

项兆坤, 陈婷, 苏仟, 张蓉

2021 (5): 74-83. doi: 10.3969/j.issn.1000-5641.2021.05.007

摘要 ( 1778 )

HTML ( 71 )

PDF(831KB) ( 488 )

查询处理是现代关系型数据库管理系统(DBMS)中最重要的功能之一, 主要包括查询优化和查询执行. 然而查询处理的复杂性导致了测试的高成本, 阻碍了开发过程中的快速迭代, 并可能在生产环境中导致严重错误. 为了更好地服务于DBMS查询处理功能的评测, 采用模糊测试的方法生成基于主键约束的随机数据和完全有效的复杂分析型查询; 构建约束优化, 对查询中算子的精确基数进行高效计算, 从而获得查询的正确结果; 最后实现了完整的工具. 通过对TiDB的不同版本进行了小规模的测试, 结果表明可以有效地检测出TiDB不同版本的一些Bug.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

多主数据库中基于分区的并发控制

刘文欣, 蔡鹏

2021 (5): 84-93. doi: 10.3969/j.issn.1000-5641.2021.05.008

摘要 ( 1016 )

HTML ( 48 )

PDF(1299KB) ( 488 )

大数据时代, 存储计算架构分离的单写多读场景已无法满足海量数据的高效读写需求; 另一方面, 多个计算节点同时提供写服务还会引起计算节点间的缓存不一致. 已有的研究采用全局有序的事务日志来进行冲突检测, 并通过广播和回放事务日志维护整个系统的数据一致性. 但该类方案由于是在每个写节点维护全局写日志, 可扩展性较差. 针对这些问题, 提出了一个基于分区的并发控制方案: 通过分区的方式降低每个写节点需要维护的事务日志, 以有效提升系统的扩展能力. 基于此想法, 在MySQL上实现了分区多主插件, 并通过实验验证了该解决方案对系统性能的影响.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

日志结构合并树的查询优化技术

孙家博, 蔡鹏

2021 (5): 94-103. doi: 10.3969/j.issn.1000-5641.2021.05.009

摘要 ( 1368 )

HTML ( 59 )

PDF(746KB) ( 690 )

针对基于日志结构合并树(Log Structured Merge Tree, LSM-tree)的数据库查询性能较差的问题, 目前的研究工作主要集中在利用索引和缓存技术提升LSM-tree的查询性能. 本文主要从以下几个方面对LSM-tree的查询优化技术进行了综述. 第一, 介绍了LSM-tree的基础架构, 分析了影响查询的因素. 第二, 分析了当前的LSM-tree查询优化技术, 包括索引优化技术和缓存优化技术. 第三, 分析了索引和缓存技术是如何提升基于LSM-tree的数据库查询性能的, 并总结了一些现有的研究工作. 最后, 总结并给出了未来可能的研究方法.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

基于t-LeNet与时间序列分类的窃电行为检测

马晓琴, 薛晓慧, 罗红郊, 刘通宇, 袁培森

2021 (5): 104-114. doi: 10.3969/j.issn.1000-5641.2021.05.010

摘要 ( 1548 )

HTML ( 83 )

PDF(855KB) ( 717 )

窃电行为是导致电力企业电能与经济效益损失的重要原因. 提出了一种基于t-LeNet(Time-Series Specific Version of LeNet Model)与时间序列分类(Time Series Classification, TSC)的窃电行为检测方法: 首先, 获取用户用电量时序数据, 使用降采样方法生成训练集; 然后, 使用t-LeNet神经网络训练并预测得到分类结果, 判断用户是否存在窃电行为. 使用国家电网真实用户的用电量数据集进行了实验验证. 实验结果表明, 所提方法相较于基于Time-CNN(Time Convolutional Neural Network)、MLP(Muti-Layer Perception)的时间序列分类方法, 在综合评价指标、精确率、召回率指标上均有不同程度提高, 其对窃电行为的检测具有可行性与有效性.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

早期时间序列分类方法研究综述

杨梦晨, 陈旭栋, 蔡鹏, 倪葎

2021 (5): 115-133. doi: 10.3969/j.issn.1000-5641.2021.05.011

摘要 ( 2773 )

HTML ( 461 )

PDF(1503KB) ( 2334 )

传感器技术的普及使得时间序列数据受到人们越来越多的关注. 早期时间序列分类(Early Time Series Classification, ETSC)希望通过观测尽可能短的时序数据而对其做出尽可能准确的分类, 已在科技金融领域发挥着重要的作用. 首先概述了常见的时间序列分类器, 并综述了基于最小预测长度、基于最大区分子序列和基于模型的3类早期时间序列分类框架的最新研究进展. 然后在每类方法中, 分析了具有代表性的早期时间序列分类模型的关键技术及其优缺点; 整理了科技金融领域的公开数据集和常见的评价指标. 最后对未来的发展趋势做了展望.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

YOLO-S: 一种新型轻量的安全帽佩戴检测模型

赵红成, 田秀霞, 杨泽森, 白万荣

2021 (5): 134-145. doi: 10.3969/j.issn.1000-5641.2021.05.012

摘要 ( 1656 )

HTML ( 73 )

PDF(1182KB) ( 1420 )

针对现有施工场所下工人安全帽佩戴检测模型推理耗时长、对硬件要求高, 且复杂多变环境下的训练数据集单一、数量少导致模型鲁棒性较差等问题, 提出了一种轻量化的安全帽佩戴检测模型YOLO-S. 首先, 针对数据集类别不平衡问题, 设计混合场景数据增强方法, 使类别均衡化, 提高模型在复杂施工环境下的鲁棒性; 将原始YOLOv5s主干网络更改为MobileNetV2, 降低了网络计算复杂度. 其次, 对模型进行压缩, 通过在BN层引入缩放因子进行稀疏化训练, 判定各通道重要性, 对冗余通道剪枝, 进一步减少模型推理计算量, 提高模型检测速度. 最后, 通过知识蒸馏辅助模型进行微调得到YOLO-S. 实验结果表明, YOLO-S的召回率及mAP较YOLOv5s分别提高1.9%、1.4%, 模型参数量压缩为YOLOv5s的1/3, 模型体积压缩为YOLOv5s的1/4, FLOPs为YOLOv5s的1/3, 推理速度快于其他模型, 可移植性较高.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

基于自适应竞争的均衡优化电力系统客户分类

郑思达, 刘岩, 杨晓坤, 戚成飞, 袁培森

2021 (5): 146-156. doi: 10.3969/j.issn.1000-5641.2021.05.013

摘要 ( 982 )

HTML ( 35 )

PDF(914KB) ( 285 )

对电力系统客户的精确分类可为客户提供良好的差异化管理和个性化服务. 针对客户分类问题, 提出了一种基于均衡优化与极限学习机的分类方法. 该方法中提出了一种自适应竞争机制来平衡均衡优化的全局探索与局部挖掘能力, 从而有效提升了均衡优化搜索最优解的性能. 之后, 将提出的均衡优化集成极限学习机对电力系统的客户进行分类. 通过真实数据集上的实验表明, 在不同的分类指标下, 所提出的均衡优化集成极限学习机都具有良好的预测效果, 可为电力系统客户管理与服务提供有效的技术手段.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

CPU-GPU异构环境下的大规模商品知识查询处理

方创新, 宋浩, 林煜明, 周娅

2021 (5): 157-168. doi: 10.3969/j.issn.1000-5641.2021.05.014

摘要 ( 1169 )

HTML ( 36 )

PDF(943KB) ( 286 )

知识图谱是将无结构的知识进行结构化表示和组织的有效途径, 已经成为支持众多智能应用的基础设施. 然而, 与商品相关的知识通常呈现出海量性、异质性和层次性的特点, 这对现有基于关系模型和图模型的知识查询处理方法提出了挑战. 针对商品知识的这些特点, 本文设计与实现了一种利用CPU和GPU协同计算的商品知识查询处理方法. 首先, 为了充分发挥GPU的并行计算能力, 提出了一种基于稀疏矩阵的商品知识存储策略, 并针对商品知识进行存储优化; 其次, 根据稀疏矩阵的存储结构设计了一种查询转换方式, 将SPARQL查询转化为对应的矩阵计算, 并将连接查询算法扩展到GPU上进行加速. 为了验证所提出方法的有效性, 我们在LUBM数据集和一个半合成的商品数据集上进行了一系列的实验. 结果表明, 本文提出的方法, 不仅在海量商品知识下相对于现有RDF查询引擎在检索效率上有较大提升, 而且在通用的RDF标准数据集上也能取得较好的检索性能, 并验证了GPU加速查询处理的有效性.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

一种基于分级策略的电力营销大数据访问控制方案

张悦, 田秀霞, 颜赟成, 卢官宇

2021 (5): 169-184. doi: 10.3969/j.issn.1000-5641.2021.05.015

摘要 ( 857 )

HTML ( 33 )

PDF(1720KB) ( 483 )

随着科技的发展, 金融业信息化程度不断提高, 金融行业和电力营销平台在紧密结合的同时, 增加了用户与电力营销平台大数据(如客户基本档案数据、电能计量数据、电费回收数据等)的双向互动. 而这种双向互动增加了数据泄露的风险. 营销数据泄露会导致用电策略、电价等的错误制定, 从而给电力企业带来巨大经济损失, 严重影响电力企业的经济效益. 因此, 需要采用访问控制机制来满足电力营销系统数据交互的安全需求, 从而保障电力企业的经济效益. 提出了一个基于有序二元决策图(Ordered Binary Decision Diagram, OBDD)的密文策略、基于属性加密(Ciphertext Policy Attribute Based Encryption, CP-ABE)分级访问控制方案, 解决了访问远程终端单元共享数据权限控制自主性过高的问题, 并提高了数据访问的效率及安全性. 最后, 安全分析和性能分析表明, 所提访问控制方案相较于其他方案更高效安全.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

基于遗传算法的多目标货物配载研究

于萍, 胡卉芪, 钱卫宁

2021 (5): 185-198. doi: 10.3969/j.issn.1000-5641.2021.05.016

摘要 ( 1534 )

HTML ( 60 )

PDF(1063KB) ( 890 )

针对多目标货物配载问题, 建立了以最大化总订单货物重量、最小化车次总数、最小化货物装卸地总数为目标的配载模型, 提出了一种快速收敛的基于精英策略多目标遗传算法(Fast Convergence Based on the Elitism Genetic Algorithm, FEGA). 首先, 在遗传算法的基础上加入Pareto支配关系上的分层结构和精英保留策略, 从而提高种群的多样性, 同时还可以加快算法的局部搜索能力; 其次, 修改初始种群的随机结构, 并加入双种群策略, 添加自适应操作算子, 依次提高算法的全局搜索能力, 加速种群的收敛速度; 最后, 基于新算法, 利用真实的货物数据验证算法的可行性与优化效果. 结果表明, 与传统遗传算法相比, 所提算法在求解强约束条件、庞大搜索空间的货物配载过程中具有较好的优化效果, 搜索性能与收敛性都有所提升.

数据和表 | 参考文献 | 相关文章 | 计量指标

当期目录