华东师范大学学报（自然科学版）

Select

基于持久化内存和共享缓存架构的高性能数据库

王聪聪, 胡卉芪

2023 (5): 1-10. doi: 10.3969/j.issn.1000-5641.2023.05.001

摘要 ( 1101 )

HTML ( 31 )

PDF(1228KB) ( 409 )

云原生数据库的崛起, 使得共享缓存架构再度受到重视. 虽然共享缓存架构能够有效地解决多个读写节点间的缓存一致性问题, 但其他问题仍然存在, 例如持久化速度缓慢、维护缓存目录的延迟高、时间戳瓶颈等. 针对上述问题, 提出了一种基于共享缓存架构, 并结合新型硬件—持久化内存的解决方案, 从而构建了一个包括内存层、持久化内存层、存储层的三层共享架构数据库—TampoDB. 基于此架构, 重新设计了事务的执行流程, 并对时间戳和目录进行了优化, 以解决上述问题. 实验结果表明, TampoDB有效地提高了事务的持久化速度.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

数据同步机制自适应优化的HTAP数据库原型系统

俞融, 杨攀飞, 王清帅, 张蓉

2023 (5): 11-25. doi: 10.3969/j.issn.1000-5641.2023.05.002

摘要 ( 1323 )

HTML ( 16 )

PDF(2638KB) ( 280 )

在HTAP (hybrid transactional and analytical processing)数据库中, 资源隔离和数据共享是一个难题, 虽然不同厂商通过不同的架构来实现资源隔离, 但是用户关注的新鲜度, 即OLTP (online transaction processing)和OLAP (online analytical processing)读写版本的差距, 由数据共享的一致性模型决定. 然而, 现有的HTAP数据库为了节约成本, 只应用单一一致性同步模型, 这与用户应用的多种一致性需求之间存在矛盾, 为了满足用户需求的最高一致性而采取向上兼容的方案降低了系统的整体性能. 通过构建新鲜度与性能权衡的代价模型, 提出了一致性切换算法和切换前后同步数据的处理策略, 实现了一个顺序一致性同步与线性一致性同步自适应切换的HTAP数据库原型系统, 使得无需调整HTAP架构, 即可支持不同一致性(新鲜度)需求的查询负载并实现系统性能的最大化, 最后对自适应切换的有效性也进行了实验验证.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

面向存算分离架构的混合粒度缓存策略

梅文娟, 蔡鹏

2023 (5): 26-39. doi: 10.3969/j.issn.1000-5641.2023.05.003

摘要 ( 1194 )

HTML ( 15 )

PDF(1669KB) ( 319 )

存储计算分离方案已成为一种提高大规模数据处理性能及效率的系统架构, 但其存储层的访问效率低、网络开销大、对小文件不友好, 存在着极大的性能瓶颈. 基于MergeTree的数据库ClickHouse在数据存储过程中会产生很多小文件. ClickHouse和S3存算分离方案中文件粒度固定的SSD (solid state driver)缓存区不仅和内存数据不匹配, 还会造成缓存区空间浪费. 提出了一种面向存算分离架构的缓存管理方案HG-Buffer (hybrid granularity buffer), 旨在优化ClickHouse和S3的存储计算分离方案以及对象存储的小文件问题, 以提高缓存空间的利用率, 从而提高系统访问效率. HG-Buffer通过将SSD作为计算层和存储层之间的缓存层, 并将 SSD 缓冲区组织成两个粒度的缓冲区来实现: 对象缓冲区和块缓冲区。对象缓存粒度是对象存储中的数据粒度; 而块缓存粒度是系统访问数据的数据粒度, 其中块缓存粒度是对象缓存粒度的子集. HG-Buffer通过统计数据热度信息, 自适应地选择数据存储的位置, 以提高SSD空间的利用率, 从而提高系统性能. 在ClickHouse和S3上进行的实验评估证明了HG-Buffer的有效性和稳健性.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

存算分离架构下Part元数据的单独管理策略

刘丹琪, 蔡鹏

2023 (5): 40-50. doi: 10.3969/j.issn.1000-5641.2023.05.004

摘要 ( 1215 )

HTML ( 14 )

PDF(1081KB) ( 216 )

针对ClickHouse存在的硬件资源无法被充分利用、缺少弹性和节点启动过慢的问题, 在存算分离架构下, 提出了一套针对描述数据信息的元数据 (Part元数据) 的管理策略. Part元数据是元数据中最重要的组成成分. 为了能够有效管理远程共享存储上的数据, 采集了所有Part元数据文件, 并将其合并后, 经过键值映射、序列化和反序列化, 存入分布式键值数据库中. 此外, 还设计了一套同步策略, 以确保远程共享存储上的数据与分布式键值数据库中的元数据的一致性. 利用Part元数据管理策略及相关的同步策略, 实现了一个针对Part元数据的管理系统, 解决了ClickHouse节点启动过慢的问题, 并支持高效的节点动态扩缩容.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

基于模糊测试生成多样化的数据库隔离级别测试案例

卢皙钰, 刘维, 翁思扬, 李可强, 张蓉

2023 (5): 51-64. doi: 10.3969/j.issn.1000-5641.2023.05.005

摘要 ( 1174 )

HTML ( 9 )

PDF(2266KB) ( 306 )

在现代信息系统中, 数据库管理系统扮演着至关重要的角色. 隔离级别测试对数据库管理系统而言具有重要意义, 它确保并发操作的隔离性和数据的一致性, 从而防止数据损坏和安全风险的发生, 并为用户提供可靠的数据访问保障. 模糊测试是一种广泛应用于软件和系统测试的方法, 通过搜索测试空间并生成多样化的测试案例, 探索系统的边界条件、异常情况和潜在问题, 以发现可能的漏洞. 本文介绍了针对数据库隔离级别进行模糊测试的工具SilverBlade, 旨在提升生成测试案例的多样性, 深入探索隔离级别测试空间. 为了有效搜索庞大的测试空间, 设计了结构化的测试输入结构, 将测试空间拆分成并发事务组合和并发事务执行交互模式两个子空间进行搜索. 为了更全面地测试隔离级别核心实现测试空间, 还设计了基于深度和广度的自适应搜索方式, 用于有效变异测试案例. 实验结果表明, SilverBlade能够生成多样性的测试案例, 并能够在流行的数据库管理系统PostgreSQL中更广泛地覆盖数据库隔离级别核心实现代码. 与对比工具相比, SilverBlade在提高隔离级别关键区域的测试覆盖率方面表现更佳.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

FeaDB: 基于内存的多版本在线特征存储

高歌, 胡卉芪

2023 (5): 65-76. doi: 10.3969/j.issn.1000-5641.2023.05.006

摘要 ( 1000 )

HTML ( 12 )

PDF(1103KB) ( 258 )

特征管理是搭建人工智能数据管道中的重要一环. 特征存储要求在模型训练和推理阶段提供有效版本的特征推送服务. 为响应这一需求, 特征存储需要为特征实时更新和版本管理提供保证, 以协同上游的特征摄取, 为模型服务系统提供数据动力. 在人工智能辅助决策的在线预测任务中, 为了提供更好的用户体验, 模型服务系统需要实时响应决策请求, 实时特征检索面临更低延迟的挑战. 聚焦这一挑战, 开发基于内存的多版本在线特征存储FeaDB. 使用时间序列建模特征, 并提供特征版本管理语义, 满足特征从生产到消费的版本管理需求; 采用追加写方式保证实时特征加载性能, 设计基于版本的索引减少读延迟; 为进一步减小特征消费延迟, 提出版本快照机制, 实验证明采用快照读机制增加了特征集版本的检索效率.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

支持隐私保护的端云协同训练

高祥云, 孟丹, 罗明凯, 王俊, 张丽平, 孔超

2023 (5): 77-89. doi: 10.3969/j.issn.1000-5641.2023.05.007

摘要 ( 1453 )

HTML ( 23 )

PDF(2331KB) ( 477 )

我国在数据资源上具有规模化和多样化的优势, 在移动互联网数据应用上具有后发优势, 在丰富的应用场景下产生了海量数据, 推荐系统可以从大规模数据中挖掘有价值的信息, 缓解信息过载问题. 已有的工作聚焦于集中式推荐, 数据在云侧训练. 随着数据安全和隐私保护问题的日益突出, 从端侧设备收集用户数据变得越发困难, 这使得集中式推荐变得不可行. 以去中心化的方式, 利用端侧设备和云服务器的优势, 充分考虑数据安全与隐私保护问题, 面向推荐系统, 提出了一个基于联邦机器学习 (federated machine learning, FedML)与移动神经网络 (mobile neural network, MNN) 的端云协同训练方法FedMNN (federated machine learning and mobile neural network). 具体分为3部分: 首先, 将多种深度学习框架实现的云侧模型以ONNX (open neural network exchange)作为中间框架通过MNN模型转换工具转换成通用MNN模型供端侧设备训练; 然后, 云侧将模型下发给端侧设备, 端侧初始化后, 获取本地数据进行训练并计算损失, 再执行梯度反向传播; 最后, 端侧训练后的模型反馈给云侧, 通过联邦学习框架进行模型聚合与更新, 再根据不同需求, 将云侧模型按需部署到端侧设备上, 实现端云协同. 实验通过对比FedMNN和FLTFlite (flower and TensorFlow lite)框架在基准任务上的功耗, 发现FedMNN比FLTFlite低32% ~ 51%, 并以DSSM (deep structured semantic model)和Deep and Wide这2个推荐模型为例, 实验验证了端云协同训练的有效性.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

基于openGauss的异构算子加速技术

陈现森, 徐辰

2023 (5): 90-99. doi: 10.3969/j.issn.1000-5641.2023.05.008

摘要 ( 1169 )

HTML ( 9 )

PDF(1093KB) ( 243 )

GPU (graphics processing unit) 的高并行和高吞吐特性可以提高数据库OLAP (on-line analytical processing) 查询的性能. 然而目前openGauss无法利用GPU等异构计算硬件的优势. 因此旨在探索如何使用GPU加速该系统的OLAP处理过程, 以实现更高的性能. 针对openGauss与SQL为系统PostgreSQL名称的一部分，因此不能修改执行粒度的差异, 提出了基于分块读取和按键分发的CPU-GPU协同并行方案, 该方案可缩短GPU Scan算子的I/O (input/output) 时间以缩短GPU的空闲等待时间, 又可多实例运行GPU Join以支持多GPU环境. 针对openGauss与PostgreSQL体系结构的差异, 提出了兼容向量化引擎的异构算子加速技术, 实现了可嵌入向量化执行引擎的自定义算子框架, 基于此实现了可处理openGauss列式数据的向量化GPU Scan算子. 实现了原型系统, 验证了所提出方案的效果.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

基于UI图像的Web前端代码自动生成

葛进, 陆雪松

2023 (5): 100-109. doi: 10.3969/j.issn.1000-5641.2023.05.009

摘要 ( 2071 )

HTML ( 265 )

PDF(1748KB) ( 574 )

用户界面 (user interface, UI) 在应用程序与用户的交互中扮演了至关重要的角色. 当前移动互联网的普及, 已经使得基于Web (world wide web)的应用大规模从桌面端迁移到移动端, Web前端开发在应用程序的开发中愈加广泛和深入. 传统Web前端开发首先依赖设计人员给出设计稿, 然后由程序员编写相应的UI代码. 这种方式行业壁垒高、开发速度慢, 不利于产品的快速迭代. 深度学习的发展使得基于UI图像自动生成Web前端代码成为可能. 现有方法对于UI图像特征的捕捉能力较弱, 生成代码的准确性较低. 为了改善这些问题, 提出了基于Swin Transformer的Encoder-Decoder模型image2code, 用于从UI图像生成Web前端代码. image2code将从UI图像生成Web前端代码的过程视为图像描述任务的一种形式, 将包含滑动窗口设计的Swin Transformer作为模型编码器和解码器的骨干网络. 其中滑窗操作将注意力计算限制在一个窗口内, 减少了注意力机制的计算量, 同时保证了不同窗口间仍然有特征关联. 另外, image2code生成可以直接转换为HTML (hyper text markup language)代码的Emmet代码, 利用Emmet代码的简洁性提高模型训练的效率. 实验结果表明, 在已有公开数据集和新构建的数据集上, image2code在Web前端代码生成任务上的表现要优于pix2code和image2emmet等代表性模型.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

异构编码联邦学习

史洪玮, 洪道诚, 施连敏, 杨迎尧

2023 (5): 110-121. doi: 10.3969/j.issn.1000-5641.2023.05.010

摘要 ( 1013 )

HTML ( 8 )

PDF(1117KB) ( 181 )

异构联邦学习系统中的个人电脑、嵌入式设备等多种边缘设备, 存在资源受限的掉队者设备降低联邦学习系统训练效率的问题. 针对此问题, 本文提出了异构编码联邦学习(heterogeneous coded-based federated learning, HCFL)系统框架, 以实现: ①提高系统训练效率, 加快多掉队者场景下的异构联邦学习 (federated learning, FL)训练速度; ②提供一定级别的数据隐私保护. HCFL方案分别从客户端和服务器角度出发设计了调度策略, 以满足通用环境下多掉队者模型计算加速; 同时设计了线性编码计算方案(linear coded computing, LCC)为任务分发提供数据保护. 实验结果表明, 当异构FL中设备之间性能差异较大时, HCFL能够将训练时间缩短89.85%.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

基于并行深度森林的配用电通信网络异常流量检测

周政雷, 陈俊, 潘俊涛, 袁培森

2023 (5): 122-134. doi: 10.3969/j.issn.1000-5641.2023.05.011

摘要 ( 968 )

HTML ( 7 )

PDF(1167KB) ( 218 )

随着网络攻击手段的不断发展, 配用电通信网络安全防护面临严峻挑战. 为解决配用电通信网络异常流量检测效率低、检测精度不足的问题, 从特征提取和流量分类这两个方面进行改进研究, 提出了一种配用电通信网络异常流量检测的新方法. 在特征提取方面, 使用时频域特征提取方法, 采用自适应冗余提升多小波包变换快速提取频域特征, 结合配用电网络通信特点提取时域特征; 在流量分类检测方面, 提出了基于分布式计算框架的并行深度森林分类算法, 并对训练与分类任务调度策略进行了优化. 使用终端流量及常用异常流量检测数据集进行实验, 结果表明所提方法对配用电网络异常流量检测的误报率仅为2.63%, 准确率可达98.29%, 并且深度森林并行计算能均衡地分配任务, 显著地加速了训练与分类过程.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

基于Autoformer的电力负荷预测与分析研究

唐利涛, 张智勇, 陈俊, 许林娜, 钟佳晨, 袁培森

2023 (5): 135-146. doi: 10.3969/j.issn.1000-5641.2023.05.012

摘要 ( 1439 )

HTML ( 24 )

PDF(1298KB) ( 1599 )

新一代电网是未来智能电网发展的主要方向, 而电力负荷精准预测是智能电网的一项重要基础工作. 为了提高智能电力系统负荷预测的精确度, 本文基于自相关机制的预测模型Autoformer, 对负荷数据集进行了特性分析, 在原模型中加入特征提取层, 从编码层数、解码层数、学习率和批量大小等方面优化了模型参数, 实现了周期灵活的负荷预测. 在真实数据集上进行了实验和分析, 实验结果表明, 本文模型在预测效果上表现更好, MAE (mean absolute error)和MSE (mean squared error)分别为0.2512和0.1915, 决定系数为0.9832. 与其他方法相比, 本文方法负荷预测效果更好.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

基于空间域和频率域方法的烟雾检测

盛连军, 汤致轩, 茅晓亮, 白帆, 黄定江

2023 (5): 147-163. doi: 10.3969/j.issn.1000-5641.2023.05.013

摘要 ( 1155 )

HTML ( 9 )

PDF(3802KB) ( 216 )

变电站等工业场景中, 基于监控视频的视觉烟雾检测已被作为一种新的环境辅控方式, 用于辅助或代替基于烟雾传感器的烟雾检测. 但是, 工业应用中要求视觉烟雾检测算法在保证误检率低的基础上, 要尽可能降低漏检率. 针对该问题, 基于空间域和频率域方法, 提出了一种新的烟雾检测算法, 分别在空间域和频率域进行烟雾检测: 在空间域上, 在提取烟雾运动特性的基础上, 设计了提取烟雾“蒙版特性”的方法, 以保证较低的漏检率; 在频率域上, 分别结合滤波模块和神经网络模块, 以进一步降低误检率. 最后通过融合后处理策略, 得到最终检测结果, 从而平衡漏检率和误检率. 在测试数据集上, 所提烟雾检测算法的误检率达到了0.053, 漏检率达到了0.113, 实现了误检率和漏检率的良好平衡. 所提检测方法适用于变电站等实际工业场景的烟雾检测.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

基于Data Fabric的多模数据管理方法

郑新俊, 田国良, 黄飞虎

2023 (5): 164-181. doi: 10.3969/j.issn.1000-5641.2023.05.014

摘要 ( 1279 )

HTML ( 19 )

PDF(804KB) ( 353 )

随着政府和企业在信息化向数字化演进历程中信息化程度的加深, 各类应用系统生成的数据日益多模化、多源化、海量化, 这对数据管理造成了新的挑战. 为了解决这些挑战, 数据管理领域涌现出了许多新的技术和理念, 其中Data Fabric (数据编织) 便是一种新兴的数据管理技术和方法, 它将分布式数据存储、处理和应用整合为一个整体, 并提供了一套可视化的接口进行管理. 本文首先分析了Data Fabric的技术架构、技术特点、技术价值和对多模数据进行管理与应用的完整流程. 其次, 提出了基于时序指标的多模多源数据的异常监测方法、基于日志数据的多模多源数据的异常监测方法, 它们通过Data Fabric技术的使用, 处理速度分别提高了33.3%和42.2%, F1-score分别提高12.2个和14.8个百分点, 进一步说明了Data Fabric技术和本文新提出方法的高效性和应用价值.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

新型电力系统中基于人工免疫和隐马尔可夫的网络安全态势评估

徐植, 陈俊, 张智勇, 万俊岭, 袁培森

2023 (5): 182-192. doi: 10.3969/j.issn.1000-5641.2023.05.015

摘要 ( 902 )

HTML ( 7 )

PDF(1141KB) ( 212 )

高级计量体系是新型电力系统建设的重要组成, 然而高级量测系统依赖于网络信息基础设备, 存在较大的安全问题. 本文基于隐马尔可夫模型并结合人工免疫算法对高级量测系统的网络安全态势进行了评估. 首先, 采用计数器算法来获取电力网络中的安全观测数据; 其次, 通过隐马尔可夫模型描述网络安全状态的变化过程, 并利用人工免疫算法计算不同状态之间的转移概率矩阵; 接着, 利用态势评估误差对状态转移矩阵进行修正; 最后, 通过计算得到不同时刻处于不同安全状态的概率, 再结合风险损失向量最终得到安全态势评估值. 实验表明, 该方法具有较好的评估效果, 能够较为准确地捕获到系统中存在的安全缺陷, 从而保证高级量测系统的安全运行; 准确地发现系统中的相关安全缺陷, 从而保证新型电网环境安全、平稳和可靠地运转.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

基于残差网络和深度可分离卷积增强自注意力机制的窃电识别

段志尚, 冉懿, 吕笃良, 祁杰, 钟佳晨, 袁培森

2023 (5): 193-204. doi: 10.3969/j.issn.1000-5641.2023.05.016

摘要 ( 1439 )

HTML ( 13 )

PDF(1288KB) ( 278 )

窃电行为严重危害着电力设备和人身安全, 并造成重大经济损失. 对窃电行为实现准确识别是供电企业降损增效的一项重要工作. 在残差网络 (residual network, ResNet) 结构的基础上, 将二维卷积神经网络与深度可分离卷积增强的自注意力 (depthwise separable convolution enhanced self attention, DSCAttention) 机制相结合并构建模型, 用于提升窃电用户的正确分类. 此外, 由于窃电数据常存在缺失值、异常值和正负样本不平衡的问题, 故采用补零法、分位数变换和分层拆分法对以上问题分别处理. 在真实窃电数据集上进行了大量实验, 实验结果表明, 所提模型的AUC指标达到了91.92%, MAP@100指标达到了98.58%, MAP@200指标达到了96.77%. 与其他窃电分类模型相比, 所提模型在窃电分类任务上亦有很好的表现, 可以在窃电智能化识别中推广使用.

数据和表 | 参考文献 | 相关文章 | 计量指标

当期目录