华东师范大学学报（自然科学版）

Select

“数智供应链与物流科技”专辑导读

2022 (5): 0-II.

摘要 ( 331 )

HTML ( 19 )

PDF(217KB) ( 231 )

参考文献 | 相关文章 | 计量指标

Select

“数智供应链与物流科技”专辑编委会

2022 (5): 0-III.

摘要 ( 117 )

HTML ( 13 )

PDF(95KB) ( 97 )

参考文献 | 相关文章 | 计量指标

Select

化工材料配方的实验数据治理模块设计

郁毅明, 洪语晨, 王晔, 董启文

2022 (5): 1-13. doi: 10.3969/j.issn.1000-5641.2022.05.001

摘要 ( 1444 )

HTML ( 13 )

PDF(3115KB) ( 745 )

当前, 数据要素是新型的生产要素, 对数据进行有效治理和管控将成为企业发展的关键. 作为国民经济生产的重要组成部分, 化工材料行业需要根据自身建设的需求对数据信息化系统进行升级. 因此, 针对化工材料行业中如何治理实验配方数据提出了一套量身定制的数据治理模块. 首先, 该数据治理模块根据企业当前业务场景提出相应的数据标准和规范, 系统从前端获取数据, 经过质量提升并存储到数据库; 然后, 又从后端进行数据价值评估返回前端到展示, 形成了一个闭环负反馈的系统.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

多源数据辅助材料研发的数据应用系统

洪语晨, 郁毅明, 王晔, 董启文

2022 (5): 14-25. doi: 10.3969/j.issn.1000-5641.2022.05.002

摘要 ( 1282 )

HTML ( 13 )

PDF(945KB) ( 237 )

材料研发行业在生产过程中产生的数据类型多样, 数据来源于不同系统, 涉及流程多, 面临数据孤岛等问题, 需要一个集数据收集、管理与应用于一体的数据应用系统推动其数字化转型, 发挥数据价值, 驱动行业创新变革. 本文针对以上问题, 设计了面向材料研发领域的数据应用系统, 覆盖了材料研发领域中从数据采集到数据存储的完整数据管理流程, 并且能够有效支撑“专题数据库”“配方性能预测”及“配方相关性分析”等材料研发数据应用, 推动材料研发行业以数据驱动创新发展.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

基于查询频率的混合事务分析处理数据同步优化

唐永金, 孙家博, 蔡鹏

2022 (5): 26-35. doi: 10.3969/j.issn.1000-5641.2022.05.003

摘要 ( 1318 )

HTML ( 11 )

PDF(865KB) ( 562 )

混合事务分析处理 (Hybrid Transaction Analytical Processing, HTAP) 系统需要同时支持事务处理和查询分析两种工作负载. 为了消除这两种负载之间的干扰, HTAP系统会为这两种负载指定不同的数据副本, 分别处理OLTP (Online Transaction Processing) 和OLAP (Online Analytical Processing) 请求, 并基于日志回放进行副本之间的数据同步. HTAP系统致力于同步OLTP数据到OLAP端以提供更新鲜的数据查询服务, 日志的发送与回放速度是影响数据新鲜度的关键因素. 本文在基于表分组的日志并行回放方法的基础上, 针对HTAP负载特点, 提出基于OLAP端查询频率的日志发送与回放方法. 在保障数据一致性的前提下, 本文所提出的方法提升了高频查询表日志的处理优先级, 最终实现高效的日志发送、日志回放以及针对性的高频查询表数据优先展示, 保证了HTAP系统数据的新鲜度.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

钢材区块链质保书研发及供应链应用

杨英杰, 秦钢, 陈淑刚, 尹芙蓉, 张召, 金澈清

2022 (5): 36-47. doi: 10.3969/j.issn.1000-5641.2022.05.004

摘要 ( 1531 )

HTML ( 12 )

PDF(1148KB) ( 365 )

利用联盟区块链对接钢厂的智慧制造系统, 基于钢厂提供的第一手、真实、不可篡改的质保书数据, 实现钢材产成品质保书在线生成和分拆, 可向下游多级经销商和终端用户提供区块链质保书, 满足钢材交易多级流转的实际情况. 基于智能合约实现质保书数据存证、质保书权限转让、质保书履历记录等功能, 解决传统纸质钢材质保书的篡改伪造问题, 实现钢材质保书电子化, 可扫码在链上核查质保书真伪, 节省各方打印、邮寄、保存的成本. 实验证明了系统的高效性和高可用性.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

查询优化器连接顺序评估

陈婷, 项兆坤, 徐金凯, 张蓉

2022 (5): 48-60. doi: 10.3969/j.issn.1000-5641.2022.05.005

摘要 ( 1613 )

HTML ( 23 )

PDF(1151KB) ( 871 )

连接顺序选择问题, 即从连接顺序搜索空间中选出性能最优的连接顺序, 是关键的查询优化问题. 然而, 连接顺序的选择存在庞大的搜索空间, 导致其成为难点问题, 优化器往往无法确保找到最佳的连接顺序. 虽然目前存在许多连接顺序选择策略, 但是, 现有的评测基准不适用于评估各种连接顺序选择策略的优劣. 为了有效地评估优化器在连接顺序选择方面的优化效果, 本文基于确定性数据生成方法, 采用适用于不同连接形状的连接模板生成算法和基于结果导向的参数实例化方法, 生成评测场景的数据与负载, 实现了通用的优化器连接顺序选择评估工具. 通过对OceanBase和PostgreSQL进行评测, 表明本文所提出的工具能够全面且有效地评估查询优化器的连接顺序选择功能的性能.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

面向教育的区块链应用合约架构和数据隐私研究

黄超然, 佟兴, 张召, 金澈清, 杨英杰, 秦钢

2022 (5): 61-72. doi: 10.3969/j.issn.1000-5641.2022.05.006

摘要 ( 1530 )

HTML ( 19 )

PDF(1378KB) ( 702 )

针对教育应用升级受限问题, 本文提出了高效的完全解耦合的智能合约架构. 将合约解耦合为代理逻辑合约、代理数据合约、逻辑合约和数据合约, 支持任意子合约的灵活升级, 升级成本与传统合约升级相比平均下降28.2%; 结合链上链下协作优化了解耦合合约架构下的交易执行性能, 结合区块链底层存储树减少了合约升级时数据的迁移量, 优化后降低约一半的延时. 针对教育数据隐私安全问题, 本文提出了基于权限管理和LDP (Local Differential Privacy)的隐私数据保护方案, 提高了数据隐私的安全性, 同时对区块链的性能几乎无影响. 最后将上述方案集成落地, 实现了一个由可信知识交流社区与学生成长系统构成的教育类平台.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

云数据库运行环境的动态模拟

游舒泓, 苏仟, 张蓉

2022 (5): 73-89. doi: 10.3969/j.issn.1000-5641.2022.05.007

摘要 ( 1052 )

HTML ( 10 )

PDF(1611KB) ( 421 )

提出了一种全面、通用的数据库运行环境动态模拟工具, 可在常规及极端情况下从多种资源的维度实现对运行环境准确、高效的模拟. 该工具可以方便用户定制所需的测试场景, 降低数据库测试工作难度, 提高测试效率, 更好地实现评测结果的可参照性. 实验使用了自定义的负载场景, 展示了该工具的优越性.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

数据驱动的开源软件供应链可维护性风险分析方法

孙晴, 梁冠宇, 武延军, 武斌, 田春岐, 王伟

2022 (5): 90-99. doi: 10.3969/j.issn.1000-5641.2022.05.008

摘要 ( 1530 )

HTML ( 18 )

PDF(779KB) ( 496 )

软件供应链的使用始终穿插在软件系统研发过程当中, 近年来关于软件供应链的安全事件频发, 软件供应链安全已然成为了一个全球性问题. 软件可维护性作为软件质量的重要属性之一, 反映了软件维护活动的难易程度. 软件供应链的开源趋势逐渐流行, 但对开源软件供应链的可维护性研究还处于起步阶段. 基于以上考虑, 本文结合传统软件维护性风险研究方法, 探究了开源软件维护性风险特有的分析视角, 并提出了一个开源软件供应链维护性质量模型. 该模型通过16种度量指标分别对团队健康、软件活跃度、依赖影响力、测试完整度、外部依赖度和可理解性等9种软件属性类进行度量以反映开源软件供应链的可维护性. 同时基于GitHub托管平台和npm (Node.js 标准的软件包管理器) 子生态数据 (包括软件信息、依赖关系、各个软件在开发过程中产生的行为数据等), 对同一时间内不同软件的可维护性指标进行对比计算, 验证了本文所提出方法的合理性. 因此, 使用本文所提出的可维护性质量模型可以有效地对开源软件供应链进行可维护性评估, 帮助和指导软件的设计与重构, 进而开发出更高质量的软件系统.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

疫情背景下快递物流服务的用户行为画像及主题挖掘研究

李继玲, 李宝林, 严宋如

2022 (5): 100-114. doi: 10.3969/j.issn.1000-5641.2022.05.009

摘要 ( 1637 )

HTML ( 20 )

PDF(1321KB) ( 606 )

基于微博2019年11月11日—2022年5月12日的快递物流博文数据, 对疫情背景下快递物流服务的用户行为进行画像, 以扎根理论为理论框架, 结合抽象聚类方法抽象出5种用户行为、22个主题内容, 并生成相应的用户画像. 论文进一步探讨了主题的内容、主题的演化和群体的差异性. 结果表明: ① 用户对快递物流服务的满意行为单一; ② 用户的不满意行为多样化, 存在明显的升级性; ③ “运输效率”和“物流保障”是影响快递物流服务评价的主要因素; ④ 疫情的发展变化影响用户主题内容呈现的关注点和态度;⑤ 主题内容具有明显不同程度的群体差异.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

基于隐层相关联算子的知识蒸馏方法

吴豪杰, 王妍洁, 蔡文炳, 王飞, 刘洋, 蒲鹏, 林绍辉

2022 (5): 115-125. doi: 10.3969/j.issn.1000-5641.2022.05.010

摘要 ( 1009 )

HTML ( 12 )

PDF(1351KB) ( 366 )

近年来, 卷积神经网络已经在人工智能领域取得了巨大成功, 例如, 区块链、语音识别、图像理解等. 然而, 随着模型准确率的不断提高, 与之伴随的是网络模型计算量与参数量的大幅增长, 从而带来了诸如处理速度小, 内存占用大, 在移动端设备上难以部署等一系列问题. 知识蒸馏作为一种主流的模型压缩方法, 将教师网络的知识迁移到学生网络中, 从而在不增加参数量的情况下优化学生网络的表现. 如何挖掘具有代表性的知识表征进行蒸馏成为了知识蒸馏领域研究的核心问题. 本文提出了一种新的基于模型隐含层相关联算子的知识蒸馏方法, 借助数据增强方法准确捕获了图像特征在网络中间层每个阶段的学习变化过程, 利用相关联算子对该学习过程进行建模, 从而在教师网络中提取出一种新的表征信息用于指导学生网络训练. 实验结果表明, 本文所提出的方法在CIFAR-10、CIFAR-100两种数据集上, 相较于目前最优方法均取得了更好的性能.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

基于多维特征表示的文本语义匹配

王明, 李特, 黄定江

2022 (5): 126-135. doi: 10.3969/j.issn.1000-5641.2022.05.011

摘要 ( 1138 )

HTML ( 20 )

PDF(750KB) ( 781 )

文本语义匹配是很多自然语言处理任务的基础. 在很多场景中都需要文本语义匹配技术, 如搜索、问答系统等. 在实际运用场景中, 对文本语义匹配的效率有很高的要求. 虽然表征学习型语义匹配模型相较于交互型模型的准确率有所下降, 但效率极高. 而表征学习型语义匹配模型提升性能的关键是抽取具有高层语义特征的句向量. 针对该问题, 本文在ERINE模型的基础上, 设计了特征融合模块及特征抽取模块, 以获取具有多维语义特征的句向量, 并通过设计语义预测的损失函数, 进一步提升模型获取语义信息的性能, 从而提高文本语义匹配的准确率. 最终在百度千言文本相似度数据集上的准确率达到85.1%, 表现出较好的性能.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

小样本实例分割综述

周雪茗, 黄定江

2022 (5): 136-146. doi: 10.3969/j.issn.1000-5641.2022.05.012

摘要 ( 2149 )

HTML ( 42 )

PDF(968KB) ( 982 )

实例分割是计算机视觉领域中的一项重要任务, 近年来元学习和小样本学习的发展推动了小样本与计算机视觉任务的结合, 突破了对人工标注难、标注成本高的目标检测与分类瓶颈. 虽然在小样本图像分类、小样本语义分割和小样本目标检测上都取得了较大的发展, 但是基于小样本学习的实例分割近年来才成为研究热点. 从小样本实例分割的相关概念出发, 对现有小样本实例分割方法, 按照基于锚框和无锚框两类分别进行了系统性的概述, 并介绍了小样本实例分割常用的数据集及评价指标. 通过对算法性能和优缺点的分析对比, 以及研究现状的整理归纳, 对小样本实例分割未来发展方向和面临的挑战进行了展望.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

基于订单拆分的容量限制商超配送路径规划

潘晓, 鹿冬娜, 王书海

2022 (5): 147-164. doi: 10.3969/j.issn.1000-5641.2022.05.013

摘要 ( 1347 )

HTML ( 16 )

PDF(1605KB) ( 792 )

针对商超配送中多种配送方式共同面临的车辆配载和路径规划问题, 考虑配送车辆容量限制, 以最小化配送总成本为目标, 构建了基于订单拆分的带容量限制商超配送路径规划模型. 结合真实案例, 提出了一种增加遗传变异操作的改进灰狼优化算法. 通过与遗传算法的对比, 验证了模型和算法的有效性. 案例分析结果表明, 当总商超客户需求量接近车辆容量的整数倍时, 基于订单拆分配送路径规划更能够充分地利用车容量, 降低车辆的空驶率, 减少配送总成本.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

基于自注意力机制的钢铁物流运力预测

苗晓变, 廖家俊, 梅华杰, 冯冲, 毛嘉莉

2022 (5): 165-183. doi: 10.3969/j.issn.1000-5641.2022.05.014

摘要 ( 1078 )

HTML ( 18 )

PDF(4652KB) ( 488 )

运力预测在大宗物流中发挥着关键作用, 对提高运力调度与车货匹配的精准性具有重要意义. 网约车运力预测目标为预测未来时段内可用车辆的数量; 而大宗物流的运力预测任务旨在预估未来时段内不同货运流向的空闲车辆信息 (如车辆ID(Identity Document)), 这与货车是否能在预计时间内返回钢厂 (称为运力可达性) 紧密相关. 以钢铁物流为例, 需要考虑由钢厂运输货物至客户企业以及从客户企业返回钢厂这两段行程耗时的影响. 由于长途运输过程中货车需要多次停留但停留时长不等, 停留时间的不确定使准确预测运输送达时间面临挑战; 此外, 网络货运平台仅对钢厂的货运任务进行运力指派, 货车返程货源则由司机自行联系确定, 导致返程轨迹缺失, 为预测货车返回钢厂的时间带来挑战. 为解决上述挑战, 基于物流企业的运单、车辆、轨迹以及运输终点等数据集, 提取货车的停留行为特征、运输终点特征、环境特征等, 并引入自注意力机制分别获取不同特征对两段行程耗时影响的权重, 进一步提升运力可达性预测的精度. 在此基础上, 提出了基于自注意力机制的运力预测方法, 包括基于历史流向相似性的运力候选集生成、基于自注意力机制的运力可达性预测、基于长短期记忆网络 (Long Short-Term Memory, LSTM) 模型的运力承运流向预测等3个部分. 最后, 在真实数据集上进行了大量对比实验. 实验结果表明, 所提方法具有更高的预测精度, 能为大宗物流的运力调度优化等任务提供强有力的决策支持.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

基于查询代价的两级轨迹数据划分算法

刘梦男, 许建秋

2022 (5): 184-194. doi: 10.3969/j.issn.1000-5641.2022.05.015

摘要 ( 1190 )

HTML ( 10 )

PDF(1102KB) ( 221 )

轨迹数据具有规模大、更新频繁的特点, 对轨迹数据的查询具有较高的性能要求. 为了提高轨迹数据的查询效率, 提出了两级轨迹数据划分算法: 在第一级划分中, 使用基于优化最小边界矩形(Minimum Bounding Rectangle, MBR)的轨迹数据划分方法将轨迹数据划分为子轨迹, 以提高轨迹数据的近似效果; 在第二级划分中, 按照时空范围, 使用网格结构对子轨迹进行分组. 基于划分算法提出了R-tree结点组织方法, 将划分后的轨迹数据自底向上地构建R-tree. 通过实验展示了所提的划分算法对查询效率的提升. 实验表明, 与基于轨迹段平均个数和基于组合运动特征这两种轨迹数据划分算法相比, 所提算法具有更好的查询性能, 查询效率分别平均提升了43.0%和30.5%.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

基于钢铁物流数据的索引与查询技术研究

邹韬, 钱荣涛, 毛嘉莉

2022 (5): 195-207. doi: 10.3969/j.issn.1000-5641.2022.05.016

摘要 ( 1906 )

HTML ( 10 )

PDF(1940KB) ( 715 )

随着钢铁物流的数字化转型发展, 钢铁物流数据的规模也迎来快速增长, 传统的关系型数据库已无法满足海量钢铁物流数据的存储与查询需求. 考虑分布式NoSQL (Not Only Structured Query Language) 数据库具有扩展简单、读写速度快且成本低的特点, 本文利用分布式云存储与NoSQL技术, 对海量钢铁物流数据进行存储并构建索引, 以提高对物流数据的存储能力与查询性能. 首先, 利用Spark对不同来源的数据进行关联与融合, 再将货运平台产生的历史数据与实时数据分级存储管理; 然后, 针对钢铁运输中主要涉及的3类查询构建时空索引和属性索引, 实现对多源物流数据的高效查询; 最后, 基于钢铁物流真实数据的实验结果表明, 本文所提出的方案在数据写入、存储和查询等方面优于传统关系型数据库的索引查询方法, 能够有效支撑海量物流数据的存储和查询.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

基于故障预测的树结构电网最小代价修复问题及相应算法

蔡阳, 唐丹红, 陈佳俊, 徐之欣, 杨礼孟, 王明, 周雪茗, 黄定江

2022 (5): 208-218. doi: 10.3969/j.issn.1000-5641.2022.05.017

摘要 ( 916 )

HTML ( 7 )

PDF(1412KB) ( 399 )

提出了一种基于LSTM (Long Short-Term Memory) 的电网故障预测及树结构电网最小代价的电网修复操作生成算法, 利用庞大的历史数据对可能发生的异常进行预测, 能够有效进行故障处理的预演; 然后利用基于动态规划的最小代价的修复操作序列生成, 能够迅速生成有效的操作票的序列. 该研究成果可以有效降低调度错误率, 提高调度效率, 缩短电网系统故障时间, 从而减轻由此导致的经济损失.

数据和表 | 参考文献 | 相关文章 | 计量指标

Select

基于Transformer的多特征融合的航空发动机剩余使用寿命预测

马依琳, 陶慧玲, 董启文, 王晔

2022 (5): 219-232. doi: 10.3969/j.issn.1000-5641.2022.05.018

摘要 ( 2500 )

HTML ( 60 )

PDF(1754KB) ( 1319 )

发动机作为飞机的核心部件, 对飞机运行起着至关重要的作用. 对航空发动机做准确的剩余使用寿命预测, 能够提前进行维护诊断, 预防重大事故的发生, 节约维护成本. 针对现有的方法缺乏对不同时间步长的考虑以及不同传感器和操作条件之间关系的研究, 提出了一种基于Transformer的多编码器特征输出融合的航空发动机剩余使用寿命预测方法. 该方法选取两个不同时间长度的输入数据, 使用排列熵对传感器之间的关系进行分析, 并将操作条件数据独立提取特征. 在广泛使用的航空发动机CMAPSS(Commercial Modular Aero-Propulsion System Simulation)数据集上进行了实验验证. 实验结果表明, 该方法优于现有的先进预测方法, 可有效提高预测精度.

数据和表 | 参考文献 | 相关文章 | 计量指标

当期目录