华东师范大学学报（自然科学版）

Select

“新型互联网应用中的数据管理技术”专辑导语

2018 (5): 1-2.

摘要 ( 518 )

HTML ( 169 )

PDF(266KB) ( 1288 )

互联网的飞速发展正在深刻影响着社会和经济的方方面面。从搜索引擎到电子商务、从在线广告到即时消息、从数字娱乐到在线教育、从移动支付到分享经济，互联网应用已经改变了我们的娱乐、社交、购物、物流、出行、支付等等方面，并对金融、电信、制造、能源、零售等行业的变革产生了深远影响。数据是行业变革的动力来源。传感器和终端技术的发展使得数据收集更为便捷；通信网络技术的进步使得数据传输更加廉价、快速；新兴存储介质和设备的出现不仅降低了数据存储成本，还极大提升了数据访问性能。上述技术的进步使得数据资源被快速累积起来。海量数据资源的管理、分析和应用是企业和机构提升核心竞争力、服务水平和政府提高治理水平的关键之处。在教育、金融、电信、政府治理等领域，亟需高可用、高可靠、高性能的数据管理技术和系统功能来管理海量、多源、异构、分布数据。
本期专辑围绕“新型互联网应用中的数据管理技术”这个主题，在全国范围内征集稿件，受到了学术界的广泛关注。经过专辑编委员会的认真评阅，共收录了16篇高质量学术论文。这些稿件分别来自国内6个高校，包括上海交通大学、云南大学、桂林电子科技大学、南京农业大学、上海电力学院、华东师范大学等。根据主题不同，将这些论文划分为3个类别：综述论文（4篇）、高性能数据库管理（5篇）、新型互联网应用技术（7篇）。
4篇综述论文分别从不同角度回顾了各研究领域的现有工作，并展望未来。余若男等人认识到场景文字检测问题深受目标检测和图像分割算法发展的影响，介绍了近年来场景文字检测工作进展，比较分析了各算法的优点及不足，并总结了相关的基准数据集和评价方法；汤路民等人列举了非干预式感知的个性化学业求助资源推荐研究状况，并展望了未来研究方向，包括学业求助非干预式感知、学业求助多源异构数据分析，以及学业求助资源个性化推荐方法；涂云山等人综述了面向新硬件的数据处理软件技术，从计算、传输、存储这3个方面讨论了面向新型硬件的数据处理软件技术，梳理和分析了相关工作，总结概述了已取得的进展，分析了存在的问题和挑战；李娜等人综述了在异构网络中的实体匹配技术的研究现状与进展，特别是针对海量数据的可扩展实体匹配方法，包括运用监督学习和非监督学习这两类技术。
5篇关于高性能数据库管理的论文分别从查询、存储、分布式协议、系统等角度开展研究。徐石磊等人研究了OLAP应用中常见的分组聚合问题，根据分布式数据库多副本的特点提出了并行实现方案，并在开源数据库系统上得以实现；俞文谦等人认识到列存储技术能够有效提高I/O效率、优化分析处理性能，提出了一种面向Cedar系统的列存储机制，分析了其适用场景并针对这种机制改进了Cedar的数据扫描和批量更新方法；黄建伟等人认识到在分布式和并发的环境中实现主键维护功能还要面临主键唯一性约束、事务性维护、高处理性能的挑战，提出了一种在分布式日志结构数据库系统中高效维护主键的方法；赵春扬等人详细介绍了经典的分布式一致性协议以及在目前常见的几种分布式数据库系统中一致性协议的应用，从读写操作、节点类型与网络通信等方面进行了对比与分析；贺小龙等人认识到在高性能硬件上重新设计与实现事务型数据库系统的重要性，介绍了在大内存、多核环境下事务型数据库系统的新近研究工作，并结合开源数据库系统OceanBase介绍了新型OLTP系统的设计方案。
7篇关于新型互联网应用技术的论文中，徐阳等人认识到在基于位置服务应用中将会产生海量空间文本数据，提出了基于Spark的两层索引框架，采用分阶段过滤的策略来处理空间文本查询，执行性能较高；田福粮等人提出了一个基于区块链的智能电表身份认证方案，保证了交易的完整性和有效性；齐学成等人设计实现了基于区块链的仓单管理系统，确保标的仓单的准确性和真实性，该系统构建倒排索引以提高查询效率，且支持复杂查询；张衡等人提出了一种提前终止策略，可提前判断两个文本是否满足预先设定的相似度阈值，将该技术应用到题库判重应用中能够显著减少计算时间；唐海波等人提出了一种基于K-Means的平衡约束聚类算法，修改了K-Means算法每次迭代中数据点的分配策略，从而可对每个簇可包含的数据点数目上限进行约束；袁培森等人提出了一个深度哈希算法，通过获取符合哈希编码规范的位编码实现对商标图像数据快速检索；麻友等人针对社会媒体数据的非结构、多主题特征，基于LDA模型挖掘数据中的隐含主题，利用数据特征词序列和知识图谱描述的实体及实体间的关联关系，实现对特定领域数据的抽取。
最后，谨在此感谢各位作者为专辑提供优质稿源，感谢各位评审专家，特别感谢华东师范大学学报编辑部自然科学版各位老师在收稿、审稿、校稿过程中的大力支持和辛勤工作。新型互联网应用是大数据应用领域的重要组成部分，希望本专辑能为新型互联网应用中的数据管理问题、研究进展和技术发展趋势等提供一个技术窗口，推动相关领域的研究进展和应用实施。

相关文章 | 计量指标

Select

基于深度学习的场景文字检测研究进展

余若男, 黄定江, 董启文

2018 (5): 1-16. doi: 10.3969/j.issn.1000-5641.2018.05.001

摘要 ( 1202 )

HTML ( 78 )

PDF(3451KB) ( 1271 )

在大数据驱动应用的背景下，随着计算机硬件性能的提高，基于深度学习的目标检测和图像分割算法冲破了传统算法的瓶颈，成为当前计算机视觉领域的主流算法.而场景文字检测任务受到目标检测和图像分割算法发展的影响，近年来也有了极大的突破.这篇综述的目的主要有3个方面：介绍近5年场景文字检测工作进展；比较分析先进算法的优点及不足；总结该领域相关的基准数据集和评价方法.

参考文献 | 相关文章 | 计量指标

Select

基于非干预式感知的个性化学业求助资源推荐研究进展

汤路民, 余若男, 董启文, 洪道诚, 傅云斌

2018 (5): 17-29. doi: 10.3969/j.issn.1000-5641.2018.05.002

摘要 ( 914 )

HTML ( 11 )

PDF(1505KB) ( 801 )

现代信息技术提供的强大移动终端、数据存储和计算平台，极大地促进了信息技术和教育学科的深度融合，有利地推动了"教育信息化2.0行动计划"的实施，也为研究学业求助提供了坚实的技术保障.借助多种新型的感知机理和实现技术，建立日常教学实践活动中非干预式的学业求助行为感知和分类，使实现自适应个性化的学业求助资源推荐成为可能.本文针对非干预式感知的个性化学业求助资源推荐研究状况，展开具体分析，并针对未来可能研究进行了展望：学业求助非干预式感知、学业求助多源异构数据分析、以及学业求助资源个性化推荐方法.以上研究内容充分利用和发挥了现代信息技术的优势，探索其在学业求助应用场景下切实可行的途径和方法.有利于实现对学习者学业求助需求的精准定位并提供自适应个性化的资源推荐，贯彻了我国教育信息化2.0建设中的精准教育理念，具有理论和实际的双重意义.

参考文献 | 相关文章 | 计量指标

Select

面向新硬件的数据处理软件技术

涂云山, 储佳佳, 张耀, 翁楚良

2018 (5): 30-40,78. doi: 10.3969/j.issn.1000-5641.2018.05.003

摘要 ( 1044 )

HTML ( 17 )

PDF(978KB) ( 1904 )

近年来，计算机硬件技术飞速发展，取得了显著的进步，一些高性能、低时延的新型硬件技术不断涌现，如：异构的处理器、可编程的高速网卡/交换机、易失/非易失的存储器等，给传统的计算机体系结构和系统带来新的机遇和挑战.然而，在大数据处理中，直接将传统的软件技术应用到新型硬件上很难发挥出硬件技术突破所带来的全部潜在性能.因此，这就促使我们重新思考传统的软件技术，以便可以释放硬件进步带来的全部红利.本文从计算、传输、存储三个方面讨论了面向新型硬件的数据处理软件技术，梳理和分析了该领域中的相关工作，总结概述已取得的进展，分析存在的新问题和挑战，从而为未来探索数据处理性能"天花板"的研究提供有价值的参考.

参考文献 | 相关文章 | 计量指标

Select

异构网络中实体匹配算法综述

李娜, 金冈增, 周晓旭, 郑建兵, 高明

2018 (5): 41-55. doi: 10.3969/j.issn.1000-5641.2018.05.004

摘要 ( 974 )

HTML ( 16 )

PDF(2253KB) ( 937 )

互联网、物联网和云计算技术的不断融合，使得各行各业信息化程度越来越高，但同时也带来了数据碎片化的问题.数据碎片化的海量性、异构性、隐私性、相依性和低质性等特征，导致了数据可用性较差，利用这些数据难以挖掘出准确而完整的信息.为了更有效地利用数据，实体匹配、融合和消歧变得尤为重要.主要对异构网络中实体匹配算法进行了综述，对实体相似度度量和数据预处理技术进行了梳理；特别针对海量数据，概述了可扩展实体匹配方法的研究进展，综述了运用监督学习和非监督学习两类技术的实体匹配算法.

参考文献 | 相关文章 | 计量指标

Select

分布式数据库系统中的并行分组聚合实现

徐石磊, 魏星, 江红, 钱卫宁, 周傲英

2018 (5): 56-66. doi: 10.3969/j.issn.1000-5641.2018.05.005

摘要 ( 1118 )

HTML ( 13 )

PDF(1950KB) ( 1061 )

伴随着新型互联网应用中对数据统计、分析需求的增大，分组、聚合已经成为数据分析应用中出现频率最多的请求之一.本文就类OLAP（on-line transactionprocessing）应用中常见的Aggregation、GroupBy原理进行了分析.针对一般事务型数据库采用排序分组的缺点，提出了两种Hash分组聚合的具体实现方案，并提出一种利用统计信息动态决策Hash桶数、Hash分组聚合方案的策略.根据分布式数据库多副本的特点，本文又提出了一种Hash分组聚合节点级的并行方案.最后，在开源数据库OceanBase进行了具体的实现.通过实验证明，本文提出的利用统计信息动态决策Hash分组聚合方案相比排序分组具有极大的效率提升.

参考文献 | 相关文章 | 计量指标

Select

面向Cedar的列存储设计与实现

俞文谦, 胡爽, 胡卉芪

2018 (5): 67-78. doi: 10.3969/j.issn.1000-5641.2018.05.006

摘要 ( 1220 )

HTML ( 13 )

PDF(1692KB) ( 1005 )

随着数据规模和分析需求的日益增长，数据库面向联机分析处理（On-Line Analytical Processing，OLAP）应用的查询性能变得愈发重要.Cedar是一款基于读写分离架构的分布式关系数据库，由于它主要面向联机事务处理（On-Line Transaction Processing，OLTP）业务，在面对分析处理负载时性能表现不足.对于这个问题，很多研究表明列存储技术能够有效地提高I/O（Input/Output）效率，进而提升分析处理的性能.在Cedar上提出了一种列存储机制，分析了其适用场景并针对这种机制改进了Cedar的数据扫描和批量更新方法.实验结果表明，该机制能大幅度地提升Cedar分析处理性能，并且对事务处理性能的影响控制在10%以内.

参考文献 | 相关文章 | 计量指标

Select

分布式日志结构数据库系统的主键维护方法研究

黄建伟, 张召, 钱卫宁

2018 (5): 79-90,119. doi: 10.3969/j.issn.1000-5641.2018.05.007

摘要 ( 1834 )

HTML ( 13 )

PDF(1197KB) ( 639 )

目前在电子商务、社交网络、移动互联网等各类应用中存在大量的写密集型负载（例如，电子商务的秒杀活动、社交用户生成的数据流等），这使得基于日志结构的存储成为现代数据库系统中普遍的后端存储方式.而基于日志结构的数据存储方式一般只支持追加操作，高效的主键维护（主键的生成和更新）可以很好地提升数据库追加操作的性能.此外，在分布式和并发的环境中实现主键维护功能还要面临主键唯一性约束、事务性维护、高处理性能的挑战.因此，本文针对日志结构数据存储的特点，研究了如何在分布式日志结构数据库系统中实现高效的主键维护功能.首先，我们提出了两类先读后写操作的并发控制模型；其次，我们应用这两类模型设计了几种高效的主键维护算法；最后，我们在自己的基于日志结构的分布式数据库系统CEDAR中实现了本文提出的主键维护方法，并通过一系列实验验证了所提方法的高效性.

参考文献 | 相关文章 | 计量指标

Select

一致性协议在分布式数据库系统中的应用

赵春扬, 肖冰, 郭进伟, 钱卫宁

2018 (5): 91-106. doi: 10.3969/j.issn.1000-5641.2018.05.008

摘要 ( 1478 )

HTML ( 13 )

PDF(1419KB) ( 721 )

近年来分布式数据库产品层出不穷，但分布式数据库较于单机数据库更复杂，为了让系统可用，设计者需要采用一致性协议来保证分布式数据库系统中的可用性和一致性这两个重要特性.保证一致性需要使用一致性协议为并发的事务更新操作确定一个全局的执行顺序，并协调局部状态和全局状态不断的达成动态一致；保证可用性需要一致性协议协调多副本之间的一致来实现主备节点的无缝切换.因此分布式一致性协议是实现分布式数据库系统的重要基础.详细介绍了经典的分布式一致性协议以及在目前常见的几种分布式数据库系统中一致性协议的应用，并从读写操作、节点类型与网络通信等方面进行对比分析.

参考文献 | 相关文章 | 计量指标

Select

新型OLTP系统的技术与实践

贺小龙, 马海欣, 何毓锟, 庞天泽, 赵琼

2018 (5): 107-119. doi: 10.3969/j.issn.1000-5641.2018.05.009

摘要 ( 1198 )

HTML ( 13 )

PDF(1174KB) ( 759 )

自20世纪70年代以来，硬件已经得到了巨大的发展，高性能服务器大多数配备TB级的容量、数十个物理核.然而，传统的事务型系统仍旧是基于磁盘存储，运行在物理核数较少的硬件环境上，无法有效地、充分地利用新硬件的运算能力.另一方面，随着互联网的发展，应用对事务型系统的性能有了更高的要求.部分应用在极端情况下需要服务百万甚至千万的并发访问，然而传统的数据库系统并不能支撑这些高并发、高吞吐率的应用.因此，在高性能硬件上重新设计与实现事务型数据库系统已成为重要的研究热点.本文将重点介绍在大内存、多核环境下，事务型数据库系统在各个方面最新的研究工作，并结合开源数据库系统OceanBase，综合介绍新型OLTP（on-lineanalytical processing）系统的设计.

参考文献 | 相关文章 | 计量指标

Select

基于分布式平台Spark的空间文本查询分析

徐阳, 王志杰, 钱诗友

2018 (5): 120-134,153. doi: 10.3969/j.issn.1000-5641.2018.05.010

摘要 ( 743 )

HTML ( 12 )

PDF(1180KB) ( 665 )

随着基于位置服务应用的不断推广，空间文本数据查询的应用价值（例如结合地理位置和用户标签的社交推荐）也在不断提高.但是，随着数据规模的迅速增长，传统的基于单机环境实现的技术难以为用户提供低延时和高吞吐量的服务.为此，本文基于Spark平台对分布式环境下的空间文本查询算法进行了探究.采用了面向海量空间文本数据的两层索引框架（包括全局索引和局部索引），该框架利用了分阶段过滤的策略来处理分布式下的布尔范围查询问题.同时，针对空间文本相似连接提出了Prefix-RI结构并提出了相应的分布式算法.基于Spark平台实现了所提出的分布式算法，并通过大量的实验对比验证了所提出方法的优越性.

参考文献 | 相关文章 | 计量指标

Select

基于区块链的智能电表身份认证方案

田福粮, 田秀霞, 陈希

2018 (5): 135-143,171. doi: 10.3969/j.issn.1000-5641.2018.05.011

摘要 ( 1368 )

HTML ( 96 )

PDF(1326KB) ( 875 )

能源互联网是未来发展的趋势，能够实现电力资源在用户和能源系统中的双向流通.智能电表作为连接用户和能源系统的关键点，具有用户身份信息和大量有效的电力交易数据，而这些信息会造成用户隐私泄露.为保护用户隐私，提出了基于区块链的智能电表身份认证方案，利用Merkle树原理对智能电表身份信息进行处理并存储在区块链中，实现智能电表身份有效认证的同时，使智能电表身份信息具有不可篡改性，并破坏了用户身份和电力数据之间的可关联性，能够有效抵御内部和外部攻击者获取用户隐私.通过利用区块链的自身特性，保证了交易数据的完整性和有效性.

参考文献 | 相关文章 | 计量指标

Select

基于区块链的仓单管理系统

齐学成, 朱燕超, 邵奇峰, 张召, 金澈清

2018 (5): 144-153. doi: 10.3969/j.issn.1000-5641.2018.05.012

摘要 ( 2096 )

HTML ( 128 )

PDF(2297KB) ( 1006 )

在当前的电子仓单业务中，仓单真实性需要第三方机构背书.但机构失信导致重复质押事件时常发生，这给国家造成了巨大损失；而且数据采用集中管理方式，不公开，商品溯源困难.为了解决这两个问题，利用区块链系统高度透明、去中心化、去信任化、不可篡改的特点，设计实现了基于区块链的仓单管理系统，确保了标的仓单的准确性和真实性.在此基础上，在区块链系统上构建了倒排索引，提高了查询效率，且支持复杂查询；同时，实现了基于表述性状态传递（RepresentationalState Transfer，REST）的微服务架构，为多方接入提供了灵活接口，也为企业已有系统的集成及Web端、移动端的实现提供了支持.

参考文献 | 相关文章 | 计量指标

Select

Levenshtein算法优化及在题库判重中的应用

张衡, 陈良育

2018 (5): 154-163. doi: 10.3969/j.issn.1000-5641.2018.05.013

摘要 ( 1397 )

HTML ( 16 )

PDF(1017KB) ( 667 )

为了解决Levenshtein距离算法在长文本和大规模匹配效率的不足，本文针对Levenshtein距离算法提出一种提前终止的优化策略.首先根据Levenshtein距离矩阵中元素内在的联系，归纳总结出一个递推关系式.再依据此递推关系式，提出一种提前终止策略，可提前判断两个文本是否满足预先设定的相似度阈值.经过多个学科题库判重实验的佐证，本文的提前终止策略能显著减少计算时间.

参考文献 | 相关文章 | 计量指标

Select

一种基于K-Means的平衡约束聚类算法

唐海波, 林煜明, 李优

2018 (5): 164-171. doi: 10.3969/j.issn.1000-5641.2018.05.014

摘要 ( 1226 )

HTML ( 19 )

PDF(932KB) ( 892 )

聚类是一种重要数据分析技术，在众多领域中得到广泛地应用.然而，由于数据分布的内在特点，传统的聚类算法并不能保证聚类结果具有平衡性，这与很多现实的需求不一致.本文提出了一种基于K-Means的平衡约束聚类算法，该算法对K-Means算法每次迭代中数据点的分配策略进行修改，达到对每个簇可包含的数据点数目上限进行约束的目的.同时，算法支持用户自定义簇可包含的数据点数目上限，满足不同的平衡约束聚类需求.另外，本算法参数少，只需设置目标簇数目及其可包含的数据点数目上限，时间复杂度低，具有简单、快速的特点.在6个UCI（University of CaliforniaIrvine）真实数据集上进行的实验结果表明，文中提出的平衡约束聚类算法相比其他平衡约束聚类算法具有更佳的聚类效果和时间性能.

参考文献 | 相关文章 | 计量指标

Select

基于深度哈希学习的商标图像检索研究

袁培森, 张勇, 李美玲, 顾兴健

2018 (5): 172-182. doi: 10.3969/j.issn.1000-5641.2018.05.015

摘要 ( 1646 )

HTML ( 93 )

PDF(1654KB) ( 950 )

大规模图像检索具有广泛的应用前景，其核心在于图像特征提取和高效相似性计算.深度学习技术在图像特征提取具有较强的特征表示能力，同时哈希技术在高维数据近似计算方面具有较好的性能.目前，基于哈希学习的技术在大规模图像检索及相似性查询方面获得了广泛的研究和应用.本文结合卷积神经网络和哈希技术实现商标图像检索，通过深度学习技术提取商标图像特征，使用位哈希对数据对象编码，在海明空间折中查询的质量和效率.基于卷积神经网络模型，提出了深度哈希算法，并研究了损失函数和该数据集上的优化器选择，通过获取符合哈希编码规范的位编码实现对在二元空间对商标图像数据快速检索，该方法分为离线深度哈希学习和在线查询两个阶段.在真实商标数据集上进行实验，实验结果表明，本文方法能够在商标数据集上获得较高质量的位编码，并具有较高的检索精确度和在线查询效率.

参考文献 | 相关文章 | 计量指标

Select

基于知识图谱和LDA模型的社会媒体数据抽取

麻友, 岳昆, 张子辰, 王笑一, 郭建斌

2018 (5): 183-194. doi: 10.3969/j.issn.1000-5641.2018.05.016

摘要 ( 1158 )

HTML ( 24 )

PDF(1117KB) ( 1117 )

社会媒体数据的抽取，是社会舆论集散、新闻信息传播、企业品牌推广、商业营销拓展等研究和应用的基础，准确的抽取结果是数据分析有效性的重要保证.本文针对社会媒体数据的非结构、多主题特征，基于LDA（Latent DirichletAllocation）模型挖掘数据中的隐含主题，利用数据特征词序列和知识图谱描述的实体及实体间的关联关系，实现对特定领域数据的抽取.建立在"今日头条"新闻数据和新浪微博数据之上的实验结果表明，本文提出的方法能有效地实现社会媒体数据的抽取.

参考文献 | 相关文章 | 计量指标

当期目录