摘要: 互联网的飞速发展正在深刻影响着社会和经济的方方面面。从搜索引擎到电子商务、从在线广告到即时消息、从数字娱乐到在线教育、从移动支付到分享经济,互联网应用已经改变了我们的娱乐、社交、购物、物流、出行、支付等等方面,并对金融、电信、制造、能源、零售等行业的变革产生了深远影响。数据是行业变革的动力来源。传感器和终端技术的发展使得数据收集更为便捷;通信网络技术的进步使得数据传输更加廉价、快速;新兴存储介质和设备的出现不仅降低了数据存储成本,还极大提升了数据访问性能。上述技术的进步使得数据资源被快速累积起来。海量数据资源的管理、分析和应用是企业和机构提升核心竞争力、服务水平和政府提高治理水平的关键之处。在教育、金融、电信、政府治理等领域,亟需高可用、高可靠、高性能的数据管理技术和系统功能来管理海量、多源、异构、分布数据。
本期专辑围绕“新型互联网应用中的数据管理技术”这个主题,在全国范围内征集稿件,受到了学术界的广泛关注。经过专辑编委员会的认真评阅,共收录了16篇高质量学术论文。这些稿件分别来自国内6个高校,包括上海交通大学、云南大学、桂林电子科技大学、南京农业大学、上海电力学院、华东师范大学等。根据主题不同,将这些论文划分为3个类别:综述论文(4篇)、高性能数据库管理(5篇)、新型互联网应用技术(7篇)。
4篇综述论文分别从不同角度回顾了各研究领域的现有工作,并展望未来。余若男等人认识到场景文字检测问题深受目标检测和图像分割算法发展的影响,介绍了近年来场景文字检测工作进展,比较分析了各算法的优点及不足,并总结了相关的基准数据集和评价方法;汤路民等人列举了非干预式感知的个性化学业求助资源推荐研究状况,并展望了未来研究方向,包括学业求助非干预式感知、学业求助多源异构数据分析,以及学业求助资源个性化推荐方法;涂云山等人综述了面向新硬件的数据处理软件技术,从计算、传输、存储这3个方面讨论了面向新型硬件的数据处理软件技术,梳理和分析了相关工作,总结概述了已取得的进展,分析了存在的问题和挑战;李娜等人综述了在异构网络中的实体匹配技术的研究现状与进展,特别是针对海量数据的可扩展实体匹配方法,包括运用监督学习和非监督学习这两类技术。
5篇关于高性能数据库管理的论文分别从查询、存储、分布式协议、系统等角度开展研究。徐石磊等人研究了OLAP应用中常见的分组聚合问题,根据分布式数据库多副本的特点提出了并行实现方案,并在开源数据库系统上得以实现;俞文谦等人认识到列存储技术能够有效提高I/O效率、优化分析处理性能,提出了一种面向Cedar系统的列存储机制,分析了其适用场景并针对这种机制改进了Cedar的数据扫描和批量更新方法;黄建伟等人认识到在分布式和并发的环境中实现主键维护功能还要面临主键唯一性约束、事务性维护、高处理性能的挑战,提出了一种在分布式日志结构数据库系统中高效维护主键的方法;赵春扬等人详细介绍了经典的分布式一致性协议以及在目前常见的几种分布式数据库系统中一致性协议的应用,从读写操作、节点类型与网络通信等方面进行了对比与分析;贺小龙等人认识到在高性能硬件上重新设计与实现事务型数据库系统的重要性,介绍了在大内存、多核环境下事务型数据库系统的新近研究工作,并结合开源数据库系统OceanBase介绍了新型OLTP系统的设计方案。
7篇关于新型互联网应用技术的论文中,徐阳等人认识到在基于位置服务应用中将会产生海量空间文本数据,提出了基于Spark的两层索引框架,采用分阶段过滤的策略来处理空间文本查询,执行性能较高;田福粮等人提出了一个基于区块链的智能电表身份认证方案,保证了交易的完整性和有效性;齐学成等人设计实现了基于区块链的仓单管理系统,确保标的仓单的准确性和真实性,该系统构建倒排索引以提高查询效率,且支持复杂查询;张衡等人提出了一种提前终止策略,可提前判断两个文本是否满足预先设定的相似度阈值,将该技术应用到题库判重应用中能够显著减少计算时间;唐海波等人提出了一种基于K-Means的平衡约束聚类算法,修改了K-Means算法每次迭代中数据点的分配策略,从而可对每个簇可包含的数据点数目上限进行约束;袁培森等人提出了一个深度哈希算法,通过获取符合哈希编码规范的位编码实现对商标图像数据快速检索;麻友等人针对社会媒体数据的非结构、多主题特征,基于LDA模型挖掘数据中的隐含主题,利用数据特征词序列和知识图谱描述的实体及实体间的关联关系,实现对特定领域数据的抽取。
最后,谨在此感谢各位作者为专辑提供优质稿源,感谢各位评审专家,特别感谢华东师范大学学报编辑部自然科学版各位老师在收稿、审稿、校稿过程中的大力支持和辛勤工作。新型互联网应用是大数据应用领域的重要组成部分,希望本专辑能为新型互联网应用中的数据管理问题、研究进展和技术发展趋势等提供一个技术窗口,推动相关领域的研究进展和应用实施。