新时期数据管理技术 栏目所有文章列表

    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    面向日志结构化数据存储的高效数据加载
    丁国浩, 徐辰, 钱卫宁
    华东师范大学学报(自然科学版)    2019, 2019 (5): 143-158.   DOI: 10.3969/j.issn.1000-5641.2019.05.012
    摘要379)   HTML15)    PDF (1535KB)(250)   
    近年来,随着互联网技术的快速发展,无论是互联网企业还是传统的金融机构,用户量和业务处理数据量都在快速地增长.传统的通过增加服务器并采用基于分库分表的方法来解决扩展性问题,需要大量的人工维护成本和硬件开销.为降低开销和分库分表带来的各种问题,业界通常用新型数据库系统替换原有的系统,其中,基于日志结构合并树存储的数据库系统(如OceanBase)被广泛采用,这类系统磁盘上存储数据块呈现全局有序的特征.在从传统数据库切换到新型数据库过程中,需要将大量数据加载到新数据库系统中,长时间加载的过程中可能出现数据库节点宕机.为了减少总加载时间和故障恢复时间,提出了一种负载均衡且支持高效容错的数据加载方法;为了支持负载均衡的数据加载,与预确定分区划分数据的方法不同,考虑到目标系统默认存储块大小,采用通过基于文件大小和目标系统默认存储块大小预计算分区数目,并利用分库分表的数据导出往往已经排序的特点,采用选取部分采样块和等间隔选取样本的方式确定分区之间的切分点,避免了全局采样和随机或头部样本选取方式确定切分点带来的高开销;为了加快故障恢复速度,利用日志结构合并树存储系统的多备份减少故障恢复时的数据量,提出了基本副本局部故障恢复方式,避免了完全重新加载的故障恢复方式.实验结果表明,相比采用预确定分区数目和全局选取采样块的随机或头部选取样本方法,采用预计算分区数目和部分选取采样块的等间隔选取样本确定切分点的方法,提高了数据加载的性能,并且验证了基于副本局部故障恢复方法相比完全重启加载恢复方法的高效性.
    参考文献 | 相关文章 | 多维度评价
    基于LevelDB的二维数据二级索引实现
    刘子豪, 胡卉芪, 徐瑞, 周烜
    华东师范大学学报(自然科学版)    2019, 2019 (5): 159-167.   DOI: 10.3969/j.issn.1000-5641.2019.05.013
    摘要526)   HTML17)    PDF (459KB)(388)   
    随着科学研究中产生的空间数据尤其是二维数据量级的增长和NoSQL型数据库技术的发展,越来越多的空间数据被存储到NoSQL数据库中.LevelDB是一款开源的Key-Value型NoSQL数据库,由于它基于LSM架构并拥有较好的写入性能而被广泛应用.但是Key-Value结构的局限性使其无法有效地索引空间数据,对于这个问题本文提出了一种基于LevelDB和R-tree的二级索引,使其可以支持二维数据的索引和近邻查询.实验结果表明该结构有较好的可用性.
    参考文献 | 相关文章 | 多维度评价
    基于Paxos的分布式一致性算法的实现与优化
    祝朝凡, 郭进伟, 蔡鹏
    华东师范大学学报(自然科学版)    2019, 2019 (5): 168-177.   DOI: 10.3969/j.issn.1000-5641.2019.05.014
    摘要339)   HTML16)    PDF (494KB)(338)   
    互联网的不断发展,企业的信息化程度不断加强,不计其数的数据需要得到及时处理.但是网络环境不稳定,容易发生数据丢失、节点宕机,从而造成严重后果.因此,构建可以容错的分布式存储系统变得越来越受欢迎.为了保证系统的高可用性和一致性,需要引入分布式一致性算法.为了提高系统在不稳定网络下的性能,传统基于Paxos的分布式系统允许日志中存在空洞.然而,当节点进入恢复状态时,这些系统通常需要大量网络交互来补全日志空洞,这极大地增加了节点恢复的时间,从而影响了系统的可用性.针对节点恢复过程中补全日志空洞代价过大的问题,本文重新设计了日志项结构,优化了数据恢复流程,通过实验模拟,验证改进的基于Paxos的一致性算法的有效性.
    参考文献 | 相关文章 | 多维度评价
    基于GPU的关系型流处理系统实现与优化
    黄皓, 李志方, 王嘉伦, 翁楚良
    华东师范大学学报(自然科学版)    2019, 2019 (5): 178-189.   DOI: 10.3969/j.issn.1000-5641.2019.05.015
    摘要318)   HTML11)    PDF (1148KB)(272)   
    现有的基于CPU的流处理系统在功能上已支持在大规模数据集上的复杂分析查询,但由于CPU计算能力与特性的限制,无法在性能上同时满足高吞吐量和低响应时间的要求.本文提出一种基于GPU的流处理系统框架Serval,通过充分利用CPU-GPU异构资源,实现了关系型流查询的高效处理.Serval框架采用流水线模型和流执行缓存技术以优化吞吐量和响应时间,并实现多种调优策略以适应不同场景.实验表明,单节点Serval的吞吐量与响应时间性能均优于现有GPU数据库MapD和三节点分布式服务器上的Spark Streaming.
    参考文献 | 相关文章 | 多维度评价
    Woodpecker+:基于数据特征的自定义负载性能评测
    张涛, 张小磊, 李宇明, 张春熙, 张蓉
    华东师范大学学报(自然科学版)    2019, 2019 (5): 190-202.   DOI: 10.3969/j.issn.1000-5641.2019.05.016
    摘要328)   HTML12)    PDF (1529KB)(319)   
    数据库的性能评测随着复杂多样的应用出现变得更加重要.在很多情况下,研究、开发人员的性能评估工作受限于负载的缺乏.虽然OLTP-Bench通用数据库性能测试框架在一定程度上提高了性能测试的效率,但由于标准Benchmark负载固定且针对用户多样的应用场景的代表性差,故无法精准地满足不同应用的系统性能;此外,大部分测试框架使用高级编程语言支持为应用编写测试负载,不仅增加测试负担还会引入大量重复性工作,导致测试效率低下.本文设计并实现了一个用户自定义性能测试负载的工具:Woodpecker+.该工具的主要贡献为:易于使用和可拓展、提供了可高效构造测试案例、做测试安排的测试定义语言(TDL)、可灵活控制事务执行模式及数据访问分布、实现了轻量级的细粒度统计信息收集与分析、支持多种主流数据库系统DBMS及提供数据库访问接口的其他数据库.通过一组详细的运行在主流DBMS上的自定义负载实验来验证Woodpecker+的特性.
    参考文献 | 相关文章 | 多维度评价