数据管理 栏目所有文章列表

    (按年度、期号倒序)
        一年内发表的文章 |  两年内 |  三年内 |  全部
    Please wait a minute...
    选择: 显示/隐藏图片
    基于分布式系统OceanBase的并行连接
    徐石磊, 王雷, 胡卉芪, 钱卫宁, 周傲英
    华东师范大学学报(自然科学版)    2017, 2017 (5): 1-10.   DOI: 10.3969/j.issn.1000-5641.2017.05.001
    摘要568)   HTML18)    PDF (771KB)(908)   
    随着应用数据的飞速增长以及分布式数据库系统的不断涌现,数据存储在物理独立的节点已经成为一种趋势.在这种情况下,当应用需要进行复杂join查询时,就会不可避免地产生非常多的网络传输代价.所以,如何提高分布式系统中join查询的效率成为研究热点.本文在分析分布式数据库系统OceanBase执行nested loop join、Hashjoin、semi-join等算法的基础上,提出了合理利用硬件资源采用多线程并行执行join操作的优化思想,并在OceanBase数据库中分别对nested loop join、Hashjoin、semi-join等算法进行了并行改造.实验结果表明,在一定线程数内join算法执行效率与并行度呈正相关.
    参考文献 | 相关文章 | 多维度评价
    支持非等值连接的分布式数据流处理系统
    陈明珠, 王晓桐, 房俊华, 张蓉
    华东师范大学学报(自然科学版)    2017, 2017 (5): 11-19.   DOI: 10.3969/j.issn.1000-5641.2017.05.002
    摘要372)   HTML90)    PDF (641KB)(602)   
    实时处理的分布式数据流系统在当今大数据时代扮演着越来越重要的角色.其中,连接查询是大数据分析处理中最为重要且开销较大的操作之一.然而,由于现实应用产生的数据普遍存在倾斜分布现象,加之数据流本身的无界性与不可预知性,给在分布式数据流系统上进行连接查询处理提出了严峻的挑战.目前工业界较为主流的数据流系统处理连接查询的通用性较低,没有提供专门针对连接操作的接口;学术界推出的数据流连接查询原型系统虽然提供了接口,但大多面向等值连接,或仅能支持部分theta连接,且存在资源开销大、负载均衡性能低等问题.本文对比分析三种典型数据流系统,将基于Join-Matrix的连接处理技术与Storm系统相结合,设计并实现了通用的、可支持任意连接查询的数据流处理系统.实验展示了本文设计的系统具有更加良好的吞吐量与资源优化表现.
    参考文献 | 相关文章 | 多维度评价
    异构Redis集群大规模评论数据存储负载均衡设计
    张敬伟, 丁志均, 杨青, 张会兵, 张海涛, 周娅
    华东师范大学学报(自然科学版)    2017, 2017 (5): 20-29.   DOI: 10.3969/j.issn.1000-5641.2017.05.003
    摘要650)   HTML19)    PDF (643KB)(746)   
    大规模评论数据的存储与查询性能对构建于其上的各类应用的快速响应具有重要影响.同时,异构计算环境中各计算节点性能呈现差异,如何充分开采各节点的计算和存储性能,优化大规模评论数据的存储与查询性能,是一个关键挑战.基于Redis集群的数据管理优势,首先提出了一种同构环境下基于卡槽存储平衡的大规模评论数据存储模型;然后论证了卡槽数目与节点查询效率的关系,以"负载与访问性能相平衡"的原则分配卡槽,进一步设计了异构环境下的集群节点负载计算和存储分配方法,充分开采了异构Redis集群中不同节点的性能.实验结果表明,提出的存储模型具有很好的存储平衡效果,提升了集群的整体查询效率.
    参考文献 | 相关文章 | 多维度评价
    面向CLAIMS基于Smart物化策略的列存储设计与实现
    张晗, 周敏奇
    华东师范大学学报(自然科学版)    2017, 2017 (5): 30-39.   DOI: 10.3969/j.issn.1000-5641.2017.05.004
    摘要379)   HTML17)    PDF (621KB)(480)   
    物化是列存储数据库查询中必不可少的操作,物化策略和物化技术在查询执行过程中起着至关重要的作用.因此设计一种针对列存储数据库的物化策略尤为重要.提前物化生成的元组中存在无关属性;而延迟物化对选择率较高的查询可能无法优化其性能,且某些列会被访问多次.针对以上缺点,本文提出了有别于上述两种策略的策略——Smart物化策略.本文提出了在逻辑查询计划中使用结构——projection,该结构是由用户选取查询所需的属性来生成的,相当于对全表进行物理上的切分;在查询开始时,能减少直接加载到内存的数据量,避免额外的开销.在构建逻辑查询计划过程中,Smart物化策略将projection作为扫描操作标准来对数据进行按列划分,根据一组语句集中对列访问的相关性来对下一次查询所需要的列进行预测,将所需要的列加入到一个最合适的projection中来进行物化.本文通过在分布式内存数据库CLAIMS上使用TPC-H数据集来验证其有效性.
    参考文献 | 相关文章 | 多维度评价
    基于布谷鸟过滤器的外连接算法
    于洋, 周敏奇, 方祝和
    华东师范大学学报(自然科学版)    2017, 2017 (5): 40-51.   DOI: 10.3969/j.issn.1000-5641.2017.05.005
    摘要515)   HTML23)    PDF (750KB)(580)   
    近十几年,由于互联网的发展异常迅猛,数据规模不断增加,分布式数据库的分析效率亟待优化,其中连接操作更是分布式数据库的主要性能瓶颈.外连接在商业中运用非常广泛.分布式外连接算法涉及到大量的网络传输,严重影响系统性能,虽然有一些研究针对内连接进行了优化,但这些优化方法并不能直接应用于外连接.文章中基于Cuckoofilter(布谷鸟过滤器)的分布式外连接算法,通过构建Cuckoofilter对数据进行筛选和分配,减少数据传输量的同时,提高执行的并行度,使得查询性能得到提升.通过在Ginkgo上实现该算法,并加以充分实验,验证得出该算法提高了分布式外连接操作的效率.
    参考文献 | 相关文章 | 多维度评价