华东师范大学学报(自然科学版) ›› 2014, Vol. 2014 ›› Issue (5): 261-270.doi: 10.3969/j.issn.10005641.2014.05.023
卞昊穹1,2,陈跃国1,2,杜小勇1,2,高彦杰1,2
BIAN Hao-Qiong1,2, CHEN Yue-Guo1,2, DU Xiao-Yong1,2, GAO Yan-Jie1,2
摘要: 等值连接作为数据分析中最常用、代价最高的操作之一,在Spark上的实现和优化与传统并行数据库有很大的差别,传统并行数据仓库中基于数据预划分的连接算法在Spark上难以实现,而目前被广泛采用的Broadcast Join和Repartition Join性能较差,如何提高连接性能成为基于Spark的海量数据分析的关键.本研究将SimiJoin与Partition Join的优势相结合,并基于Spark上的特性提出了一种优化的等值连接算法.代价分析和实验表明本算法比现有基于Spark的数据分析系统中的连接算法性能提升1~2倍.
中图分类号: