华东师范大学学报（自然科学版）

Select

NoSQL系统的容错机制：原理与系统示例

孔超, 钱卫宁, 周傲英

2014 (5): 1-16. doi: 10.3969/j.issn.10005641.2014.05.001

摘要 ( 1954 )

PDF(2484KB) ( 1991 )

NoSQL数据管理系统因其具有良好的可扩展性和容错性，在以Web数据管理和分析处理为代表的新型大数据应用环境中得到了广泛使用.这些系统通过新型一致性模型和数据冗余等技术，实现了集群环境中的容错处理.本文在对集群环境数据管理系统的一致性保持和容错处理基本原理进行介绍的基础上，对Bigtable、HBase、Dynamo、Cassandra，以及PNUTS五个典型的NoSQL系统的容错机制及其实现进行分析与对比，并讨论它们的设计原则和实现技术对于系统的可用性、性能、复杂负载的处理能力等方面的影响.最后，讨论现有NoSQL系统容错机制对于设计和实现支持关键任务的内存数据管理系统的借鉴意义.

相关文章 | 计量指标

Select

集群资源统一管理和调度技术综述

李永峰, 周敏奇, 胡华梁

2014 (5): 17-30. doi: 10.3969/j.issn.10005641.2014.05.002

摘要 ( 2705 )

PDF(1403KB) ( 6153 )

随着互联网的快速发展和大数据的来临，基于数据密集型应用的集群计算框架不断涌现，并且这些计算框架都只面向某一类特定领域的应用.基于这一特点，互联网公司往往需要部署和运行多个计算框架，从而为每个应用选择最优的计算框架.因此，资源统一管理和调度系统作为集群共享平台被提出来.集群资源统一管理和调度系统需要同时支持多种不同计算框架，如何管理集群计算资源和不同计算框架间的资源公平分配成为关键技术难点.不同计算框架的作业是异构的，如何在不同框架间进行作业调度，以充分利用集群资源和提高系统吞吐量，成为了新的挑战.本文针对现有的资源管理系统和应用需求特点，研究和分析了集群资源管理和调度的关键技术，并对现有的集群资源管理技术存在的问题和未来发展进行了探讨.

相关文章 | 计量指标

Select

新型OLTP数据库系统设计的关键技术及挑战

任堃, 李战怀

2014 (5): 31-42. doi: 10.3969/j.issn.10005641.2014.05.003

摘要 ( 1940 )

PDF(588KB) ( 1820 )

传统的数据库系统是根据20世纪70年代的硬件特点而设计. 随着“云计算”和“大数据”时代的到来，应用需求对数据库系统的事务吞吐量和可扩展性提出了更高的要求，同时内存、多核等新型计算机硬件技术的发展为数据库系统的发展提供了新的机遇，因此研究和设计新型数据库系统也变得越来越重要. 本文针对新型计算机硬件和应用需求的特点，研究和分析了新型OLTP数据库系统设计所涉及的关键技术，并探讨了存在的挑战性问题.

相关文章 | 计量指标

Select

大数据环境下并行计算模型的研究进展

潘巍, 李战怀

2014 (5): 43-54. doi: 10.3969/j.issn.10005641.2014.05.004

摘要 ( 2657 )

PDF(459KB) ( 6166 )

在大数据时代，制约并行计算发展的掣肘正在发生改变，为分布式并行计算带来了前所未有的机遇和挑战. 回顾了并行计算的发展和大数据环境下的新变化；结合硬件环境、计算模式、以及应用需求等对于并行计算模型研究的影响，综述了面向批处理、面向流处理、面向图数据以及面向内存等几类并行计算模型的相关研究；展望了其发展趋势.

相关文章 | 计量指标

Select

基于内存计算的大规模图数据管理研究

袁培森, 舒欣, 沙朝锋, 徐焕良

2014 (5): 55-71. doi: 10.3969/j.issn.10005641.2014.05.005

摘要 ( 2691 )

PDF(2216KB) ( 6178 )

图是一种重要的数据模型，能够描述结构化的信息，在诸如交通网络、社交网络、Web页面链接关系等领域应用广泛，因而获得了广泛的研究. 海量的图数据管理对传统的图分析处理技术提出了挑战，分布式集群计算为大规模图数据分析提供了基础平台. 随着计算机硬件性价比的大幅提升以及高性能应用需求，基于内存计算的海量数据处理技术获得了业界青睐. 图数据高效存储和计算与内存计算密切相关，在此背景下，文章综述了大规模图数据处理相关技术进展，研究了典型的基于内存计算的大规模图数据管理系统，最后总结了基于内存计算的图数据管理的关键点.

相关文章 | 计量指标

Select

面向非易失内存的结构和系统级设计与优化综述

孙广宇, 舒继武, 王鹏

2014 (5): 72-81. doi: 10.3969/j.issn.10005641.2014.05.006

摘要 ( 1659 )

PDF(1220KB) ( 2314 )

当今各类计算机应用都进入一个飞速发展的阶段，无论是“计算密集型”还是“存储密集型”应用都对存储系统的容量、性能以及功耗不断提出更高的要求. 然而，由于传统内存工艺(DRAM)的发展落后于计算逻辑工艺（CMOS），基于DRAM的内存设计逐渐无法满足这些设计需求. 同时，基于HDD的外存性能与DRAM主存间的差距也逐渐增加. 而各种非易失存储工艺取得长足的进步，为解决这一问题提供了新的机遇. 本文就近年来针对非易失内存的结构和系统级设计与优化的研究工作进行综述，揭示非易失内存对存储系统的性能、功耗等都有明显的改善.

相关文章 | 计量指标

Select

内存数据库的可用性综述

江泽源, 刘辉林, 吴刚, 王国仁

2014 (5): 82-88. doi: 10.3969/j.issn.10005641.2014.05.007

摘要 ( 1797 )

PDF(712KB) ( 3833 )

随着计算机硬件技术的高速发展，内存的成本不断降低，数据库管理系统将其工作数据集完全放入内存变得可行.相比于常规的磁盘数据库，内存数据库具有更快的数据存储速度、更高的吞吐量和更强的并发访问能力，满足了许多应用的快速响应需求.然而，由于内存是易失性存储介质，与磁盘数据库在可用性方面有一定区别.本综述重点讨论了适用于内存数据库提高可用性的主要策略，包括快速恢复策略、冗余备份和容错等.

相关文章 | 计量指标

Select

支持通信数据查询分析的分布式计算系统

晁平复, 郑芷凌, 房俊华, 张蓉

2014 (5): 89-102. doi: 10.3969/j.issn.10005641.2014.05.008

摘要 ( 1802 )

PDF(2911KB) ( 1964 )

本文详细介绍一种基于分布式内存的通信数据管理平台，可以有效支持针对通信数据的实时处理以及在线查询分析任务.首先，通过对分布式技术、内存技术进行分析，依据通信业务的特点进行技术选型；然后，基于高性能的分布式内存计算环境，设计、实现针对通信数据的实时处理与在线查询分析平台；最后，利用内存技术对平台实现方案进行技术优化.实验结果表明，基于内存的分布式计算系统在查询响应速度、实时数据处理效率、系统资源利用率以及数据吞吐量上较基于硬盘的系统较大的性能提升.

相关文章 | 计量指标

Select

OceanBase一致性与可用性分析

周欢, 樊秋实, 胡华梁

2014 (5): 103-116. doi: 10.3969/j.issn.10005641.2014.05.009

摘要 ( 2859 )

PDF(3235KB) ( 2261 )

OceanBase作为一个面向海量数据查询的分布式数据库，支持关系查询和跨行跨表事务,同时保证了一致性和可用性.本文在详细阐述了一致性与可用性的背景基础上，根据传统数据库和分布式数据库保证一致性和可用性的协议和策略，对OceanBase的一致性和可用性架构进行分析.最后，探讨了基于OceanBase架构演变而来的3种架构的实现方案.

相关文章 | 计量指标

Select

内存数据仓库集群技术研究

张延松, 王珊, 周烜

2014 (5): 117-132. doi: 10.3969/j.issn.10005641.2014.05.010

摘要 ( 1497 )

PDF(4711KB) ( 2551 )

随着硬件的集成度不断提高，多核处理器和大内存成为当前主流的计算平台，内存计算也成为新兴的高性能数据分析平台.内存数据仓库集群技术面向高性能分析计算，是实现大数据实时分析的基础平台.本文概括地介绍了中国人民大学高性能数据库团队在内存数据仓库集群技术方面的研究工作，包括：以列分布和列计算服务为中心的ScaMMDB内存数据仓库集群，以水平分片、并行计算为中心的ScaMMDBⅡ和reversestar schema分布、集群向量计算为特征的MiNTOLAP Cluster等技术的研究发展过程.分析了内存数据仓库集群技术的关键问题及技术挑战，并针对新的内存数据仓库集群应用需求展望未来技术的发展.

相关文章 | 计量指标

Select

面向混合内存体系结构的模拟器

刘东, 张进宝, 廖小飞, 金海

2014 (5): 133-140. doi: 10.3969/j.issn.10005641.2014.05.011

摘要 ( 3142 )

PDF(1508KB) ( 5734 )

提出了一种基于全系统模拟器gem5的混合内存系统模拟器的构建方法.构建混合内存系统模拟器时，首先在gemg5中添加一层混合内存控制器结构，然后引入NVMain中的新型非易失性内存模型与gem5原生DRAM内存模型一起挂接到新添加的混合内存控制器上.实验结果表明，该方法能够实现构建混合内存系统模拟器的目标.

相关文章 | 计量指标

Select

OceanBase关系数据库架构

阳振坤

2014 (5): 141-148. doi: 10.3969/j.issn.10005641.2014.05.012

摘要 ( 4403 )

PDF(1727KB) ( 2701 )

传统关系数据库本质上是单机系统，通常采用昂贵的高端服务器和高端存储，难以应对互联网应用的高可扩展、高性能、高可用和低成本的挑战.OceanBase是阿里巴巴研制的开源分布式无共享关系数据库，采用主流通用PC服务器，很好地满足了互联网对关系数据库的需求.OceanBase已经用于淘宝、天猫和支付宝的多个生产系统.本文介绍了OceanBase关系数据库系统的架构、目标和系统特点，特别分析了基于该系统架构的读写事务流程.

相关文章 | 计量指标

Select

OceanBase内存事务引擎

李凯, 韩富晟

2014 (5): 147-163. doi: 10.3969/j.issn.10005641.2014.05.013

摘要 ( 3635 )

PDF(2582KB) ( 4249 )

OceanBase是一个分布式可扩展的关系数据库，采用基线静态数据与动态增量数据分离存储的架构设计.其内存事务引擎提供了动态数据的存储、写入和查询服务，用户写入的数据被存储在内存中称为Memtable的数据结构中.Memtable及其周边的事务管理结构共同组成了内存数据库引擎，来实现事务的ACID特性.在事务引擎中，通过多版本的并发控制技术实现读写相互不阻塞，实现只读事务满足“快照隔离”级别；通过经典的行锁方式实现多个写之间的并发控制，实现最高满足“已提交读”的事务隔离级别.

相关文章 | 计量指标

Select

OceanBase分布式存储引擎

黄贵, 庄明强

2014 (5): 164-172. doi: 10.3969/j.issn.10005641.2014.05.014

摘要 ( 2661 )

PDF(1629KB) ( 2891 )

OceanBase是一个分布式关系型数据库，其目的是存储海量的高速增长的结构化数据，以廉价的服务器集群实现高可用、高可扩展、高性价比的服务.OceanBase采用内外存混合存储的模式，使用内存存储增量(新写入)数据，而使用外存存储基线(只读)数据，并将基线数据划分成大致等量的数据分片并采用分布式B+ tree的形式将分片存放在很多的数据服务器上，利用定时合并机制不断将增量数据与基线数据融合.本文介绍OceanBase基线数据存储的基本结构和分布方式、定时合并机制，以及基线数据在OceanBase中的具体存储格式的设计和实现.

相关文章 | 计量指标

Select

OceanBase高可用方案

杨传辉

2014 (5): 173-179. doi: 10.3969/j.issn.10005641.2014.05.015

摘要 ( 3353 )

PDF(1451KB) ( 3562 )

传统关系数据库基于共享存储或者主备同步的方式实现高可用.这些方案要么依赖硬件的高可用，但成本高昂；要么无法同时满足强一致性和高可用性.OceanBase将云计算和数据库两种技术有机地融合起来，实现了基于Paxos协议的高可用方案.该方案构建在普通服务器上，成本低廉，且同时满足强一致性和高可用性.

相关文章 | 计量指标

Select

面向内存计算的连接算法

张磊, 方祝和, 周敏奇, 黄岚

2014 (5): 180-191. doi: 10.3969/j.issn.10005641.2014.05.016

摘要 ( 1816 )

PDF(1178KB) ( 2445 )

内存和CPU技术的快速发展标志着内存计算时代的来临.本文系统地回顾了基于内存计算的连接算法，具体在嵌套循环连接、哈希连接、排序归并连接和单机环境、分布式环境两个分类的维度上分析了已有算法的优点与不足，展望了未来的研究方向，最后介绍了基于Claims原型系统关于分布式连接方面的研究工作.

相关文章 | 计量指标

Select

内存数据索引：以处理器为核心的性能优化技术

董绍婵, 周敏奇, 张蓉, 周傲英

2014 (5): 192-206. doi: 10.3969/j.issn.10005641.2014.05.017

摘要 ( 1745 )

PDF(1068KB) ( 2813 )

随着单机内存容量的持续上升，内存数据库技术逐渐取代传统磁盘数据库为数据管理提供更快速的支持.本文分析了设计内存索引结构所需要考虑的基本要素；对目前的内存索引结构进行了分类总结，并分析各结构的优缺点；针对当前应用发展趋势，指出内存索引未来发展的机遇与挑战；最后介绍了我们正在研发的分布式集群感知内存数据库（CLAIMS）中的内存索引结构.

相关文章 | 计量指标

Select

大规模分布并行计算系统容错与恢复技术

张新洲, 周敏奇

2014 (5): 207-215. doi: 10.3969/j.issn.10005641.2014.05.018

摘要 ( 1701 )

PDF(397KB) ( 2773 )

当前,拥有超级计算能力的计算机系统通常是大型商用系统形成计算机集群.与所有的分布式系统一样，这些系统通过独立的计算机硬件协同合作共同实现超级计算的能力.然而在拥有超级计算能力的同时，集群中的任何一个组件随时都可能失效，从而导致错的输出.为了提高集群在系统出现故障的情况下的鲁棒性，许多容错技术已经被设计和实现，用以处理各种类型的系统故障.本文对各种现有的容错技术进行了总结归纳，以便在此基础之上进行进一步的研究从而适应当前环境下的系统容错.

相关文章 | 计量指标

Select

内存集群计算:交互式数据分析

黄岚, 孙珂, 陈晓竹, 周敏奇

2014 (5): 216-227. doi: 10.3969/j.issn.10005641.2014.05.019

摘要 ( 1960 )

PDF(2056KB) ( 2538 )

本文围绕大数据分类中决策数据的管理和分析进行展开.重点分析了大数据时代关于商务智能（Business Intelligence，BI）技术新的应用需求；讨论了计算机硬件和体系结构的发展为决策数据管理和分析带来的挑战和机遇；通过对新兴典型应用的分析和相关技术和系统特点的总结，说明了基于内存计算的高性能数据管理和分析技术是当前亟待解决的问题，具有广阔的应用前景.在全内存式（in-memory）数据管理环境下，网络通讯将成为整个系统的主要瓶颈.结合内存的特点（数据易失性、内存墙瓶颈），设计针对高性能服务器的无共享分布式内存系统拓扑结构；研究面向异构、多层次缓存和内存结构的分布式数据布局与索引策略，跨核、跨处理器、跨服务器的多粒度并行处理框架，缓存感知、内存感知的分布式数据一致性维护等关键技术，轻量级面向按列存储的数据压缩机制及压缩感知的数据处理机制，将是基于内存计算的高性能数据管理与分析技术的重点研究内容，并将最终实现实时交互式分析处理.

相关文章 | 计量指标

Select

LCDJ:面向内存集群计算的局部感知连接算法

张磊, 周敏奇, 王立

2014 (5): 228-239. doi: 10.3969/j.issn.10005641.2014.05.020

摘要 ( 1827 )

PDF(1665KB) ( 1780 )

等值连接是数据库系统中最为重要的操作之一，哈希连接在处理等值连接时，表现出较高的性能.在分布式内存数据库系统中，数据即已分布式地存储于多个节点上，哈希连接通常情况需要将参与连接的两个关系表在连接属性上按照相同的哈希函数进行数据重分区，从而保证连接属性值相同的元组被传输到同一个节点上进行本地连接操作.由于内存数据处理速率远远高于网络的数据传输速率，因此数据重分区占据了连接算法的绝大部分时间，成为分布式内存数据库系统中等值连接操作的性能瓶颈.本文提出了一种新颖的分布式内存数据库环境下的等值连接算法LCDJ(Locality Conscious Distributed Join)，在充分利用高效的内存计算的同时尽量减少网络数据传输量.算法首先对每个表连接属性的数据分布进行精确的统计，并结合并行度和计算负载均衡因素，进而建立代价模型来衡量不同调度策略下的时间开销，并求出最优的调度策略.LCDJ实现于基于内存的分布式原型系统Claims中.实验结果表明，本文所提算法有效地降低了网络传输代价，大幅度减少了响应时间，比起当前流行的Hive和Shark等系统有明显的性能提升.

相关文章 | 计量指标

Select

Co-OLAP: CPU&GPU混合平台上面向星形模型基准的协同OLAP

张宇, 张延松, 张兵, 陈红, 王珊

2014 (5): 240-251. doi: 10.3969/j.issn.10005641.2014.05.021

摘要 ( 1750 )

PDF(2631KB) ( 1464 )

当前GPU(图形处理器),即使是中端服务器配置的中端GPU也拥有强大的并行计算能力.不同于近期的研究成果,中端服务器可能配置有几块高端CPU和一块中端GPU,GPU能够提供额外的计算能力而不是提供比CPU更加强大的计算能力.本文以中端工作站上的Co-OLAP(协同OLAP)为中心,描述如何使中端GPU与强大的CPU协同以及如何在计算均衡的异构平台上分布数据和计算以使Co-OLAP模型简单而高效.根据实际的配置,基于内存容量,GPU显存容量,数据集模式和订制的AIR(数组地址引用)算法提出了最大高性能数据分布模型. Co-OLAP模型将数据划分为驻留于内存和GPU显存的数据集,OLAP计算也划分为CPU和GPU端的自适应计算负载来最小化CPU和GPU内存之间的数据传输代价.实验结果显示,在SF=20的SSB(星形模型基准)测试中,两块至强六核处理器的性能略优于一块NVIDA Quadra 5 000 GPU(352个cuda核心)的处理性能, Co-OLAP模型可以将负载均衡分布在异构计算平台并使每个平台简单而高效.

相关文章 | 计量指标

Select

批处理在内存数据处理系统中的应用

周烜, 薛忠斌

2014 (5): 252-262. doi: 10.3969/j.issn.10005641.2014.05.022

摘要 ( 1824 )

PDF(1591KB) ( 1798 )

内存数据处理相较磁盘数据处理有明显的速度优势.在基于磁盘的数据管理系统中，设计者往往会花很多精力对事务响应时间进行调优，以提高应用的用户体验.在内存数据管理系统中，由于存储介质的改变，事务响应时间得到极大提升，甚至远远超出应用系统的需求.因此，系统设计者将注意力转移到对吞吐率的优化上.批处理技术的本质是通过牺牲响应时间换取吞吐率，它将在内存计算中得到广泛应用.本文讨论批处理方式在内存数据管理系统中的应用，并以移动对象管理为实际案例，验证批处理在内存数据管理中的优化效果.

相关文章 | 计量指标

Select

Spark上的等值连接优化

卞昊穹, 陈跃国, 杜小勇, 高彦杰

2014 (5): 261-270. doi: 10.3969/j.issn.10005641.2014.05.023

摘要 ( 3460 )

PDF(833KB) ( 1625 )

等值连接作为数据分析中最常用、代价最高的操作之一，在Spark上的实现和优化与传统并行数据库有很大的差别，传统并行数据仓库中基于数据预划分的连接算法在Spark上难以实现，而目前被广泛采用的Broadcast Join和Repartition Join性能较差，如何提高连接性能成为基于Spark的海量数据分析的关键.本研究将SimiJoin与Partition Join的优势相结合，并基于Spark上的特性提出了一种优化的等值连接算法.代价分析和实验表明本算法比现有基于Spark的数据分析系统中的连接算法性能提升1~2倍.

相关文章 | 计量指标

Select

一种面向海量分布式数据库的嵌套查询策略

裴欧亚, 刘文洁, 李战怀, 田征

2014 (5): 271-280. doi: 10.3969/j.issn.10005641.2014.05.024

摘要 ( 1987 )

PDF(1646KB) ( 2266 )

面向大数据分析和处理的NoSQL数据库具有非常好的读写性能和可扩展性，但是无法支持完整的SQL查询和跨行跨表的事务，对于传统的以关系数据库为主的金融业务在应用上有所限制.OceanBase是面向海量数据查询的分布式数据库，结合了关系数据库和非关系数据库的优势，同时支持关系查询和跨行跨表事务，具有可扩展性.但是，目前OceanBase只支持简单的、非嵌套子查询的SQL语句，无法很好地支持金融应用.本文在研究OceanBase架构和查询策略的基础上，提出了一种基于BloomFilter和HashMap的查询策略，实验表明该策略能够提高和改善现有查询策略的不足，在实现嵌套查询的基础上，可提高查询性能.

相关文章 | 计量指标

Select

面向OceanBase的存储过程实现技术研究

朱涛, 周敏奇, 张召

2014 (5): 281-289. doi: 10.3969/j.issn.10005641.2014.05.025

摘要 ( 1812 )

PDF(900KB) ( 1712 )

存储过程是一段被命名后保存在数据库服务器端，并预先编译好的代码，可以减少前台应用程序和后台数据库间的网络传输量. 本文主要研究基于静态语言和动态语言，两种典型的存储过程实现方法，来阐述存储过程实现的基本原理. 并基于此，进一步探讨了在OceanBase主存数据库服务器中添加存储过程模块的解决方案和技术难点.

相关文章 | 计量指标

Select

分布式环境中数据库模式设计实践

庞天泽, 张晨东, 高明, 宫学庆

2014 (5): 290-300. doi: 10.3969/j.issn.10005641.2014.05.026

摘要 ( 2163 )

PDF(2321KB) ( 2099 )

近年来，数据规模呈爆炸式增长，使得传统集中式数据库难以满足业务需求.而分布式数据库可以将数据存储在多个节点上，具有更好的扩展性，从而可以支撑业务的不断增长.目前，许多企业已经开发出了成功的分布式数据库产品，例如Google Spanner、淘宝的OceanBase等.传统数据库模式设计中，三大范式（1NF、2NF和3NF）及其扩展范式能够减少数据冗余和更新异常,并保证数据的完整性.然而，在分布式架构下，严格遵循范式的模式设计可能带来查询效率较低等问题，而使用反范式模式设计方法通常可以有效提高查询效率.OceanBase是淘宝自主研发的分布式数据库，支持跨行跨表事务，并在OLTP中具有良好的性能，但是对于OLAP业务，其性能并不高.本文将以OceanBase为例，介绍如何利用反范式设计分布式数据库模式，以改善OLAP的查询性能，并通过在OceanBase上部署TPCH基准评测验证了反范式模式设计的有效性和高效性.

相关文章 | 计量指标

Select

面向OLAP应用的OceanBase模式设计

顾伶, 翁海星, 胡华梁, 赵琼

2014 (5): 301-310. doi: 10.3969/j.issn.10005641.2014.05.027

摘要 ( 2390 )

PDF(3186KB) ( 1836 )

随着大数据时代的来临，用户查询需求也越来越复杂，对数据库的可扩展性和SQL查询效率都提出了很高的要求.OceanBase是Alibaba研发的适应互联网规模的关系型分布式数据库，能够做到可扩展、低成本、高可用，并能应用到很多业务场景，包括OLTP和OLAP.然而，当前发布的最新OceanBase只支持主键索引，还不能支持二级索引.其次，OceanBase在连接上没有并行处理，使得查询效率较低.因此，为了能够使用主键索引及减少连接来加快查询速率，OceanBase模式设计是必要的.本文主要以TPCH的22个查询为OLAP的研究案例，分析传统数据库的模式设计，并提出OceanBase分布式数据库下的模式设计规则，最后将会通过实验来验证这套模式设计规则的有效性.

相关文章 | 计量指标

Select

内存数据管理技术在族谱信息系统中的应用

张文杰, 彭智勇, 彭煜玮

2014 (5): 311-319. doi: 10.3969/j.issn.10005641.2014.05.028

摘要 ( 1338 )

PDF(712KB) ( 2035 )

设计并实现了具有数据录入、数据服务、数据输出功能的族谱信息系统. 族谱信息系统采用了分布式结构，在每个分布数据节点引入内存数据管理技术,采用列存储模型，自动初始化热点数据，并根据用户请求组织数据建立索引，同时利用事务日志对每个分布数据节点的内外存进行数据同步，对中心数据节点和分布数据节点进行数据同步.

相关文章 | 计量指标

Select

如何客观评测内存数据库的性能

康强强, 金澈清, 张召, 胡华梁, 周傲英

2014 (5): 320-329. doi: 10.3969/j.issn.10005641.2014.05.029

摘要 ( 1832 )

PDF(1829KB) ( 2132 )

在过去的10年间，随着硬件技术不断发展，内存价格越来越低，许多计算机系统均布置了大容量内存.数据库系统开发商和研究人员认识到这一趋势，并开发出多款内存数据库产品，其特点在于先将数据装载到内存之中，再执行相应的数据管理任务.随着内存数据库的出现，如何客观、公正地评测它的性能显得愈发重要.尽管当前不乏关于关系型数据库系统的评测基准，例如威斯康星测试基准和TPCX系列等，但是这些基准并未充分考虑内存数据库的重要特性，因此不适合评测内存数据库.本文提出了一种面向内存数据库的评测基准（InMemBench），与传统的关系数据库基准显著不同，它综合考虑了内存数据库特有的数据预取过程、物理组织方式和压缩能力等方面的重要特点.最后，本文还通过新基准比较了4款内存数据库的性能.

相关文章 | 计量指标

Select

面向社交数据流连续查询的基准评测

李叶, 夏帆, 钱卫宁

2014 (5): 330-339. doi: 10.3969/j.issn.10005641.2014.05.030

摘要 ( 1547 )

PDF(684KB) ( 2216 )

社交数据流上的连续查询处理具有广泛的应用，但其处理技术仍不成熟.本文对社交数据流上的连续查询问题进行建模，定义数据特征、负载类型与分布，以及性能测度.在此基础上，提出一个面向该问题的基准评测.该工作对社交数据流处理应用的系统选型、相关查询处理技术性能比较具有重要意义.

相关文章 | 计量指标

Select

数据库性能测试可视化工具VisualDBBench及面向内存数据库的应用

李梁, 吴刚, 刘辉林, 王国仁

2014 (5): 340-350. doi: 10.3969/j.issn.10005641.2014.05.031

摘要 ( 2044 )

PDF(4135KB) ( 2010 )

从开发自动化数据库基准测试工具的角度，深入研究了TPC组织发布的TPCC测试标准和TPCH测试标准.在此基础上，给出了测试模型，介绍了所开发的自动化测试工具VisualDBBench的架构和主要类的功能.并且针对内存数据库进行测试，验证了内存数据库的性能优势.

相关文章 | 计量指标

当期目录