摘要: 当前,拥有超级计算能力的计算机系统通常是大型商用系统形成计算机集群.与所有的分布式系统一样,这些系统通过独立的计算机硬件协同合作共同实现超级计算的能力.然而在拥有超级计算能力的同时,集群中的任何一个组件随时都可能失效,从而导致错的输出.为了提高集群在系统出现故障的情况下的鲁棒性,许多容错技术已经被设计和实现,用以处理各种类型的系统故障.本文对各种现有的容错技术进行了总结归纳,以便在此基础之上进行进一步的研究从而适应当前环境下的系统容错.
中图分类号:
张新洲, 周敏奇. 大规模分布并行计算系统容错与恢复技术[J]. 华东师范大学学报(自然科学版), 2014, 2014(5): 207-215.
ZHANG Xin-Zhou, ZHOU Min-Qi. Fault tolerance recovery techniques in large distributed parallel computing system[J]. Journal of East China Normal University(Natural Sc, 2014, 2014(5): 207-215.