基于RS纠删码下HDFS云存储动态副本策略的思考

时间:2022-11-14 10:30:12 浏览量:

摘 要:现如今,科技发展速度不断加快,云存储效率在先进科技的带动下大大提高,但云存储文件系统应用期间受静态完全副本冗余机制影响较大,这在一定程度上会增加云存储负载压力,最终影响系统运行稳定性,减慢系统运行速度。文章首先简要介绍RS纠删码,然后针对HDFS完全副本与纠删码对比分析,最后重点探究RS纠删码基础下HDFS云存储动态副本策略。

关键词:RS纠删码;HDFS;云存储;动态副本策略

中图分类号:TP333 文献标志码:A 文章编号:2095-2945(2018)24-0038-02

Abstract: Nowadays, the scientific and technological development is being accelerated, and the efficiency of cloud storage is greatly improved by advanced science and technology. However, the redundant mechanism of static full replica greatly affects the application of cloud storage file system. To some extent, this will increase the cloud storage load pressure, and ultimately affect the stability of the system and slow down the speed of the system. This paper first briefly introduces RS erasure codes, then compares HDFS full replica with erasure codes, and finally focuses on the dynamic replication strategy of HDFS cloud storage based on RS erasure codes.

Keywords: RS erasure code; HDFS; cloud storage; dynamic replication strategy

前言

随着云存储文件系统应用频率的不断提高,以及系统存储量的相应增加,HDFS云存储动态副本策略能够更好的满足系统应用需要,同时,还能丰富RS糾删码理论内容,大大缩短系统相应时间。由此可见,本文针对该论题展开探究具有必要性,论题探究如下。

1 RS纠删码基本介绍

所谓RS纠删码,指的是等分数据文件于数据块,在此期间,字节为等分单位,接下来借助编码完成校验块生成操作。针对数据还原处理时,充分准备纠删码个别数据块的校验块即可,其中,数据块内含多个字节,所含字节长度为W位。丢失数据分块在允许的块数范围内,则原数据文件恢复不会受到影响[1]。

2 对比分析HDFS完全副本与纠删码

大数据时代悄然而至,在这一时代背景中,云存储构建存储资源池,以此实现大数据存储目标。现如今,云存储应用范围较广,云存储产品基于数据冗余机制完成具体应用,常见方式主要有两种,第一种即完全副本冗余——DPHS,第二种即纠删码——RS。前者即针对数据块复制,并存储于不同数据节点,这能大大提高系统利用率,完全副本冗余——DPHS应用简答,但应用成本较高,并且还会影响系统可拓展性。相对而言,纠删码——RS能够增强系统可靠性,提高空间利用效率。下文针对二者存在的优缺点具体介绍,以便为接下来的分析工作奠定理论基础。

2.1 完全副本冗余机制

DPHS模块细分两类,第一类即分布式存储,第二类即分布式管理,它以slave架构为基础,由DataDode、NameNode等节点组成,两节点分别负责数据存储和原数据管理。DPHS针对数据分块存储,以此提高文件存储效率以及可靠性,同时,还能提高数据利用率,DPHS应用完全副本策略不仅会延长索引时间,而且还会提高线性成本,最终会增加系统运行阻力,不利于提升系统性能。

2.2 纠删码冗余

纠删码在线性编码特点的引导下大大提高空间利用率,并且能在短时间内纠正错误,尽最大可能保证数据准确性。相关学者对比分析纠删码冗余以及完全备份冗余,分析可知,相同条件下前一种方法能够扩大存储空间。本文介绍的RS纠删码特点表现为:小容量;较强纠错能力;编码解码速度较慢,将其用于谷歌分布式文件系统——Colossus,有步骤完成数据输入。据实践总结可知,RS纠删码应用过程中存在些许不足,即编码解码过程较复杂,导致解码效率大大降低。

从上述介绍中可以看出,完全副本冗余——DPHS与纠删码——RS均存在应用优势和不足,为了更好的弥补不足,应用HDFS云存储动态副本策略,以此提升系统实用性,该策略具体分析如下。

3 基于RS纠删码下HDFS云存储动态副本策略分析

3.1 基本介绍

以文件为目标应用RS纠删码动态副本策略,最初应用HDFS的过程中,为提高系统可靠性,加快数据读取速度,适当应用完全副本策略,同时,细分文件热度级别,使其对应副本数。接下来有步骤完成增减操作,直到文件热度降低,待热度低至要求的标准后,利用RS编码细分为两部分,第一部分即数据部分,数据利用率相对较高;第二部分即冗余编码部分,待数据恢复后方可应用,并在各个数据节点合理安排编码块。编码文件内部数据块读取时,一旦出现数据丢失现象,通过解码操作进行文件获取[2]。

3.2 制定设计目标

由于数据增长速度不断加快,数据量大大增多,对此,应维持云存储负载均衡能力,全面弥补完全副本冗余策略存在的劣势,设计合理的基于RS纠删码的动态副本冗余策略,在这一过程中制定设计目标。首先,掌握当前大数据时代数据快速运转需要,并提高数据读取效率;其次,提高数据真实性和可靠性,与时俱进的更新存储设备,避免数据信息失效,如果数据更新速度不及时,那么数据可靠性得不到保证;然后,减少数据存储成本,因为数据量不断增多,只有合理控制数据存储成本,才能做好系统维护工作,并且系统拓展性能会不断优化。最后,优化系统拓展性,增加适量的存储设备,确保系统存储水平大大提高。

3.3 优化副本模块

HDFS云存储动态副本策略在文件处理的过程中,要想降低存储成本,务必细分文件内容,平衡系统负载能力。在此期间,副本模块用来调整文件热度以及副本数量,只有文件热度低至要求标准,副本数自然会减少,最终存储成本会大大降低。对于高热度、多副本数的文件处理时,通过适当降低负载节点来平衡负载能力,充分发挥负载均衡优势。

针对文件热度计算时,既要了解文件大小,又要准确统计访问频率,因为高热度文件的访问次数十分频繁,进而会相应增加副本数,大大提高数据读取效率。在这一过程中,细分文件热度,并对应副本数与各级文件热度,据此有步骤完成文件副本调整任务。如果副本数少于3,那么应用纠错码编译模块有序调整,尽可能提高數据可靠性。

3.4 调整纠删码编解码模块

纠删码编解码模块围绕HDFS完成文件编解任务,这在一定程度上能够减轻客户端工作压力,避免客户端工作任务量过多出现延时操作现象,与此同时,能够提升用户满意度,有利于提升系统服务质量。纠删码——RS依据矩阵差异完成类别划分,以此降低编码复杂度。纠删码编解码模块应用异步编码模式,首先应用多副本方式完成文件存储任务,待系统常规化运行后,针对纠删码编解码模块适当调整,细分文件热度级别,以便为文件编码奠定良好基础。

3.5 实验分析

针对基于RS纠删码下HDFS云存储动态副本策略应用效果进行实验分析,全面了解该策略优越性,同时,构建HDFS集群环境,有步骤组织测试活动,具体分析如下。

数据可靠性:针对RS(7.11)编码处理,所选节点故障数量为四个,动态副本策略应用后,其中一个节点故障能够高效恢复文件,其余三个节点故障则不可。存储效率:动态副本策略适时应用,不仅能够提高系统存储效率,而且还能优化系统性能。负载均衡:应用动态副本策略,能够减轻原有节点副本压力,同时,还能提高HDFS访问效率,大大缩短系统访问时间。总结可知,基于RS纠删码下HDFS云存储动态副本策略高效应用,不仅符合云存储系统持续发展需要,而且还能提升云存储系统性能,在保证数据可靠性、提高数据存储效率、提高负载均能能力等方面发挥重要作用[3]。

4 结束语

综上所述,云存储文件系统应用原有存储策略存在一定劣势,为满足云存储系统运行需要,提高动态副本策略应用效率,以此补充原有存储策略存在的不足,全面优化云存储系统性能,大大提高数据存储可靠性。此外,有利于降低数据存储成本,合理平衡系统负载能力,不断提高文件读取速度。

参考文献:

[1]左方,何欣.一种基于蚁群算法的云存储副本动态选择机制研究[J].计算机应用研究,2015,32(11):3368-3370+3374.

[2]张浩,赵磊,冯博.CACDP:适用于云存储动态策略的密文访问控制方法[J].计算机研究与发展,2014,51(07):1424-1435.

[3]胡德敏,余星.一种基于同态标签的动态云存储数据完整性验证方法[J].计算机应用研究,2014,31(05):1362-1365+1395.

推荐访问:副本 策略 思考 动态 RS