如何使用无代理模式备份恢复Hadoop分布式文件系统?
若您需要将客户端软件安装在Hadoop集群之外的其它Linux主机上,使用无代理模式备份Hadoop分布式文件系统,请您参考如下建议进行相关配置。
-
无代理客户端操作系统是Hadoop分布式文件系统定时备份已兼容的操作系统版本,详情请参考《AnyBackup Family 8 软件兼容性列表》。
-
无代理客户端与目标集群网络互通。
-
在无代理客户端上安装jdk并加入环境变量,安装路径与原集群保持一致。
-
同步目标集群HDFS资源文件以及配置文件至无代理客户端:
-
Apache版本同步目标集群任意节点的Hadoop安装目录至无代理客户端。
-
CDH版本需同步目标集群任意节点parcels目录下资源包目录,默认路径为 /opt/cloudera/parcels/CDH-xxx; 以及配置文件目录。
CDH版本还需同步HDFS配置文件至无代理客户端,默认为 /etc/hadoop,注意alternatives功能软连接的处理,或可使用scp进行同步,link文件会转化为实体文件。
-
FusionInsight版本需在无代理客户端上安装hadoopclient。
-
TDH版本需在无代理客户端上安装tdc-client。
-
-
若目标集群开启了Kerberos,执行下面操作:
yum install -y krb5-workstation krb5-libs krb5-auth-dialog
- 安装kerberos客户端
- 同步目标集群Kerberos客户端配置文件krb5.conf,默认在 /etc 目录下
- 认证HDFS备份用户产生票据文件(或keytab文件)
-
配置完成后可在无代理客户端使用hdfs命令远程访问目标集群HDFS文件系统,命令如下:
确认上述配置无误后,您可参考[安装客户端]在无代理客户端上安装AnyBackup客户端软件,然后使用无代理客户端备份或恢复Hadoop分布式文件系统。
Hadoop分布式文件系统集群不可用时如何恢复备份的文件?
若您备份的Hadoop分布式文件系统集群环境已损坏,不可使用,且没有其他Hadoop分布式文件系统可以进行恢复,您需要将原Hadoop分布式文件系统的备份恢复至除Hadoop HDFS以外的其它文件系统。
此时,您可以参考新建恢复任务步骤,选择其它文件文件系统进行恢复。可支持恢复的其他文件系统有ext4、ext3、xfs。
如何为Hadoop分布式文件系统备份/恢复配置多代理客户端并发来提升备份/恢复效率?
若您需要提升Hadoop分布式文件系统备份/恢复效率,可以使用多代理客户端并发备份/恢复场景进行Hadoop分布式文件系统的备份恢复。
此时,您可以参考[安装客户端],将多节点客户端进行客户端软件安装,然后进行多节点客户端的Hadoop文件系统备份/恢复。
Hadoop分布式文件系统备份/恢复性能的影响因素主要有如下几方面:Hadoop HDFS集群读写性能、客户端与控制台网络通道性能、存储服务器读写性能以及代理客户端数量,这些因素综合影响备份/恢复的性能。在其他因素一定的情况下,增加代理客户端的数量能显著提升备份/恢复的速度,同时随着代理客户端数量逐渐增多,备份/恢复速度的增加幅度逐渐减少,直至趋于server端网络、存储瓶颈或者HDFS集群并发读写瓶颈,因此建议合理地配置代理客户端数量,可通过如下方法尝试寻找最优的代理客户端配置数量。
- 根据server端网卡或存储的上限值初步配置代理客户端数量,代理客户端数量=网卡带宽(或存储上限,两者取小)/单代理客户端备份速度/0.8
- 逐步增加代理客户端数量(如每次增加2个代理客户端),查看备份速度较之前有没有明显提升,若有明显提升,则重复执行步骤2,直至备份速度变化不明显,选取上一次代理客户端数量;若没有明显提升,则执行步骤3。
- 逐步减少代理客户端数量(如每次减少1个代理客户端),查看备份速度较之前有没有明显降低,若没有明显降低,则重复执行步骤3,直至备份速度变化不明显,选取本次代理客户端数量;若有明显降低,则选取上一次代理客户端数量。
例如:Hadoop7节点实体机集群,server端配置双万兆网卡并组bond,存储性能最高为2Gib/s以上,HDFS单代理客户端备份速度为410Mib/s,配置代理客户端数量步骤如下。
- 计算初始代理客户端数量为2048/410/0.8=6.24,6个代理客户端实际备份速度为1.62Gib/s。
- 增加代理客户端数量,测试8个代理客户端实际备份速度为1.64Gib/s,与6个代理客户端备份性能差别不大。
- 减少代理客户端数量,测试5个代理客户端实际备份速度为1.23Gib/s,性能下降较多,因此选择6个代理客户端进行备份较为合理。
注意:建议您添加代理客户端的个数不超过50个。若创建超过50个代理客户端时,可能会遇到超时报错。代理客户端数量的多少不取决于Hadoop集群的节点数量,Hadoop集群节点数量较少时可使用无代理模式的代理客户端。
备份存储空间容量较小的情况下,备份任务应如何配置?
如果您遇到如下场景:
您的Hadoop分布式文件系统备份数据占用空间越来越大,而管理保存数据的成本及数据中心空间和能耗也变得越来越严重,随着时间的推移冗余数据越来越多时,您迫切希望缓解存储系统的空间增长,缩减数据占用空间,降低成本,最大程度地利用已有资源。
此时,您可以在创建任务时,为备份任务配置备份策略。您可以参考备份策略,根据业务需要配置副本保留策略。系统将根据您的配置,在每次任务执行时自动删除您不需要的数据副本。缩减数据占用空间的压力。
在网络资源紧张的情况下,备份任务应如何配置?
若您的备份数据网络通道资源紧张,您希望在此场景下继续Hadoop分布式文件系统的备份任务。
此时,您可以在创建任务时,设置合理的备份策略,使大容量数据的备份任务在业务不繁忙的时间段进行备份操作。
您可以参考[备份策略],根据业务需要设置合理的备份策略。