更新时间:2022-08-13 21:11:37

产生原因

集群环境下,由于各节点需要同步数据。在突然断电或断网的情况下,会对数据库集群造成影响。通电或通网后系统重启,DBService 和 KADService 服务拉起时也在等待其他节点启动,但某些 Python 还未启动,或 KADService 服务检测到某些服务异常。此时,KADService 服务将自行停止启动防止脑裂。
 

解决方法

请按照如下步骤操作:
1. 等待集群环境重启成功。
2. 分别在各节点的任意目录下执行 systemctl -a|grep AB 命令查看所有服务的状态是否正常。
3. 在查看到 ABDBService 和 ABKADService 服务状态均为 “running” 时,如果存在其他服务状态异常,可尝试重启异常服务。
    重启服务的命令为:systemctl restart 服务全称.service
    各服务全称请参考 服务与服务全称对照表
4. 如果查看到 ABDBService 和 ABKADService 服务状态异常,请联系爱数实施工程师排查问题。
5. 进入 AnyBackup Server 软件安装目录 /backupsoft/AnyBackupServer/etc 目录。
6. 执行 cat restart.config 命令查看 restart.config 配置文件内容。
    

7. AnyBackup Server 安装完成后,“re_sc” 参数值将为 “1”,表示节点重启(通电或通网)时,KADService 服务进入 backup 状态并检测所有 Python 服务状态 20 次,每次 10 秒。如果发现异常状态,将自动拉起异常状态的服务。
    该文件内容可修改,将 “re_sc” 参数值修改为 “0”,表示节点重启时,KADService 服务将不检测所有 Python 服务。