pcs status fail cleanup

— 이강우 2023/05/28 13:24

pacemaker를 통한 클러스터 구성시 간혹 장애상황에 대한 로그가 pcs status에 보여지는경우가 있다.
아래와 같은 경우

[root@Int-SFDB-01 ~]# pcs status
Cluster name: CLSFDB
Stack: corosync
Current DC: ha-sfdb-01 (version 1.1.23-1.el7_9.1-9acf116022) - partition with quorum
Last updated: Mon Jan 25 13:13:46 2021
Last change: Mon Jan 25 13:13:34 2021 by hacluster via cibadmin on ha-sfdb-01

2 nodes configured
2 resource instances configured

Online: [ ha-sfdb-01 ha-sfdb-02 ]

Full list of resources:

 Resource Group: SFDBGR
     res-vip	(ocf::heartbeat:IPaddr2):	Started ha-sfdb-02
     res-mysqld	(systemd:mysqld):	Started ha-sfdb-02

Failed Resource Actions:
* res-mysqld_start_0 on ha-sfdb-01 'unknown error' (1): call=47, status=complete, exitreason='',
    last-rc-change='Mon Jan 25 13:08:53 2021', queued=0ms, exec=2060ms

Daemon Status:
  corosync: active/enabled
  pacemaker: active/enabled
  pcsd: active/enabled

위와같이 리소스 상태는 정상인데 Failed Resource Actions 항목에 이전 장애 상황에 대한 로그가 나타나는 경우가 있다.
이것은 장애가 발생하여 다른 노드로 정상적으로 전환되어 복구 되었지만 장애에 대한 로그가 보여지는것이다.

확인후 해당 내역을 삭제하고 싶다면 아래 pcs resource cleanup 명령어로 지워주면 된다.

[root@Int-SFDB-01 ~]# pcs resource cleanup

또한 위처럼 해당 노드에 장애가 감지되면 해당 노드는 더이상 서비스를 수행할수 없다고 판단한다. 장애 원인을 제거하고 정상동작 가능한 상태로 복구한 이후라고 하여도 위처럼 클러스터 노드 상태가 fail상태이기 때문에 해당 노드로 전환이 되지 않는다.

따라서 이 명령어로 장애 이력을 제거하여 주던지 해당 리소스의 failure-timeout 메타값을 추가하여 주어야 한다.

crm 명령어 사용시

crm_mon, crm_resource 사용시에는 아래처럼 사용한다.

# crm_resource --cleanup

https://clusterlabs.org/pacemaker/doc/deprecated/en-US/Pacemaker/1.1/html/Pacemaker_Explained/s-failure-handling.html

pcs status fail cleanup

참조링크

AllThatLinux!