OS [Cluster] RHEL(Centos) 7 Pacemaker 운영 매뉴얼
페이지 정보
작성자 Leesangwoo 아이디로 검색 전체게시물 댓글 0건 조회 14,165회 좋아요 0회 작성일 20-03-29 01:58본문
- RHEL 7 Pacemaker 운영 메뉴얼
1. Pacemaker 상태 확인 : 클러스터 데몬 상태 확인 (인프라 환경 , 유지보수 항목)
2. Pacemaker 시작 및 정지 : 클러스터 데몬 start & stop
3. Pacemaker 서비스 이관 : 클러스터 데몬 move
4. Pacemaker 장애 처리 : 클러스터 트러블슈팅
- 환경
CentOS 7.5-1804 x2
RHEL 7.5 x2
VMware ESXI
클러스터 서비스를 정상적으로 운영되기 위해서는, 아래 항목들까지 체크해주시면 좋습니다.
아래 내용 중 하나라도 문제가 생기면 정상적인 failover가 어렵습니다.
# FQDN / hostname - 클러스터는 노드들을 FQDN or hostname으로 식별.
# Network - 노드간 통신을 TCP/IP 기반
# Firewall - 클러스터 통신에 사용되는 TCP/UDP 포트가 노드끼리 오픈되어 있어야 합니다.
# NTP - 노드간 시각 동기화 필수화.
# Fencing device - 장애시 데이터 손실 방지를 위한 전원 및 장애발생시 장애 공유볼륨 접근 차단.
1 Pacemaker 상태 확인
1) hosts 파일 확인 : 클러스터 노드의 /etc/hosts 파일을 확인합니다. 다르다면 동일하게 수정해주셔야 합니다.
2) firewalld 확인 : 클러스터 노드의 firewalld ( 방화벽 ) stop인지 확인합니다.
3) interface 확인 ( network ) : 클러스터 노드의 interface 상태를 확인합니다.
- service interface가 state DOWN이면 서비스 문제가 발생,
- heartbeat interface가 state DOWN이면 Cluster에 문제가 발생.
- gateway와 heartbeat 대역 ping 체크.
4) 시각 동기화 상태 확인 : 클러스터 노드 상태와 log의 timestamp를 위하여 ntp 동기화를 체크합니다.
5) pcs 데몬 확인 : 1,2 노드에 pacemaker 관리 데몬인 pcsd 상태확인. 만약 시작이 안되어 있다면 시작해줍니다.
6) Cluster 상태 확인 : Cluster 상태 확인은 pcs status 명령어로 가능합니다.
①은 현재 Cluster에서 서비스 가능한 노드를 나타냅니다.
- 만약 [ Online ]에 없는 노드 ( ex - offline, standby ) 에 있으면 online에 있는 노드가 장애가 발생해도 넘어가지 않습니다.
②은 현재 Cluster에서 어느 노드에 리소스를 시작중인지 표시해 줍니다.
③은 각 데몬의 상태를 알려줍니다.
- corosync 데몬은 active ( 실행 중 ) / disabled ( OS 부팅시 자동 실행 안됨 ) 을 알려줍니다.
( 만약 한쪽 노트만 enable 했다면, 각 노드 별로 다르게 표시 될 수 있으니 양 노드 확인 필요합니다. )
7) 공유볼륨 멀티패스 확인 : 1,2 노드에 공유볼륨 연결상태 확인
8) LVM 확인 : lvs 출력내용 중 클러스터 리소스로 사용되는 논리볼륨의 Attr 필드에 a(activate) tag가 있어야 접근 가능, o( open ) 은 사용중이라는 tag입니다.
9) resource 확인 : Cluster 서비스가 실행중인 노드 ( 이미지는 1노드 ) 에서 vip와 volume이 보이는지 확인합니다.
10) fencign device 확인 : stonith ( fence ) 리소스의 상태를 확인합니다. ( 문제가 있을 시 Started 가 아님 )
2. Pacemaker 시작 및 정지
1) Pacemaker 2가지 기동 방법
- 모든 노드의 Cluster를 기동하는 방법
- 각각의 단일 노드 Cluster를 기동하는 방법
2) Pacemaker 2가지 정지 방법
- 모든 노드의 Cluster를 정지하는 방법
- 각각의 단일 노드 Cluster를 정지하는 방법
3. Pacemaker 서비스 이관
- 서비스에서 제외 : pcs cluster standby ha1-hb ( 1 노드 ) 하면 Online ( 서비스 가능한 리스트 ) 에서 제외됩니다.
만약 서비스 중인 노드를 Online에서 제외하면 다른 노드로 서비스가 넘어갑니다.
- 서비스에 포함 : pcs cluster unstandby ha1-hb ( 1 노드 ) 하면 Online ( 서비스 가능한 리스트 ) 에서 다시 포함됩니다.
4. Pacemaker 장애 처리
1) Pacemaker 상태 error 메시지 확인
- pcs status 아래에 보면 Failed Actions은 pacemaker의 이슈 log입니다.
만약 pcs resource cleanup 해도 이슈 log가 안사라진다면 해당 부분은 점검이 필요합니다.
2) Pacemaker config 확인 : 경로는 /var/lib/pacemaker/cib/cib.xml 에 있습니다.
- 그리고 cib-raw 파일들은 설정이 바뀌면 생기는 파일들 입니다.
3) Pacemaker log 확인
- Cluster 의 상세로그는 /var/log/cluster/corosync.log 로 확인하비면 됩니다.
- Cluster의 기본로그는 /var/log/messages로 확인 하시면 됩니다.
댓글목록
등록된 댓글이 없습니다.