공유할 서비스 선택

TECH


TECH

OS [Cluster] RHEL(Centos) 7 Pacemaker 운영 매뉴얼

페이지 정보

작성자 Leesangwoo 아이디로 검색 전체게시물 댓글 0건 조회 13,886회 좋아요 0회 작성일 20-03-29 01:58

본문

- RHEL 7 Pacemaker 운영 메뉴얼 

 

  

1. Pacemaker 상태 확인 : 클러스터 데몬 상태 확인 (인프라 환경 , 유지보수 항목)

2. Pacemaker 시작 및 정지 : 클러스터 데몬 start & stop

3. Pacemaker 서비스 이관 : 클러스터 데몬 move

4. Pacemaker 장애 처리 : 클러스터 트러블슈팅

 



- 환경

 CentOS 7.5-1804 x2

 RHEL 7.5 x2

 VMware ESXI

 

클러스터 서비스를 정상적으로 운영되기 위해서는, 아래 항목들까지 체크해주시면 좋습니다.

아래 내용 중 하나라도 문제가 생기면 정상적인 failover가 어렵습니다.


# FQDN / hostname - 클러스터는 노드들을 FQDN or hostname으로 식별.

# Network - 노드간 통신을 TCP/IP 기반

# Firewall - 클러스터 통신에 사용되는 TCP/UDP 포트가 노드끼리 오픈되어 있어야 합니다.

# NTP - 노드간 시각 동기화 필수화.

# Fencing device - 장애시 데이터 손실 방지를 위한 전원 및 장애발생시 장애 공유볼륨 접근 차단.

 

 

 

1 Pacemaker 상태 확인 


   1) hosts 파일 확인 : 클러스터 노드의 /etc/hosts 파일을 확인합니다. 다르다면 동일하게 수정해주셔야 합니다.
7ef03c306c5efe7246180db30074b576_1585486023_2686.jpg7ef03c306c5efe7246180db30074b576_1585486023_3797.jpg

   2) firewalld 확인 : 클러스터 노드의 firewalld ( 방화벽 ) stop인지 확인합니다.
7ef03c306c5efe7246180db30074b576_1585486104_6052.jpg7ef03c306c5efe7246180db30074b576_1585486104_6475.jpg

   3) interface 확인 ( network ) : 클러스터 노드의 interface 상태를 확인합니다.
   - service interface가 state DOWN이면 서비스 문제가 발생,
   - heartbeat interface가 state DOWN이면 Cluster에 문제가 발생.

7ef03c306c5efe7246180db30074b576_1585486300_9428.JPG7ef03c306c5efe7246180db30074b576_1585486300_99.jpg

   - gateway와 heartbeat 대역 ping 체크.
7ef03c306c5efe7246180db30074b576_1585486946_1771.JPG7ef03c306c5efe7246180db30074b576_1585486946_2286.JPG

 4) 시각 동기화 상태 확인 : 클러스터 노드 상태와 log의 timestamp를 위하여 ntp 동기화를 체크합니다.
7ef03c306c5efe7246180db30074b576_1585486467_2681.jpg7ef03c306c5efe7246180db30074b576_1585486467_3098.jpg

 5) pcs 데몬 확인 : 1,2 노드에 pacemaker 관리 데몬인 pcsd 상태확인. 만약 시작이 안되어 있다면 시작해줍니다.
7ef03c306c5efe7246180db30074b576_1585486638_6482.jpg7ef03c306c5efe7246180db30074b576_1585486638_6952.jpg

  6) Cluster 상태 확인 : Cluster 상태 확인은 pcs status 명령어로 가능합니다.
7ef03c306c5efe7246180db30074b576_1585487060_401.jpg

 ①은 현재 Cluster에서 서비스 가능한 노드를 나타냅니다. 
   - 만약 [ Online ]에 없는 노드 (  ex - offline, standby ) 에 있으면 online에 있는 노드가 장애가 발생해도 넘어가지 않습니다.
 ②은 현재 Cluster에서 어느 노드에 리소스를 시작중인지 표시해 줍니다.
 ③은 각 데몬의 상태를 알려줍니다.
   - corosync 데몬은 active ( 실행 중 ) / disabled ( OS 부팅시 자동 실행 안됨 ) 을 알려줍니다. 
     ( 만약 한쪽 노트만 enable 했다면, 각 노드 별로 다르게 표시 될 수 있으니 양 노드 확인 필요합니다. )

   7) 공유볼륨 멀티패스 확인 : 1,2 노드에 공유볼륨 연결상태 확인 
155f80e0bdab6b4e9f283330f26662c0_1588566620_1653.JPG
155f80e0bdab6b4e9f283330f26662c0_1588566620_228.JPG

   8) LVM 확인 : lvs 출력내용 중 클러스터 리소스로 사용되는 논리볼륨의 Attr 필드에 a(activate) tag가 있어야 접근 가능, o( open ) 은 사용중이라는 tag입니다.
372231230805359472a6b501d62f30bf_1588814599_1463.JPG

   9) resource 확인 : Cluster 서비스가 실행중인 노드 ( 이미지는 1노드 ) 에서 vip와 volume이 보이는지 확인합니다.
7ef03c306c5efe7246180db30074b576_1585488048_072.jpg
7ef03c306c5efe7246180db30074b576_1585488048_1221.jpg

   10) fencign device 확인 : stonith ( fence ) 리소스의 상태를 확인합니다. ( 문제가 있을 시 Started 가 아님 )

2da7d8a76bd962f13eae55ac286e7322_1592379265_1255.jpg






2. Pacemaker 시작 및 정지

   1) Pacemaker 2가지 기동 방법

7ef03c306c5efe7246180db30074b576_1585488706_6264.jpg
 - 모든 노드의 Cluster를 기동하는 방법

7ef03c306c5efe7246180db30074b576_1585488706_5838.jpg
 - 각각의 단일 노드 Cluster를 기동하는 방법

   2) Pacemaker 2가지 정지 방법

7ef03c306c5efe7246180db30074b576_1585489547_8047.JPG
 - 모든 노드의 Cluster를 정지하는 방법

7ef03c306c5efe7246180db30074b576_1585489547_8925.JPG
 - 각각의 단일 노드 Cluster를 정지하는 방법

3. Pacemaker 서비스 이관
7ef03c306c5efe7246180db30074b576_1585489628_4227.jpg

- 서비스에서 제외 : pcs cluster standby ha1-hb ( 1 노드 ) 하면 Online ( 서비스 가능한 리스트 ) 에서 제외됩니다.
  만약 서비스 중인 노드를 Online에서 제외하면 다른 노드로 서비스가 넘어갑니다.

7ef03c306c5efe7246180db30074b576_1585489628_4704.JPG

- 서비스에 포함 : pcs cluster unstandby ha1-hb ( 1 노드 ) 하면 Online ( 서비스 가능한 리스트 ) 에서 다시 포함됩니다.





4. Pacemaker 장애 처리

   1) Pacemaker 상태 error 메시지 확인

d5eaf66cbe034043a7d61069508a3c3e_1586158405_417.jpg

- pcs status 아래에 보면 Failed Actions은 pacemaker의 이슈 log입니다. 
  만약 pcs resource cleanup 해도 이슈 log가 안사라진다면 해당 부분은 점검이 필요합니다.


   2) Pacemaker config 확인 : 경로는 /var/lib/pacemaker/cib/cib.xm에 있습니다.

7ef03c306c5efe7246180db30074b576_1585491650_3763.JPG

- 그리고 cib-raw 파일들은 설정이 바뀌면 생기는 파일들 입니다.


   3) Pacemaker log 확인

7ef03c306c5efe7246180db30074b576_1585492221_501.JPG

- Cluster 의 상세로그는 /var/log/cluster/corosync.log 로 확인하비면 됩니다.


7ef03c306c5efe7246180db30074b576_1585492221_5537.JPG

- Cluster의 기본로그는 /var/log/messages로 확인 하시면 됩니다.


댓글목록

등록된 댓글이 없습니다.

TECH 목록
번호 제목 작성자 작성일 조회수
104 OS OSworker 아이디로 검색 전체게시물 11-17 55
RHEL 9.5 가 11월 12일에 릴리즈 되었습니다. 간략하게 살펴보시죠~

카테고리 : OS

55 0
작성자 : OSworker 24/11/17
103 OS OSworker 아이디로 검색 전체게시물 11-10 85
어떤 프로세스 어떤 이유로 인해 성능에 문제가 생겼을때 perf로 그 문제를 찾아보세요.

카테고리 : OS

85 0
작성자 : OSworker 24/11/10
102 OS OSworker 아이디로 검색 전체게시물 10-31 138
AI에 대한 관심이 많습니다. 혹시 RHEL AI에 대해 들어보셨나요?

카테고리 : OS

138 0
작성자 : OSworker 24/10/31
101 OS OSworker 아이디로 검색 전체게시물 10-24 167
Fedora와 Red Hat Enterprise Linux의 차이점

카테고리 : OS

167 0
작성자 : OSworker 24/10/24
100 OS OSworker 아이디로 검색 전체게시물 10-11 208
audit 로그에 저장된 time 을 날짜/시간 으로 변경하여 보는법

카테고리 : OS

208 0
작성자 : OSworker 24/10/11
99 OS OSworker 아이디로 검색 전체게시물 09-29 351
[보안취약점]"RHSB-2024-002 - OpenPrinting cups-filters"에 대해 설명드리고자합니다.

카테고리 : OS

351 0
작성자 : OSworker 24/09/29
98 OS OSworker 아이디로 검색 전체게시물 09-25 422
누가 설정파일을 수정했는지 알고싶어요? 그럼 audit를 사용해보세요~!

카테고리 : OS

422 0
작성자 : OSworker 24/09/25
97 OS OSworker 아이디로 검색 전체게시물 09-15 325
RHEL6.10 앞으로 어떻게 되나요? 아직도 RHEL6버전을 사용하신다구요?

카테고리 : OS

325 0
작성자 : OSworker 24/09/15
96 OS OSworker 아이디로 검색 전체게시물 08-30 428
SWAP이 왜 자꾸 사용하게 될까요? 누가 사용하는것일까요?

카테고리 : OS

428 0
작성자 : OSworker 24/08/30
95 OS OSworker 아이디로 검색 전체게시물 08-22 428
리눅스 서버에 RDP를 설치하여 윈도우에서 "원격데스크탑접속"으로 연결

카테고리 : OS

428 0
작성자 : OSworker 24/08/22
Total 104건
게시물 검색

주식회사 클럭스| 대표 : 이찬호| 사업자등록번호 : 107-87-27655
주소 : 서울특별시 영등포구 국회대로 800, 여의도파라곤
E-mail : sales@chlux.co.kr
Copyright © 클럭스 chlux.co.kr All rights reserved.
상단으로Top