TECH

TECH

OS [Linux] split-brain 현상

페이지 정보

작성자 LeeHyongDong 아이디로 검색 전체게시물 댓글 0건 조회 8,062회 좋아요 0회 작성일 20-03-16 23:12

본문

- Split-brain 설명 및 해결

소개

Split-brain은 의학용어에서 파생된 단어로 뇌가 두개로 분할되는 증상으로

cluster를 2 node 구성했을때 서로 통신이 되지 않아 자신이 유일한 노드로 인식해

공유 resource와 같은 자원이 충돌을 일으키게 되는 현상이다.

환경

• RHEL 6.1 이상 (클러스터 구성된서버)

• RHEL 7버전 이상 (클러스터 구성된서버)

• RHEL 8버전 이상 (클러스터 구성된서버)

• 클러스터가 2노드로 구성된 경우

구성

• 예시 클러스터 구상도입니다.

이슈

• cluster 구성 서버에서 Split-barain발생으로 resource충돌

보통의 클러스터 하면 이런 구상도를 생각하게 될텐데 Split-brain이란 단어 자체를 클러스터에 대입을 해보면 이해가 쉽게 됩니다.

클러스터를 뇌로 대입해서 설명을 드리겠습니다.

도미노를 세울때 양 뇌가 서로 다른 명령을 내려 세우던 도미노가 무너지거나 중간에 도미노가 빠지는 등의 오류가 생기게 됩니다.

클러스터 또한 마찬가지입니다 2개의 노드가 서로 다른 명령을 내리거나 중복되는 내용을 스토리지가 비정상적인 작동으로 인식을 하게 됩니다.

클러스터의 구성도입니다 위 그림은 클러스터 노드가 서비스 네트워크로 통신을 하고 사용자 및 스토리지 까지 서비스 네트워크를 이용하고있습니다.

이 클러스터 구성은 1번 노드의 네트워크가 끊어진다고 해도 split-brain이 발생하지 않고 2번노드에서 정상적인 작동을 합니다

split-brain이 발생하지 않는다면 그냥 클러스터를 이렇게 구성하면 되는거 아닌가 싶지만 모든 부하를 하나의 네트워크에 사용할경우

비용이 많이 발생할수 있기때문에 네트워크를 분할해 구성을 합니다.

이 클러스터 구성이 스플릿 브레인이 발생할수있는 구성도 입니다. 스플릿 브레인이 자주 발생하는 현상은 아니지만

위와 같은 구성도에서 heart-beat대역으로 통신하던 1번 node가 연결이 끊어지게되면서 fenceing이 일어나 1번 node가 재부팅이 되고

cluster에 다시 올라오지 않는다면 split-brain이 일어나지 않지만 fenceing이 일어나지 않거나 재부팅이 되서 비 정상적으로 cluster에 올라오게 되면

heart-beat대역에서 서로 통신이 되지 않는 상태에서 자신만이 유일한 노드라고 인식해 두개의 노드가 모두 active로 스토리지에 접근하게 되는걸 split-brain이라고 합니다.

구성도를 봐서 그냥 두개다 active로 있는게 무슨 문제인지 싶지만 스토리지를 cluster로 구성해 사용하게 될 경우 동시 접근을 하게되어

중복 주소를 할당하거나 서비스 데이터를 중복 전송 혹은 완전히 스토리지가 깨지게 되는 현상이 있을수 있습니다.

제가 사용하는 테스트 환경에서 강제적으로 스플릿 브레인 현상을 일으켜 봤습니다.

스플릿 브레인이 일어나 두개의 노드 모두 active로 vip를 노드 두개가 다 가지고 있어 할당 받고 있는게 확인됩니다.

해결 방안

split-brain현상이 발생하지 않게 하는 방법은 통신이 되지 않는 환경에서 두개의 노드를 다 살아 있지 않게 하면 됩니다.

예시)

- fenceing이 일어난후 node에서 cluster가 자동으로 올라오지 않게 설정한다.

- node를 홀수로 구성한다.

참조 문서

- 클러스터 구축 효과

http://www.chlux.co.kr/bbs/board.php?bo_table=board02&wr_id=43&sca=OS&page=3

댓글목록

등록된 댓글이 없습니다.

TECH 목록
번호	제목	작성자	작성일	조회수
126	OS 앞으로 RHEL 에서는 핫(Hot) DR 경우만 유료 라고 합니다~ 웜(Warm), 콜드(Cold)는 무료…	OSworker 아이디로 검색 전체게시물	06-29	105
앞으로 RHEL 에서는 핫(Hot) DR 경우만 유료 라고 합니다~ 웜(Warm), 콜드(Cold)는 무료~!!! 카테고리 : OS 105 0 작성자 : OSworker 25/06/29

125	OS RHEL 10 에서 pacemaker가 어떤것이 변경되었는지 찾아봤습니다.	OSworker 아이디로 검색 전체게시물	06-22	146
RHEL 10 에서 pacemaker가 어떤것이 변경되었는지 찾아봤습니다. 카테고리 : OS 146 0 작성자 : OSworker 25/06/22

124	OS EUS 는 알겠는데 EEUS는 뭔가요? Enhanced Extended Update Support	OSworker 아이디로 검색 전체게시물	06-10	168
EUS 는 알겠는데 EEUS는 뭔가요? Enhanced Extended Update Support 카테고리 : OS 168 0 작성자 : OSworker 25/06/10

123	OS RHEL10에 탑재되어있는 RHEL LIGHTSPEED 소개 #RHEL9.6도가능 #RHELAI	OSworker 아이디로 검색 전체게시물	05-28	238
RHEL10에 탑재되어있는 RHEL LIGHTSPEED 소개 #RHEL9.6도가능 #RHELAI 카테고리 : OS 238 0 작성자 : OSworker 25/05/28

122	OS 두번째 RHEL10 소개 - RHEL10 Lifecycle 소개 및 News	OSworker 아이디로 검색 전체게시물	05-23	268
두번째 RHEL10 소개 - RHEL10 Lifecycle 소개 및 News 카테고리 : OS 268 0 작성자 : OSworker 25/05/23

121	OS 드디어 RedHat Enterprise Linux 10이 나왔습니다. #RHEL10	OSworker 아이디로 검색 전체게시물	05-13	333
드디어 RedHat Enterprise Linux 10이 나왔습니다. #RHEL10 카테고리 : OS 333 0 작성자 : OSworker 25/05/13

120	OS xsos라고 들어보셨나요? #sosreport	OSworker 아이디로 검색 전체게시물	05-01	370
xsos라고 들어보셨나요? #sosreport 카테고리 : OS 370 0 작성자 : OSworker 25/05/01

119	OS sarchart 라고 들어보셨나요? sar datat 를 좀더 보기 편하게 만들어줍니다.	OSworker 아이디로 검색 전체게시물	04-23	503
sarchart 라고 들어보셨나요? sar datat 를 좀더 보기 편하게 만들어줍니다. 카테고리 : OS 503 0 작성자 : OSworker 25/04/23

118	OS Sosreport 생성시에 OS 의 모든 sar 데이터가 포함되지 않아요. 해결방법은?	OSworker 아이디로 검색 전체게시물	04-16	669
Sosreport 생성시에 OS 의 모든 sar 데이터가 포함되지 않아요. 해결방법은? 카테고리 : OS 669 0 작성자 : OSworker 25/04/16

117	OS 이슈 : sbd watchdog type stonith 사용시 메모리 누수 발생 #RHEL8.10 #RHE…	OSworker 아이디로 검색 전체게시물	03-29	807
이슈 : sbd watchdog type stonith 사용시 메모리 누수 발생 #RHEL8.10 #RHEL9.4 카테고리 : OS 807 0 작성자 : OSworker 25/03/29

TECH 목록

번호

제목

작성자

작성일

조회수

126

앞으로 RHEL 에서는 핫(Hot) DR 경우만 유료 라고 합니다~ 웜(Warm), 콜드(Cold)는 무료…