Synology High Availability 클러스터의 기능을 테스트하는 방법은 무엇입니까?
Synology High Availability 클러스터의 기능을 테스트하는 방법은 무엇입니까?
일부 문서는 영어에서 기계 번역되었으므로 부정확하거나 문법적인 오류가 있을 수 있습니다.
목적
Synology High Availability의 대체 작동 메커니즘은 시스템 오작동으로 인한 서비스 중단을 최소화하는 핵심입니다. 재해 복구 계획이 견고하고 테스트되었는지 확인하기 위해 재해 시나리오를 시뮬레이션하여 Synology High Availability 설정을 평가할 수 있습니다. 이 문서에서는 high-availability 클러스터의 기능을 테스트하는 방법을 설명합니다.
참고:
- 자동 대체 작동 보호에 대한 자세한 내용은 Synology High Availability 백서 의 "서비스 연속성 달성" 장을 참조하십시오.
- 이 문서는 Synology 이중 컨트롤러 NAS 및 Unified Controller 모델에는 적용되지 않습니다.
환경
이 문서에서는 사용자가 이미 다음을 수행했다고 가정합니다.
- 두 개의 Synology NAS 서버로 high-availability 클러스터 설정(자습서).
- 중요한 데이터를 모두 백업했습니다. 테스트 실행 중 연결이 끊어져 데이터가 손실될 수 있습니다.
해결 방법
대체 작동 메커니즘 테스트
High-availability 클러스터가 대체 작동 메커니즘의 보호를 받고 있는지 확인하기 위해 수동으로 전환을 수행하거나 재해 시나리오를 다시 만들어 자동 대체 작동을 트리거할 수 있습니다.
- 시스템이 오류를 감지하고 자동 대체 작동을 시작하는 응답 시간은 약 15초입니다.
- 전환/자동 대체 작동을 완료하는 데 걸리는 시간은 볼륨 또는 iSCSI LUN(블록 수준)의 수와 크기 또는 high-availability 클러스터에서 실행 중인 서비스 수에 따라 달라질 수 있습니다.
수동으로 전환 시작하기:
서비스 중단이 거의 없이 시스템 유지 관리를 위해 수동으로 전환을 트리거할 수 있습니다.
- Synology High Availability > 클러스터 로 이동합니다. 진행하기 전에 클러스터 상태가 정상 인지 확인하십시오.
- 관리 를 클릭하고 드롭다운 메뉴에서 전환 을 선택합니다.
- 클러스터의 서버는 역할을 교환해야 합니다. 이제 원래 활성 서버가 수동 서버 역할을 맡는 반면 원래 수동 서버가 활성 상태가 되어 서비스 제공을 넘겨받습니다.
다음 상황에서는 전환을 시작할 수 없습니다.
- 시스템이 아직 데이터 복제를 처리 중입니다.
- 수동 서버에 충돌된 저장소 공간이 있습니다.
- 전원이 중단되었습니다(예: 수동 서버를 다시 시작하거나 종료하는 중).
- 시스템이 DSM 업데이트를 설치 중입니다.
자동 대체 작동 트리거하기:
자동 대체 작동은 다양한 이유로 트리거됩니다. 특정 오류가 발생하면 시스템은 자동으로 활성 서버에서 수동 서버로 서비스의 대체 작동을 시작하여 가용성을 극대화할 수 있습니다.
- Synology High Availability > 클러스터 로 이동합니다. 진행하기 전에 클러스터 상태가 정상 인지 확인하십시오.
-
다음 이벤트 중 하나를 다시 생성하여 오류를 유발하고 자동 대체 작동을 트리거합니다.
- 활성 서버에서 물리적 드라이브를 하나 이상 제거하여 충돌한 저장소 공간을 시뮬레이션합니다.
- 활성 서버에서 전원을 제거하여 정전을 시뮬레이션합니다.
- 활성 서버에서 클러스터 연결의 이더넷 케이블을 분리하여 네트워크 오류를 시뮬레이션합니다.
- 시스템에서 오류가 감지되면 Synology High Availability 는 활성 서버의 모든 서비스를 일시적으로 일시 중지하고 서비스를 수동 서버로 대체 작동할 준비를 합니다.
- 자동 대체 작동이 완료되고 수동 서버가 활성 서버 역할을 넘겨 받으면 서비스가 다시 시작됩니다.
클러스터가 정상 상태로 돌아갈 수 있도록 대체 작동이 수행될 때마다 감지된 오류를 즉시 해결하는 것이 좋습니다. 심각한 오류가 두 개 이상 동시에 발생하고 해결되지 않으면 다음에 다른 오류가 발생할 때 시스템이 정상 작동을 계속할 수 있다는 보장이 없습니다.
정전 시뮬레이션
전원 중단은 경고 없이 언제든지 발생할 수 있습니다. 서비스가 복구될 수 있도록 제공된 단계를 따라 정전을 시뮬레이션하고 정전 후 high-availability 클러스터가 어떻게 복구되는지 확인할 수 있습니다.
전원 중단 시뮬레이션하기:
- Synology High Availability > 클러스터 로 이동합니다. 진행하기 전에 클러스터 상태가 정상 인지 확인하십시오.
- 활성 서버와 수동 서버에서 동시에 전원을 제거합니다.
- high-availability 클러스터의 서버 중 하나의 전원을 켜고 WOL(Wake on LAN)을 통해 다른 서버의 전원을 켭니다. 두 서버가 동시에 종료되었으므로 클러스터가 프로세스를 완료하고 요구 사항을 확인하는 데 다소 시간이 걸립니다.
- 두 서버의 전원이 켜지면 활성 서버에서 서비스를 다시 시작해야 합니다.
전원 상태는 15초마다 모니터링됩니다. 활성 서버에서만 전원이 끊기는 시나리오에서 시스템은 15초 내에 이를 감지하여 자동 대체 작동을 트리거합니다. UPS(무정전 전원 시스템)가 있는 high-availability 클러스터를 설정하여 전원 이상으로부터 클러스터를 보호합니다(자습서).
연결 문제 시뮬레이션
네트워크 서비스가 중단되면 비즈니스 연속성이 위험에 처할 수 있습니다. 네트워크 재해가 발생하는 동안 또는 이후에 서비스가 계속될 수 있도록 보장하기 위해 다음 연결 문제를 시뮬레이션하여 high-availability 클러스터가 반응하는 방식을 확인할 수 있습니다.
손실된 클러스터 연결 시뮬레이션하기:
클러스터 연결은 클라이언트와 high-availability 클러스터 간의 통신에 사용되는 연결 네트워크입니다. 다음 단계를 따라 high-availability 클러스터의 두 서버 모두에서 클러스터 연결이 끊긴 후 서비스를 다시 시작할 수 있는지 확인합니다.
- Synology High Availability > 클러스터 로 이동합니다. 진행하기 전에 클러스터 상태가 정상 인지 확인하십시오.
- 클러스터 연결에서 활성 서버와 수동 서버의 연결을 동시에 끊습니다. 서비스를 일시적으로 사용할 수 없습니다.
- 10분 후 활성 서버와 수동 서버를 동시에 다시 클러스터 연결에 다시 연결합니다.
- 서비스가 활성 서버에서 다시 시작되어야 합니다.
활성 서버만 클러스터 연결이 끊기고 수동 서버의 클러스터 연결 상태가 정상인 경우 시스템은 자동 대체 작동을 트리거합니다.
Heartbeat 연결 끊김 시뮬레이션하기:
Heartbeat 연결은 활성 서버와 수동 서버 간의 데이터 동기화 및 복제를 용이하게 하는 전용 개인 네트워크 연결입니다. 다음 단계를 수행하여 high-availability 클러스터의 두 서버 모두에서 Heartbeat 연결이 끊긴 후 데이터 복제를 다시 시작할 수 있는지 확인합니다.
- Synology High Availability > 클러스터 로 이동합니다. 진행하기 전에 클러스터 상태가 정상 인지 확인하십시오.
- 활성 서버와 수동 서버 간의 Heartbeat 연결을 제거합니다. 이제 클러스터 페이지에 연결 오류가 표시되고 호스트 간의 데이터 동기화가 중단되었음을 나타냅니다.
- 10분 후에 활성 서버와 수동 서버의 Heartbeat 연결을 복원할 수 있습니다.
- 클러스터 페이지에 high-availability 클러스터 상태가 처리 중 으로 표시되어야 합니다. 이는 클러스터가 활성 서버의 데이터를 수동 서버로 동기화하고 있음을 의미합니다.
연결이 복구될 때까지 동기화가 다시 시작되지 않으며, 시스템은 서버 간의 데이터 불일치를 확인한 후에만 동기화를 다시 시작합니다.
손실된 클러스터 및 Heartbeat 연결 시뮬레이션하기:
Heartbeat와 기본 클러스터 연결이 실패하면 "split-brain" 오류가 발생합니다. 연결이 복원되면 두 서버 모두 활성 서버의 역할을 맡으려고 하기 때문입니다.
다음 단계는 high-availability 클러스터에서 "DS-A"와 "DS-B" 역할을 하는 서버를 구별하는 데 도움이 됩니다.
- Synology High Availability > 클러스터 로 이동합니다. 진행하기 전에 클러스터 상태가 정상 인지 확인하십시오.
- DS-A(활성 서버)에서 Heartbeat 연결을 끊은 다음 클러스터 연결도 끊습니다. 서비스를 일시적으로 사용할 수 없습니다.
- 각 네트워크 인터페이스에 어떤 역할(클러스터 또는 하트비트)이 할당되었는지 확실하지 않으면 네트워크 페이지로 이동하여 확인할 수 있습니다.
- 시스템은 DS-A(활성 서버)를 사용할 수 없는 것으로 간주하고 서비스를 DS-B(수동 서버)로 대체 작동합니다. 자동 대체 작동 프로세스가 완료되면 DS-B가 활성 서버가 됩니다.
- 10분 후 클러스터와 Heartbeat 연결에 동시에 DS-A를 다시 연결합니다. 이 시점에서 DS-A와 DS-B 모두 활성 서버의 역할을 맡으려 하므로 "split-brain" 오류가 발생합니다. high-availability 클러스터가 안전 모드로 전환됩니다.
- 클러스터 페이지에서 관리 를 클릭하고 화면 지침을 따릅니다.
- 클러스터에서 두 서버 모두 예약 옵션을 선택합니다.
- 서버 중 하나를 새 활성 서버로 선택합니다. 시스템이 두 서버를 다시 시작하고 새 활성 서버의 데이터(및 설정)를 새 수동 서버와 동기화합니다.
- high-availability 클러스터가 정상 모드로 돌아가고 서비스를 다시 시작해야 합니다.
High-availability 클러스터의 모든 네트워크 인터페이스, 특히 기본 클러스터 연결과 Heartbeat 연결이 정상인지 확인하십시오. 네트워크 이상이 발생하면 즉시 해결하십시오. 클러스터와 Heartbeat 연결은 클러스터에 있는 두 서버 간의 통신과 동기화에 중요하기 때문입니다. 이 문서 에서 split-brain 오류에 대해 자세히 알아보십시오.