장애_판별_및_fencing_상황

RHEV 장애 판별 및 Fencing 조건

  • RHEV Management Network 이상으로 RHEV 하이퍼바이저와 Manager간의 통신이 불능된 상태
  • RHEV 하이퍼바이저내의 vdsm 서비스의 비정상적인 상태(서비스 행, 종료, 오류 등)
  • Fence 여부 : Yes
  • VM 라이브마이그레이션 : No (HA VM의 경우 Fence 성공 후 재시작)
  • RHEV Manager와의 통신은 가능하며 하이퍼바이저내 vdsm 서비스 정상 동작, 상태정보 확인 가능한 상태
  • 단 Required Network 인터페이스 장애 발생 또는 Storage 연결 장애
  • Fence 여부 : No
  • VM 라이브마이그레이션 : Yes (Cluster의 Resilience Policy 설정에 따름, 스토리지 장애시 Paused 가능)
  • Fencing is configured and enabled on the host.
  • There should be a valid proxy host (another host in the same data-center in UP status).
  • Connection to the host has to time out and should be in non-responsive state.
  • 망 자체 장애 : Required이며 망 자체에 장애, 모든 하이퍼바이저들이 Non-Operational 상태로 변경
  • 특정 하이퍼바이저의 서비스 망 관련 장애 : 해당 하이퍼바이저 Non-Operational 상태로 변경, 위 설명된 Non-Operational 상태에 따른 대응 진행
  • 망 자체 장애 : 모든 하이퍼바어지 Non-Responsive 변경, Fencing 안됨
  • 특정 하이퍼바이저의 Management 망 관련 장애 : 해당 하이퍼바이저 Non-Responsive 상태로 변경, 위 설명된 Non-Responsive 상태에 따른 대응 진행
  • 망 자체 장애 : 모든 하이퍼바이저들이 Non-Operational 상태로 변경, 모든 VM Paused
  • 특정 하이퍼바이저의 스토리지망 관련 장애 : 해당 하이퍼바이저 Non-Operational 상태로 변경, 위 설명된 Non-Operational 상태에 따른 대응 진행
  • RHEV 환경에서 동시 live-migration의 수는 1G, 10G망과 무관하게 기본 3개
  • 더불어 Bandwidth의 경우 허용 가능한 최대 Bandwidth를 모두 사용
  • 따라서 1G의 경우 경우에 따라 live-migration 실패 가능성이 10G보다 상대적으로 높음
  • max_outgoing_migrations 설정으로 변경 가능
  • Fencing은 Non-Responsive 상태에서만 발생하며, Non-Responsive 상태는 Manager가 하이퍼바이저의 상태를 확인할 수 없을 때만 성립, VM들의 경우 하이퍼바이저가 Fencing 되므로 Live-migration 없이 Restart (HA가 활성화된 VM만 해당)
  • Non-Operational 상태의 경우 Manager가 하이퍼바이저의 상태는 확인할 수 있으나 Network, Storage등과 관련하여 정상적인 동작의 조건이 부합되지 않을 때 발생, Fencing은 이뤄지지 않음, VM들의 경우 모두 Live-migration 시도되나 HA 활성화된 VM이 우선 진행, Live-migration 전에 IO failure 감지될 경우 Paused 될 수 있음
  • live-migration은 동시 3개가 기본이며 1G에서는 특별한 경우가 아니면 조정하지 않으며, 10G에서는 VM의 부하에 따라 필요시 조정할 수 있음
로그인하면 댓글을 남길 수 있습니다.
  • 장애_판별_및_fencing_상황.txt
  • 마지막으로 수정됨: 2016/04/28 03:52
  • 저자 koov