Работаем с Pacemaker: виды сбоев на узлах кластера

Мы уже рассказывали про архитектуру Pacemaker, команды управления и мониторинг состояния кластера. Теперь следует рассказать о том, от каких видов сбоев может защитить ОУК (отказоустойчивый кластер), работающий на базе Pacemaker.

Перечень сбоев следующий:

  1. Сбой по питанию на реплике/на текущем мастере. При данном сбое пропадает питание и выключается сервер. Это может быть и одна из Реплик, и Мастер.
  2. Сбой PostgreSQL-процесса. Речь идет о сбое основного процесса PostgreSQL, в результате чего система может аварийно завершить postgres-процесс по различным причинам, к примеру, из-за нехватки памяти, недостаточного числа файловых дескрипторов или превышении максимального количества открытых файлов.
  3. Потеря сетевой связности между каким-нибудь из узлов и прочими узлами. Подразумевается сетевая недоступность какого-либо узла. К примеру, причиной этой недоступности может стать выход из строя сетевой карты или порта коммутатора.
  4. Сбой процесса Pacemaker/Corosync. По сути, сбой процесса Corosync/pacemaker аналогичен сбою процесса PostgreSQL.

По материалам блога https://habr.com/ru/company/postgrespro/blog/.