Работаем с Pacemaker: виды сбоев на узлах кластера
Мы уже рассказывали про архитектуру Pacemaker, команды управления и мониторинг состояния кластера. Теперь следует рассказать о том, от каких видов сбоев может защитить ОУК (отказоустойчивый кластер), работающий на базе Pacemaker.
Перечень сбоев следующий:
- Сбой по питанию на реплике/на текущем мастере. При данном сбое пропадает питание и выключается сервер. Это может быть и одна из Реплик, и Мастер.
- Сбой PostgreSQL-процесса. Речь идет о сбое основного процесса PostgreSQL, в результате чего система может аварийно завершить postgres-процесс по различным причинам, к примеру, из-за нехватки памяти, недостаточного числа файловых дескрипторов или превышении максимального количества открытых файлов.
- Потеря сетевой связности между каким-нибудь из узлов и прочими узлами. Подразумевается сетевая недоступность какого-либо узла. К примеру, причиной этой недоступности может стать выход из строя сетевой карты или порта коммутатора.
- Сбой процесса Pacemaker/Corosync. По сути, сбой процесса Corosync/pacemaker аналогичен сбою процесса PostgreSQL.
По материалам блога https://habr.com/ru/company/postgrespro/blog/.