Системное администрирование и автоматизация в работе SRE-инженера

Мы уже рассказывали о таком важном навыке SRE-инженера, как умение писать код. Но это еще далеко не все, ведь профессия, как известно, не из легких. Одной из следующих важных областей знаний является системное администрирование и автоматизация процессов. Скажем пару слов и о них.

Важно понимать, что в SRE без знания UNIX-систем никак. Конечно, это не значит, что вам не придется работать, например, с тем же Windows Server (вполне себе встречается), однако на практике выходит, что его концентрация весьма мала.

Современный SRE-инженер должен знать архитектуру UNIX-систем, а также, в довесок к этому, еще и разбираться в сетевых протоколах (ну, как минимум, модель OSI не должна приводить его в ступор). Вдобавок к вышесказанному, надо уметь работать и с распределением запросов, то есть с пресловутой балансировкой нагрузки, позволяющей повышать отказоустойчивость системы. А еще надо уметь анализировать технические метрики и придерживаться SLA.

SLA (Service Level Agreement) -- это вообще один из целевых показателей SRE. Как известно именно с помощью этого соглашения закрепляются обязанности компании перед клиентами. Говоря простым языком, SLA описывает работоспособность всего сервиса, а также штрафы за различные нарушения, к примеру, за превышение времени простоя.

Ну и, конечно же, не менее важна и автоматизация работы, которая связана с администрированием (ops). Написание всевозможных утилит позволит уменьшить количество ручного труда и снизить число рутинных процессов. Кроме того, в зону ответственности SRE-инженера попадают и такие активности, как настройка ВМ (виртуальных машин) и развертывание Dev-окружения.

Что касается основных инструментов, то следует выделить серверную утилиту Telegraf -- тут вам и мониторинг метрик, и мониторинг событий из облачной инфраструктуры, и мониторинг контейнеров/оркестраторов. Кстати, написан Telegraf на языке Go.

По материалам блога https://storedigital.ru/.