Траблшутинг & Инцидент-менеджмент
Итак современный SRE-инженер должен разбираться в разработке, системном администрировании и автоматизации процессов. Но как насчет траблшутинга?
Безусловно, опыт работы в технической поддержке очень даже пригодится. Но... этого мало, т. к. SRE-инженер -- это совсем другой уровень. SRE-специалист просто обязан разбираться в современных системах мониторинга, а логи, трейсинг и алертинг не должны быть малознакомыми словами. При этом важно понимать, что работа не ограничивается одной лишь регистрацией инцидента — SRE-инженеру надо будет найти причину проблемы, а потом найти и решение этой проблемы. На практике саппорт может предполагать и сменную работу, следовательно, если нет возможности дежурить вечерами/ночами, то лучше это оговаривать сразу.
Инструменты
С какими инструментами придется работать? Назовем основные два. Во-первых — Logstash. Инструмент представляет собой open source-приложение для парсинга и нормализации логов. Есть возможность выгружать результаты либо в отдельный файл, либо в zabbix или graylog2 в целях визуализации конкретных метрик.
Второй инструмент -- это Kibana. Представляет собой специальный дашборд, используемый для построения графиков и диаграмм логов. Применяется в стеке, например, в связке ELK — Elasticsearch + Logstash + Kibana.
По материалам блога https://storedigital.ru/.