Траблшутинг & Инцидент-менеджмент | OTUS

Траблшутинг & Инцидент-менеджмент

Итак современный SRE-инженер должен разбираться в разработке, системном администрировании и автоматизации процессов. Но как насчет траблшутинга?

Безусловно, опыт работы в технической поддержке очень даже пригодится. Но... этого мало, т. к. SRE-инженер -- это совсем другой уровень. SRE-специалист просто обязан разбираться в современных системах мониторинга, а логи, трейсинг и алертинг не должны быть малознакомыми словами. При этом важно понимать, что работа не ограничивается одной лишь регистрацией инцидента — SRE-инженеру надо будет найти причину проблемы, а потом найти и решение этой проблемы. На практике саппорт может предполагать и сменную работу, следовательно, если нет возможности дежурить вечерами/ночами, то лучше это оговаривать сразу.

Инструменты

С какими инструментами придется работать? Назовем основные два. Во-первых — Logstash. Инструмент представляет собой open source-приложение для парсинга и нормализации логов. Есть возможность выгружать результаты либо в отдельный файл, либо в zabbix или graylog2 в целях визуализации конкретных метрик.

1-1801-15a1dd.jpg

Второй инструмент -- это Kibana. Представляет собой специальный дашборд, используемый для построения графиков и диаграмм логов. Применяется в стеке, например, в связке ELK — Elasticsearch + Logstash + Kibana.

2-1801-e86022.jpg

По материалам блога https://storedigital.ru/.

Не пропустите новые полезные статьи!

Спасибо за подписку!

Мы отправили вам письмо для подтверждения вашего email.
С уважением, OTUS!

Автор
0 комментариев
Для комментирования необходимо авторизоваться
Популярное
Сегодня тут пусто