Observability: мониторинг, логирование, трейсинг

Best Practice по мониторингу инфраструктуры и отдельных её компонентов: приложения, баз данных, etc.

25 сентября

Professional

4 месяца

Онлайн

Пн/Чт 20:00 Мск

Для кого этот курс?

  • DevOps инженерам курс поможет быстро выявлять и устранять проблемы в инфраструктуре с помощью мониторинга, логов и трассировки. Также Вы сможете начать создавать метрики и алерты для автоматизации мониторинга, что оптимизирует использование ресурсов и улучшает; пользовательский опыт;
  • Системным администраторам курс позволит улучшить контроль за инфраструктурой, создавая полноценную систему наблюдаемости для быстрого обнаружения и устранения неполадок;
  • Разработчикам Backend и FullStack, так как курс позволяет глубже понять поведение приложений в продакшене, что помогает в быстром выявлении и устранении проблем;
  • Администраторам Linux курс поможет разобраться в разработке комплексного подхода к управлению инфраструктурой.

Вам подойдет курс если необходимо настроить мониторинг, логирование и трейсинг с помощью Prometheus, Grafana, ELK, Tempo.

Что даст вам этот курс?

Никакого хаоса и бессвязных метрик. После курса вы сможете правильно строить системы мониторинга и логирования, что позволит более точно понимать текущее состояние всех систем и быстрее реагировать на инциденты.

Вы научитесь:

  • строить сложные эффективные системы мониторинга и логирования инфраструктуры и приложений
  • следить за работой большого количества серверов и работать в связке c Prometheus, Grafana, ELK, etc.
  • обеспечивать визуализацию метрик и настраивать оповещения о критически важных событиях
Вы рассмотрите следующий стек технологий и инструментов: Prometheus, AlertManager, Grafana,  Thanos, VictoriaMetrics, Kube-prometheus-stack, ELK, EFK, Graylog2, Beats, Apache Kafka, Kibana, Loki, Tempo(Jaeger), Vector, Logstas

Курс обновлен!

Мы следим за всеми обновлениями в индустрии и собираем best practices. Теперь в программе 5 новых занятий, для вашего профессионального развития

Процесс обучения

Всё обучение проходит онлайн: вебинары, общение с преподавателями и вашей группой в Слаке курса, сдача домашних работ и получение обратной связи от преподавателя. Вебинары идут дважды в неделю по 1,5 часа. Все вебинары сохраняются и в записи в вашем личном кабинете.

Best Practice


Эксперты-практики поделятся своим уникальным успешным опытом и разберут с вами рабочие кейсы

Необходимые знания


Знание ОС Linux на уровне администратора

Помощь с трудоустройством


Комплексная система, которая поможет получить выгодные офферы в перспективных проектах

Партнеры

Многие студенты еще во время прохождения первой части программы находят или меняют работу, а к концу обучения могут претендовать на повышение в должности.
  • Разместите свое резюме в базе OTUS: так наши партнёры смогут пригласить Вас на собеседование
  • Посещайте карьерные мероприятия OTUS: Вам расскажут, как лучше проходить собеседование

Мониторинг инфраструктуры

Перспективы направления
Средний уровень зарплат:
95 000Junior+ специалист
150 000Middle+ специалист
240 000Senior специалист
2226
актуальных вакансий
Формат обучения

Интерактивные вебинары

Два занятия по два академических часа в неделю. Доступ к записям и материалам остается навсегда

Проектная работа


Вы закрепите полученные знания проектной работой и сможете уверенно чувствовать себя на собеседованиях

Активное комьюнити


Общайтесь с преподавателями голосом на вебинарах и в Slack группы

Программа

Observability - и что он включает. GAP-stack (Grafana, Prometheus, Alertmanager)

Введение в мониторинг, логирование, трейсинг и алертинг. Рассмотрим основу Gap-стека. Поговорим об устройстве и принципах работы Prometheus, о том как он собирает метрики и хранит их. Разберем основы работы с PromQl. Рассмотрим Alertmanager, обсудим его устройство и то как он работает с алертами. Научимся визуализировать метрики с помощью дашбордов в Grafana.

Тема 1: Задачи мониторинга, логирования, трейсинга

Тема 2: Prometheus - как новый виток развития систем мониторинга

Тема 3: Prometheus - Exporters, Service Discovery // ДЗ

Тема 4: Grafana - основной инструмент визуализации данных

Тема 5: Отказоустойчивость Prometheus, хранилища метрик для Prometheus (Thanos, VictoriaMetrics, Mimir) // ДЗ

Тема 6: Prometheus, Alertmanager - работа с метриками (PromQL), написание алертов и их ротация // ДЗ

Тема 7: Grafana - продвинутое использование // ДЗ

Тема 8: Kube-prometheus-stack - мониторинг Kubernetes при помощи Prometheus operator

Тема 9: Q&A сессия по разбору домашних заданий

Zabbix

В данном модуле рассмотрим работу с Zabbix. Его устройство, как собираются и хранятся метрики. Рассмотрим как создаются алерты и графики по метрикам.

Тема 1: Установка и конфигурация

Тема 2: Мониторинг порталов и баз данных

Тема 3: Настройка алертинга // ДЗ

Тема 4: Discovery Trapper

Тема 5: Графики и комплексные экраны. Q&A по модулю zabbix

TICK стек

В данном модуле мы рассмотрим набор open source инструментов которые являются составными частями системы сбора, хранения и визуализации временных рядов.

Тема 1: Telegraf

Тема 2: Хранение временных рядов с InfluxDB

Тема 3: Chronograf как инструмент визуализации метрик

Тема 4: Алертинг с Kapacitor // ДЗ

Логирование

В данном модуле: - разберем какие способы логирования существуют - сравним популярные стеки для логирования (Elastic stack, Opensearch, Loki, Graylog), разберемся чем они отличаются.

Тема 1: Классическое логирование в Linux

Тема 2: Централизованные системы логирования

Elastic stack

В данном модуле: - рассмотрим устройство стека и его задачи - подробно рассмотрим компоненты стека по отдельности.

Тема 1: Построение системы централизованного логирования на основе Elasticsearch, Logstash, Kibana, Beats. Введение в Elasticsearch

Тема 2: Elasticsearch

Тема 3: Beats - инструменты доставки данных // ДЗ

Тема 4: Системы агрегации сообщений Logstash/Vector // ДЗ

Тема 5: Kibana как инструмент визуализации логов

Тема 6: Q&A сессия по разбору домашних заданий

Системы централизованного логирования

- Рассмотрим систему логирования от компании Grafana, вдохновленную Prometheus подходом к данным; - Бесплатный форк Elastic stack от Amazon; - Opensource систему централизованного логирования Graylog; - Рассмотрим роль Apache Kafka как очереди сообщений в схемах систем логирования.

Тема 1: Grafana Loki - управление логами и доставка // ДЗ

Тема 2: Opensearch // ДЗ

Тема 3: Graylog // ДЗ

Тема 4: Apache Kafka в логировании

Системы распределенного трейсинга

- Разберем систему хранения трейсов Tempo - Подробно рассмотрим систему распределенного трейсинга Zipkin.

Тема 1: Построение распределенного трейсинга на примере Zipkin

Тема 2: Jaeger и Grafana Tempo

Проектная работа

Заключительный месяц курса посвящен проектной работе. Свой проект — это то, что интересно писать слушателю. То, что можно создать на основе знаний, полученных на курсе. При этом не обязательно закончить его за месяц. В процессе написания по проекту можно получить консультации преподавателей.

Тема 1: Консультация по проектам и домашним заданиям

Тема 2: Защита проектной работы // Проект

Также вы можете получить полную программу, чтобы убедиться, что обучение вам подходит

Выпускной проект


В рамках выпускного проекта вам предстоит применить все полученные знания на практике. Вы самостоятельно развернете инфраструктуру состоящую из нескольких ВМ и сервисов развернутых на них. Далее вы настроите систему мониторинга, алертинга, логирования.

Преподаватели

Руководитель курса

Иван Федоров

Технический директор

Inotechgroup

Антон Касимов

Сергей Бывшев

Олег Нова

Senior DevOps Engineer

Payler

Сергей Андрюнин

DevOps инженер

Эрик Арайс

Специалист группы эксплуатации вычислительной систем

Честный знак

Антон Касимов

Артем Полозов

Senior Java Developer

Сбербанк

Эксперты-практики делятся опытом, разбирают кейсы студентов и дают развернутый фидбэк на домашние задания

Ближайшие мероприятия

Открытый вебинар — это настоящее занятие в режиме онлайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.

Мониторинг PostgreSQL в Zabbix
Антон Касимов
🚀 О чём этот урок?
PostgreSQL — надёжная и мощная СУБД, но без грамотного мониторинга она может преподнести неприятные сюрпризы. На этом уроке мы разберём, как выстроить мониторинг PostgreSQL в Zabbix так, чтобы вовремя замечать проблемы и поддерживать стабильность работы кластера.

Погрузимся в архитектуру PostgreSQL, рассмотрим ключевые метрики и процессы, влияющие на производительность, а также разберём, как отслеживать реплики и контролировать состояние бэкапов.

📌 Что будет на уроке:
- Популярные подходы к мониторингу PostgreSQL в Zabbix
- Архитектура PostgreSQL и её влияние на мониторинг
- Основные метрики, за которыми нужно следить (нагрузка, блокировки, долгие запросы и др.)
- Мониторинг реплик и проверка их актуальности
- Контроль и оповещения о состоянии бэкапов

👥 Кому будет полезно:
- Администраторам баз данных и DevOps-инженерам
- Системным администраторам, поддерживающим PostgreSQL в продакшене
- Разработчикам, которые хотят понимать поведение своей СУБД под нагрузкой

🎯 Что вы получите:
- Чёткое понимание, как организовать мониторинг PostgreSQL через Zabbix
- Навык настройки метрик и алертов для стабильной работы кластера
- Практику по отслеживанию репликации и состоянию резервных копий
- Уверенность в том, что база «не упадёт внезапно»
...
4 сентября в 17:00
Открытый вебинар
Grafana Stack - закрываем все современные потребности Observability
Олег Нова
Хотите получить полный контроль над состоянием ваших систем и сервисов? На этом вебинаре мы разберём, как с помощью Grafana Stack построить полноценную Observability-платформу: от визуализации и алертов до сбора метрик и логов из разных источников. Вы научитесь собирать всё в одной точке, устранять "слепые зоны" и реагировать на инциденты ещё до того, как о них узнает пользователь.

📌 Что будет на вебинаре:
- Обзор компонентов Grafana Stack: Grafana, Loki, Tempo, Alerting, Plugins
- Интеграция с источниками данных (Prometheus, Elasticsearch, и др.)
- Настройка дашбордов: фильтры, шаблоны, переменные, UX-практики
- Конфигурация алертов: триггеры, уведомления, антипаттерны
- Практика: построим наглядную систему мониторинга на реальных метриках

👥 Кому будет полезно:
- DevOps-инженерам - поймут, как выстроить устойчивую и предсказуемую систему мониторинга, с автоматическим уведомлением об инцидентах и аномалиях.
- Системным администраторам — получат инструменты для упрощения наблюдаемости за серверами, кластерами, БД и другими компонентами инфраструктуры.
- Разработчикам Backend/FullStack — научатся подключать Grafana к своим приложениям, использовать логи и метрики для дебага и улучшения производительности.
- Архитекторам - оценят возможности масштабирования Grafana Stack и его применения в высоконагруженных или распределённых системах.

🎯 Что вы получите:
- Понимание, как Grafana Stack закрывает все три столпа Observability: метрики, логи и трассировки.
- Навыки быстрой настройки и адаптации Grafana под свою инфраструктуру.
- Практические советы по созданию дашбордов и алертов, которые действительно работают.
...
16 сентября в 17:00
Открытый вебинар

Прошедшие
мероприятия

Анатолий Бень
Открытый вебинар
Grafana — продвинутое использование
Сергей Андрюнин
Открытый вебинар
Разгоняем kube-prometheus-stack: секретный ингредиент
Для доступа ко всем прошедшим мероприятиям необходимо пройти входное тестирование
Возможность пройти вступительное тестирование повторно появится только через 3 дня
Результаты тестирования будут отправлены вам на email, указанный при регистрации.
Тест рассчитан на 30 минут, после начала тестирования отложить тестирование не получится!

Корпоративное обучение для ваших сотрудников

OTUS помогает развивать высокотехнологичные команды. Почему нам удаётся это делать успешно:
  • Курсы OTUS верифицированы крупными игроками ИТ-рынка и предлагают инструменты и практики, актуальные на данный момент
  • Студенты работают в группах, могут получить консультации не только преподавателей, но и профессионального сообщества
  • OTUS проверяет знания студентов перед стартом обучения и после его завершения
  • Простой и удобный личный кабинет компании, в котором можно видеть статистику по обучению сотрудников
  • Сертификат нашего выпускника за 5 лет стал гарантом качества знаний в обществе
  • OTUS создал в IT более 120 курсов по 7 направлениям, линейка которых расширяется по 40-50 курсов в год

Отзывы

Данила Саловский

29.01.2025
Работаю DevOps-инженером. Хотел улучшить свои знания и навыки, которые непосредственно связаны с моей профессией. Понравилось, что лекции проходят в очном формате, можно сразу задать вопросы преподавателю, для меня это был один из ключевых факторов в выборе платформы обучения. Достаточно комфортный график обучения. Казалось бы, мелочь, но возможность загрузить расписание лекций в календарь на деле весьма полезна. Процесс геймификации оказался интересным и вовлекающим в обучение занятием. Хотелось бы добавить побольше домашних заданий, т.к. не по всем темам они были. Например, даже не практическое задание, а на проверку теории явно помогло бы улучшить усвоение пройденного материала. В «компании мечты» я уже работаю, но пройденное обучение точно позволит мне применить полученные знания и навыки для повышения наблюдаемости в инфраструктуре, улучшить существующие процессы и в результате получить достойную оценку моих компетенций

Әкім Аблаким

16.01.2025
курсы топ 5 из 5 все четко доступно и понятно спасибо OTUS

Владимир Захаров

08.08.2024
Очень объемный и интересный курс в плане глубины и количества информации. Затрагивается все самые популярные методы мониторинга. Задания насыщенные, придется посидеть, но этого того стоит. Спасибо.

Дмитрий Жигунов

06.08.2024
Курс помог систематизировать и расширить знания по знакомым продуктам, познакомил с новыми решениями в области мониторинга. Понравились живые практические примеры, хорошая подача материала.

Матвей Малков

09.03.2023
Сейчас, как и до обучения на курсе, работаю прикладным администратором и сопровождаю банковские системы. Курс по Мониторингу я выбрал, так как данная тема стала актуальна на работе и возникла необходимость в получении структурированных знаний. За время обучения в Otus мне больше всего понравилась актуальная программа и очень крутой преподавательский состав. По итогу курса, получилось настроить мониторинг, алертинг и логи в эластик на прод системе, благодаря чему стало чуть легче жить

Подтверждение знаний и навыков

OTUS осуществляет лицензированную образовательную деятельность.
В конце обучения вы получите сертификат OTUS о прохождении курса

После обучения:

  • заберете с собой материалы по всем занятиям (презентации, записи вебинаров, примеры практических задач), получите сертификат о прохождении курса
  • разовьете практические навыки в решении задач мониторинга и построите собственную систему мониторинга
  • получите глубокое представление о Prometheus, Grafana, ELK
  • обеспечите визуализацию метрик и настроите оповещения о критически важных событиях

Частые вопросы

Что если в середине курса я не смогу продолжать обучение?
У вас есть право одного бесплатного трансфера в другую группу.
Обязательно ли защищать проектную работу?
Для получения сертификата OTUS необходимо сдать проект. Кроме того, проект необязательно защищать перед аудиторией, а можно сдать в чате с преподавателем.
С какого момента я могу заниматься трудоустройством?
Получить карьерную консультацию вы сможете уже в начале обучения. Остальные опции: помощь с резюме, добавление резюме в нашу базу специалистов и т.д. становятся доступны после выпуска.
Я могу вернуть деньги?
Да, вы можете сделать возврат средств пропорционально оставшимся месяцам обучения.