Курс обновлен
Лучшие практики по мониторингу инфраструктуры и отдельных её компонентов: приложения, баз данных, etc.
28 апреля
Professional
4 месяца
Онлайн
Вт/Чт 20:00 Мск
Вам подойдет курс если необходимо настроить мониторинг, логирование и трейсинг с помощью Prometheus, Grafana, ELK, Tempo.
Никакого хаоса и бессвязных метрик. После курса вы сможете правильно строить системы мониторинга и логирования, что позволит более точно понимать текущее состояние всех систем и быстрее реагировать на инциденты.
Мы следим за всеми обновлениями в индустрии и собираем best practices. Теперь в программе 5 новых занятий, для вашего профессионального развития
Эксперты-практики поделятся своим уникальным успешным опытом и разберут с вами рабочие кейсы
Знание ОС Linux на уровне администратора
Комплексная система, которая поможет получить выгодные офферы в перспективных проектах
Два занятия по два академических часа в неделю. Доступ к записям и материалам остается навсегда
Вы закрепите полученные знания проектной работой и сможете уверенно чувствовать себя на собеседованиях
Общайтесь с преподавателями голосом на вебинарах и в Slack группы
Введение в мониторинг, логирование, трейсинг и алертинг. Рассмотрим основу Gap-стека. Поговорим об устройстве и принципах работы Prometheus, о том, как он собирает метрики и хранит их. Разберем основы работы с PromQl. Рассмотрим Alertmanager, обсудим его устройство и то, как он работает с алертами. Научимся визуализировать метрики с помощью дашбордов в Grafana.
Тема 1: Задачи мониторинга, логирования, трейсинга
Тема 2: Prometheus - как новый виток развития систем мониторинга
Тема 3: Prometheus - Exporters, Service Discovery // ДЗ
Тема 4: Grafana - основной инструмент визуализации данных
Тема 5: Отказоустойчивость Prometheus, хранилища метрик для Prometheus (Thanos, VictoriaMetrics, Mimir) // ДЗ
Тема 6: Prometheus, Alertmanager - работа с метриками (PromQL), написание алертов и их ротация // ДЗ
Тема 7: Grafana - продвинутое использование // ДЗ
Тема 8: Kube-prometheus-stack - мониторинг Kubernetes при помощи Prometheus operator
Тема 9: Q&A сессия по разбору домашних заданий
В данном модуле рассмотрим работу с Zabbix. Его устройство, как собираются и хранятся метрики. Рассмотрим, как создаются алерты и графики по метрикам.
Тема 1: Установка и конфигурация
Тема 2: Мониторинг порталов и баз данных
Тема 3: Настройка алертинга // ДЗ
Тема 4: Discovery Trapper
Тема 5: Графики и комплексные экраны. Q&A по модулю Zabbix
В данном модуле мы рассмотрим набор open source инструментов, которые являются составными частями системы сбора, хранения и визуализации временных рядов.
Тема 1: Telegraf
Тема 2: Хранение временных рядов с InfluxDB
Тема 3: Chronograf как инструмент визуализации метрик
Тема 4: Алертинг с Kapacitor // ДЗ
В данном модуле: - разберем, какие способы логирования существуют - рассмотрим устройство Elastic stack и его задачи - подробно рассмотрим компоненты стека по отдельности.
Тема 1: Классическое логирование в Linux
Тема 2: Построение системы централизованного логирования на основе Elasticsearch, Logstash, Kibana, Beats. Введение в Elasticsearch
Тема 3: Elasticsearch
Тема 4: Beats - инструменты доставки данных // ДЗ
Тема 5: Системы агрегации сообщений Logstash/Vector // ДЗ
Тема 6: Kibana как инструмент визуализации логов
Тема 7: Q&A сессия по разбору домашних заданий
Рассмотрим систему логирования от компании Grafana, вдохновленную Prometheus подходом к данным; бесплатный форк Elastic stack от Amazon; Open Source систему централизованного логирования Graylog. Рассмотрим роль Apache Kafka как очереди сообщений в схемах систем логирования.
Тема 1: Opensearch // ДЗ
Тема 2: Graylog // ДЗ
Тема 3: Grafana Loki - управление логами и доставка // ДЗ
Тема 4: Apache Kafka в логировании
Тема 5: Введение в SIEM-системы на примере Wazuh
Разберем систему хранения трейсов Tempo. Рассмотрим систему распределенного трейсинга Zipkin.
Тема 1: Построение распределенного трейсинга на примере Zipkin
Тема 2: OpenTelemetry
Тема 3: Jaeger и Grafana Tempo
Тема 4: Grafana Alloy
Модуль посвящен практикам обеспечения надежности и устойчивости современных распределенных систем с использованием observability. Вы научитесь формулировать и измерять цели надежности, выстраивать процессы реагирования на инциденты и анализировать деградации сервисов. Также, рассмотрим проверку устойчивости систем через управляемые сбои, архитектуру observability-платформ для крупных инфраструктур и контроль стоимости эксплуатации.
Тема 1: Проектирование SLI, SLO и Error Budget
Тема 2: Реагирование на инциденты и on-call процессы
Тема 3: Chaos Engineering для проверки наблюдаемости
Тема 4: Архитектура observability больших систем
Тема 5: Observability затрат и FinOps
Заключительный месяц курса посвящен проектной работе. Свой проект — это то, что интересно писать слушателю. То, что можно создать на основе знаний, полученных на курсе. При этом не обязательно закончить его за месяц. В процессе написания по проекту можно получить консультации преподавателей.
Тема 1: Консультация по проектам и домашним заданиям // Проект
Тема 2: Защита проектной работы
Эксперты-практики делятся опытом, разбирают кейсы студентов и дают развернутый фидбэк на домашние задания
OTUS осуществляет лицензированную образовательную деятельность.
В конце обучения вы получите сертификат OTUS о прохождении курса
Стоимость в рассрочку