SRE практики и инструменты

Лучшие практики по управлению надежностью, доступностью и эффективностью сервисов

26 февраля

Professional

4 месяца

Онлайн

Пн/Ср 20:00 Мск

Для кого этот курс?

  • DevOps инженерам (инфраструктурных и платформенных инженеров, инженеров по эксплуатации), которые предоставляют свои сервисы другим командам;
  • Системным инженерам, администраторам, в задачи которых входит обеспечение надежности и доступности;
  • Разработчикам Fullstack/Backend, которые хотят понять что происходит в production окружениях;
  • Специалистам по нагрузочному и автоматическому тестированию поможет повысить отказоустойчивость систем, улучшить автоматизацию тестирования;
  • Техническим директорам, руководителям и тимлидам, которые хотят разобраться и внедрить SRE практики и инструменты.

Необходимые знания:

  • Опыт из разработки, тестирования или эксплуатации;
  • Опыт работы с Git, linux и   мониторингом, контейнерами. Знания, что такое kubernetes;
  • Будет плюсом пройденные курсы по: разработке, DevOps или Linux.
Пройдите вступительный тест  и получите спец.цену на курс

Что вам даст этот курс?

Site Reliability Engineering - это подход к организации эксплуатации информационных систем.  

SRE подход переосмысливает задачи, которые исторически выполнялись операторами и системными администраторами, часто вручную, и передает их операционным группам, которые используют программное обеспечение и автоматизацию для решения проблем эксплуатации и управления системами. 

Подход решает задачу управления надежностью используя набор техник: принятие решений на основе данных о состоянии системы,  работа с инцидентами и усовершенствованные регламенты, работа со стейкхолдерами и управление ожиданиями и конечно же  разумная автоматизация происходящего.
 
SRE - это прежде всего практики создания масштабируемых и высоконадежных программных систем.

На курсе вы узнаете:

  • Что такое SRE и какие существуют на сегодня SRE-практики;
  • Как внедрить SRE практики в своей организации;
  • Как управлять надежностью b изменениями, доступностью и эффективностью сервисов;
  • Осуществлять мониторинг и улучшать наблюдаемость системы;
  • Реагировать на инциденты и проблемы с производительностью.

Лабораторные работы

Практические домашние задания для закрепления теории выполняются на базе следующего технологического стека: Linux, Kubernetes, Ansible, Terraform, Prometheus, Python.

Процесс обучения

Все обучение проходит онлайн: вебинары, общение с преподавателями и вашей группой в telegram курса, сдача домашних работ и получение обратной связи от преподавателя. Вебинары идут дважды в неделю по 2 академических часа (то есть астрономических 1,5 часа). Все вебинары сохраняются и в записи в вашем личном кабинете. Домашнее задание выдается в среднем раз в 2 недели, а его выполнение занимает 3-5 часов. Мы горячо призываем заниматься такой самостоятельной работой, так как это поможет вам качественно освоить все изучаемые технологии на практике с поддержкой и обратной связью наших преподавателей.

Практика

 

Проработка теории в домашних заданиях

Преподаватели-практики

 

Опытные спикеры, которые работают в ведущих компаниях

Портфолио

 

Индивидуальная разработка итоговой проектной работы

Партнеры

Многие студенты еще во время прохождения первой части программы находят или меняют работу, а к концу обучения могут претендовать на повышение в должности.

  • Разместите свое резюме в базе OTUS: так наши партнёры смогут пригласить Вас на собеседование
  • Посещайте карьерные мероприятия OTUS: Вам расскажут, как лучше приходить собеседование

SRE-Engineer

Перспективы направления
Средний уровень зарплат:
150 000Junior+ специалист
230 000Middle+ специалист
350 000Senior специалист
251
актуальная вакансия

Работодатели курса

Формат обучения

Интерактивные вебинары 


2 онлайн-трансляции по 2 ак.часа в неделю. Доступ к записям и материалам остается навсегда

В процессе обучения

Домашние задания + проектная работа, для усиления вашего портфолио и компетенций

Активное комьюнити

Общайтесь с преподавателями голосом на вебинарах, в закрытом чате Telegram и при проверке домашних заданий

Программа

Введение в SRE

В первом модуле рассматриваются основные принципы SRE

Тема 1: Введение в SRE // ДЗ

Тема 2: Основные принципы SRE

Тема 3: SLI, SLA, SLO и управление рисками // ДЗ

Everything as a Code

Второй модуль посвящен рассмотрению практик управления различными конфигурациями

Тема 1: Практика управление конфигурацией. Ansible // ДЗ

Тема 2: GIT 101: совместная работа, CI, вендоринг // ДЗ

Тема 3: Практика управление конфигурацией. Terraform // ДЗ

Экосистема Kubernetes

В третьем модуле наибольшее внимание будет уделено экосистеме Kubernetes

Тема 1: Linux 101: cgroups/namespaces/network/containers // ДЗ

Тема 2: Экосистема Kubernetes // ДЗ

Тема 3: Практика управление конфигурацией. Helm // ДЗ

Тема 4: QA-сессия

Автоматизация (Toil elimination)

В данном модуле рассмотрим различные аспекты автоматизации в контексте SRE

Тема 1: Автоматизация: CLI, Data transformation // ДЗ

Тема 2: Aвтоматизация: Runbook Automation (Jenkins/AWX/Rundeck) // ДЗ

Тема 3: Автоматизация: Low-Code/No-Code

Observability в SRE

В данном модуле будут рассмотрены и проанализированы различные аспекты мониторинга в контексте SRE

Тема 1: Observability: мониторинг и алертинг // ДЗ

Тема 2: Observability: логирование // ДЗ

Тема 3: Observability: трейсинг и визуализация // ДЗ

Практики SRE

Шестой модуль нацелен комплексно ознакомить с различными практиками SRE подхода

Тема 1: Непрерывная поставка и управление изменениями // ДЗ

Тема 2: Управление релизами

Тема 3: Практика on-call и жизненный цикл SRE команды

Тема 4: QA-сессия

Тема 5: Практика постмортемов

Тема 6: Тестирование надежности систем // ДЗ

Тема 7: Практика диагностики и решения проблем // ДЗ (нумерация)

Тема 8: Управление нагрузкой предотвращения перегрузок и сбоев // ДЗ

Тема 9: Customer Reliability Engineering

Поиск работы

В данном модуле будут рассмотрены советы и рекомендации по позиционированию специалиста на рынке труда

Тема 1: Как подсветить навыки в резюме. Шаблон резюме

Тема 2: Этапы собеседования: чего ждать? Live-собеседование с поведенческими вопросами

Проектная работа

В рамках модуля будут подведены итоги обучения на курсе. В частности - пройдёт подготовка и защита проектной работы

Тема 1: Выбор темы и организация проектной работы // Проект

Тема 2: Консультация по проектам и домашним заданиям - промежуточная приемка

Тема 3: Защита проектных работ

Также вы можете получить полную программу, чтобы убедиться, что обучение вам подходит

Проектная работа


Заключительный месяц курса посвящен проектной работе. Свой проект - это использование SRE практик и инструментов, которые были интересны слушателю. То, что можно создать на основе знаний, полученных на курсе. В процессе работы по проекту можно получить консультации преподавателей.

Пример выпускного проекта - читайте в нашем блоге:

Преподаватели

Руководитель курса

Станислав Шиков

Начальник отдела автоматизации, DevOps Engineer

ООО "Кодер"

Анастасия Порхун

Специалист по информационной безопасности

Отдел безопасности сетевых приложений

Михаил Чугунов

Ведущий DevOps-инженер

Ментор

Максим Жарников

SRE-инженер

Газпром-нефть

Николай Акулов

Григорий Ланцов

Эрик Арайс

Специалист группы эксплуатации вычислительной систем

Честный знак

Иван Федоров

Технический директор

Inotechgroup

Эксперты-практики делятся опытом, разбирают кейсы студентов и дают развернутый фидбэк на домашние задания

Ближайшие мероприятия

Открытый вебинар — это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.

Алерты — как настроить систему оповещения
Михаил Чугунов
Практическое руководство по созданию и управлению системой оповещений, которое помогает быстро реагировать на инциденты и предотвращать их. Разберёмся, как настроить оповещения, чтобы они были информативными, релевантными и не вызывали ложных тревог. Вы узнаете, как использовать метрики, логи и мониторинг для настройки триггеров, а также лучшие практики для командного взаимодействия.
Особенности вебинара / На вебинаре вы узнаете:
1. Как определить основные метрики и события, на которые следует реагировать оповещения.
2. Лучшие практики настройки оповещений: устранение ложных срабатываний и снижение шума.
3. Использование инструментов (например, Prometheus, Grafana) для создания эффективных систем оповещений.
4. Как организовать обработку оповещений: маршрутизация протоколов, интеграция с инструментами командной работы (Slack, PagerDuty).
Вебинар будет полезен:
• DevOps-инженерам и разработчикам, которые хотят выстроить надёжные процессы Диптихи и оповещения для стабильной работы системы.
• Системным администраторам, стремящимся обеспечить своевременное реагирование на происшествия и устранение их причин.
• TeamLead, которым важно повысить эффективность командного взаимодействия при работе с инцидентами.
В результате вебинара:
• Вы узнаете, как создать систему оповещений, которая быстро и точно сообщает о проблемах.
• Освоите методы настройки метрик, триггеров и маршрутизации протоколов.
• Изучите подходы к оптимизации обработки оповещений для изменения скорости реакции и снижения нагрузки на команду.
...
30 января в 17:00
Открытый вебинар
Инцидент-менеджмент в SRE — как быстро найти, устранить и предотвратить сбои в системе
Николай Акулов
Практическое руководство по эффективному управлению аварийными ситуациями в рамках Site Reliability Engineering (SRE). Разберём ключевые этапы работы с инцидентами: от их обнаружения и анализа до устранения и предотвращения в будущем. Вы узнаете, как выстроить процессы, которые минимизируют влияние на пользователей, обеспечивая безопасность и стабильность систем. Особое внимание будет уделено инструментам, метрикам и практикам, которые помогут автоматизировать и ускорить управление аварийными ситуациями.
Особенности вебинара / На вебинаре вы узнаете:
1. Как выстроить процессы управления инцидентами в соответствии с принципами SRE.
2. Метрики и сигналы: как эффективно выявлять инциденты в их критическом состоянии в системе.
3. Лучшие методы устранения сбоев: оперативные действия, документация и автоматизация восстановления.
4. Предотвращение инцидентов: ретроспективы, RCA (анализ первопричин) и улучшение качества.
Вебинар будет полезен:
• DevOps-инженерам и разработчикам, стремящимся автоматизировать процессы ограничения сбоев и минимизировать их влияние на пользователей.
• Системным администраторам, которые хотят улучшить процессы Диптихов и управления инфраструктурой для обеспечения высокого уровня доступности.
• TeamLead, учитывая стабильность командной работы и контрольное функционирование систем, включая координацию процессов аварийно-менеджмента.
В результате вебинара:
• Вы научитесь находить аварийные ситуации в их критическом состоянии, используя метрики и сигналы.
• Освоите инструменты и подходы для Диптихов, анализа и предотвращения сбоев.
• Узнайте, как внедрить процессы управления аварийными ситуациями в своей компании для повышения надежности и стабильности систем.
...
17 февраля в 17:00
Открытый вебинар

Прошедшие
мероприятия

Николай Акулов
Открытый вебинар
Мониторинг распределенных систем
Михаил Чугунов
Открытый вебинар
Kubernetes probes: учимся отслеживать состояние сервисов в кластере
Для доступа ко всем прошедшим мероприятиям необходимо пройти входное тестирование
Возможность пройти вступительное тестирование повторно появится только через 3 дня
Результаты тестирования будут отправлены вам на email, указанный при регистрации.
Тест рассчитан на 30 минут, после начала тестирования отложить тестирование не получится!

Корпоративное обучение для ваших сотрудников

OTUS помогает развивать высокотехнологичные команды. Почему нам удаётся это делать успешно:
  • Курсы OTUS верифицированы крупными игроками ИТ-рынка и предлагают инструменты и практики, актуальные на данный момент
  • Студенты работают в группах, могут получить консультации не только преподавателей, но и профессионального сообщества
  • OTUS проверяет знания студентов перед стартом обучения и после его завершения
  • Простой и удобный личный кабинет компании, в котором можно видеть статистику по обучению сотрудников
  • Сертификат нашего выпускника за 5 лет стал гарантом качества знаний в обществе
  • OTUS создал в IT более 120 курсов по 7 направлениям, линейка которых расширяется по 40-50 курсов в год

Сертификат о прохождении курса

OTUS осуществляет лицензированную образовательную деятельность.
В конце обучения вы получите сертификат OTUS о прохождении курса

После обучения вы: 

  • заберете с собой полный комплект обучающих материалов: видеозаписи всех вебинаров, презентации к занятиям и другие дополнительные материалы
  • получите сертификат об окончании курса
  • повысите свою ценность и конкурентоспособность как IT-специалиста

Частые вопросы

Что, если в середине курса я не смогу продолжать обучение?
У вас есть право одного бесплатного трансфера в другую группу
Обязательно ли защищать выпускной проект?
Для получения сертификата OTUS необходимо сдать проект. Кроме того, проект необязательно защищать перед аудиторией, а можно сдать в чате с преподавателем.
Я могу вернуть деньги?
Да, вы можете сделать возврат средств пропорционально оставшимся месяцам обучения.