SRE практики и инструменты
Лучшие практики по управлению надежностью, доступностью и эффективностью сервисов
28 июля
Professional
5 месяцев
Онлайн
Пн/Ср 20:00 Мск
Для кого этот курс?
- DevOps инженерам (инфраструктурных и платформенных инженеров, инженеров по эксплуатации), которые предоставляют свои сервисы другим командам;
- Системным инженерам, администраторам, в задачи которых входит обеспечение надежности и доступности;
- Разработчикам Fullstack/Backend, которые хотят понять что происходит в production окружениях;
- Специалистам по нагрузочному и автоматическому тестированию поможет повысить отказоустойчивость систем, улучшить автоматизацию тестирования;
- Техническим директорам, руководителям и тимлидам, которые хотят разобраться и внедрить SRE практики и инструменты.
Необходимые знания:
- Опыт из разработки, тестирования или эксплуатации;
- Опыт работы с Git, linux и мониторингом, контейнерами. Знания, что такое kubernetes;
- Будет плюсом пройденные курсы по: разработке, DevOps или Linux.

Что вам даст этот курс?
Site Reliability Engineering - это подход к организации эксплуатации информационных систем.
SRE подход переосмысливает задачи, которые исторически выполнялись операторами и системными администраторами, часто вручную, и передает их операционным группам, которые используют программное обеспечение и автоматизацию для решения проблем эксплуатации и управления системами.
Подход решает задачу управления надежностью используя набор техник: принятие решений на основе данных о состоянии системы, работа с инцидентами и усовершенствованные регламенты, работа со стейкхолдерами и управление ожиданиями и конечно же разумная автоматизация происходящего.
SRE - это прежде всего практики создания масштабируемых и высоконадежных программных систем.
На курсе вы узнаете:
- Что такое SRE и какие существуют на сегодня SRE-практики;
- Как внедрить SRE практики в своей организации;
- Как управлять надежностью b изменениями, доступностью и эффективностью сервисов;
- Осуществлять мониторинг и улучшать наблюдаемость системы;
- Реагировать на инциденты и проблемы с производительностью.
Лабораторные работы
Практические домашние задания для закрепления теории выполняются на базе следующего технологического стека: Linux, Kubernetes, Ansible, Terraform, Prometheus, Python.
Процесс обучения
Практика
Проработка теории в домашних заданиях
Преподаватели-практики
Опытные спикеры, которые работают в ведущих компаниях
Портфолио
Индивидуальная разработка итоговой проектной работы
Партнеры
Многие студенты еще во время прохождения первой части программы находят или меняют работу, а к концу обучения могут претендовать на повышение в должности.
- Разместите свое резюме в базе OTUS: так наши партнёры смогут пригласить Вас на собеседование
- Посещайте карьерные мероприятия OTUS: Вам расскажут, как лучше проходить собеседование
SRE-Engineer
Работодатели курса
Формат обучения
Интерактивные вебинары
2 онлайн-трансляции по 2 ак.часа в неделю. Доступ к записям и материалам остается навсегда
В процессе обучения
Домашние задания + проектная работа, для усиления вашего портфолио и компетенций
Активное комьюнити
Общайтесь с преподавателями голосом на вебинарах, в закрытом чате Telegram и при проверке домашних заданий
Программа
Введение в SRE
В первом модуле рассматриваются основные принципы SRE
Тема 1: Введение в SRE // ДЗ
Тема 2: Основные принципы SRE
Тема 3: SLI, SLA, SLO и управление рисками // ДЗ
Everything as a Code
Второй модуль посвящен рассмотрению практик управления различными конфигурациями
Тема 1: GIT 101: совместная работа, CI, вендоринг // ДЗ
Тема 2: Практика управление конфигурацией. Ansible // ДЗ
Тема 3: Практика управление конфигурацией. Terraform // ДЗ
Экосистема Kubernetes
В третьем модуле наибольшее внимание будет уделено экосистеме Kubernetes
Тема 1: Linux 101: cgroups/namespaces/network/containers // ДЗ
Тема 2: Экосистема Kubernetes // ДЗ
Тема 3: Практика управление конфигурацией. Helm // ДЗ
Тема 4: QA-сессия
Автоматизация (Toil elimination)
В данном модуле рассмотрим различные аспекты автоматизации в контексте SRE
Тема 1: Автоматизация: CLI, Data transformation // ДЗ
Тема 2: Aвтоматизация: Runbook Automation (Jenkins/AWX/Rundeck) // ДЗ
Тема 3: Автоматизация: Low-Code/No-Code
Observability в SRE
В данном модуле будут рассмотрены и проанализированы различные аспекты мониторинга в контексте SRE
Тема 1: Observability: мониторинг и алертинг // ДЗ
Тема 2: Observability: логирование // ДЗ
Тема 3: Observability: трейсинг и визуализация // ДЗ
Практики SRE
Шестой модуль нацелен комплексно ознакомить с различными практиками SRE подхода
Тема 1: Непрерывная поставка и управление изменениями // ДЗ
Тема 2: Управление релизами
Тема 3: Практика on-call и жизненный цикл SRE команды
Тема 4: QA-сессия
Тема 5: Практика постмортемов
Тема 6: Тестирование надежности систем // ДЗ
Тема 7: Практика диагностики и решения проблем // ДЗ
Тема 8: Управление нагрузкой предотвращения перегрузок и сбоев // ДЗ
Тема 9: Customer Reliability Engineering
Поиск работы
В данном модуле будут рассмотрены советы и рекомендации по позиционированию специалиста на рынке труда
Тема 1: Как подсветить навыки в резюме. Шаблон резюме
Тема 2: Этапы собеседования: чего ждать? Live-собеседование с поведенческими вопросами
Проектная работа
В рамках модуля будут подведены итоги обучения на курсе. В частности - пройдёт подготовка и защита проектной работы
Тема 1: Выбор темы и организация проектной работы // Проект
Тема 2: Консультация по проектам и домашним заданиям - промежуточная приемка
Тема 3: Защита проектных работ
Также вы можете получить полную программу, чтобы убедиться, что обучение вам подходит
Проектная работа
Заключительный месяц курса посвящен проектной работе. Свой проект - это использование SRE практик и инструментов, которые были интересны слушателю. То, что можно создать на основе знаний, полученных на курсе. В процессе работы по проекту можно получить консультации преподавателей.
Пример выпускного проекта - читайте в нашем блоге:
Преподаватели
Эксперты-практики делятся опытом, разбирают кейсы студентов и дают развернутый фидбэк на домашние задания
Ближайшие мероприятия
Открытый вебинар — это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.
На этом открытом занятии разберём разницу между подходами DevOps и SRE, особенно — в контексте Service Level Indicators (SLI), Service Level Objectives (SLO) и Service Level Agreements (SLA). Вы узнаете, как эти практики помогают создавать надёжную платформу и кто за что отвечает в команде.
📌 Обсудим:
- Что такое Service Level и как они связаны с надёжностью;
- Как DevOps и SRE трактуют «качество платформы»;
- Кто и за какими метриками следит: производительность, аптайм, алерты, ошибки;
- Где проходит граница между автоматизацией и инженерией надёжности;
- Как выстроить взаимодействие DevOps и SRE в одной команде.
👥 Для кого вебинар:
- DevOps-инженерам, стремящимся повысить зрелость процессов и роли;
- SRE-инженерам, работающим с метриками надёжности и инцидент-менеджментом;
- Архитекторам и тимлидам, выстраивающим платформенные команды;
- Backend- и FullStack-разработчикам, которым важно понимать, как сервисы контролируются и развиваются.
🎯 После вебинара вы:
- Разберётесь, как измерять и улучшать надёжность сервисов;
- Научитесь определять зоны ответственности DevOps и SRE;
- Сможете выстраивать эффективное взаимодействие между инженерными ролями.
📌 Обсудим:
- Зачем нужен мониторинг в распределенных системах и в каких случаях он критичен.
- Как правильно ставить задачи для мониторинга, чтобы получать полезные и точные данные.
- Методы мониторинга черного и белого ящика: их принципы, применения и отличия.
👥 Для кого вебинар:
- SRE специалистам, которые стремятся улучшить свои навыки в мониторинге распределенных систем и управлении их производительностью.
- DevOps инженерам, нуждающимся в практических подходах для эффективного мониторинга и управления распределенными сервисами.
- Системным администраторам, ответственных за поддержание и мониторинг сложных распределенных инфраструктур.
- Backend- и FullStack-разработчикам, проектирующим системы, требующие тщательного мониторинга для обеспечения их надежности и стабильности.
🎯 После вебинара вы:
- Вы поймете важность мониторинга в распределенных системах и научитесь определять, когда он критичен.
- Научитесь правильно ставить задачи для мониторинга и эффективно использовать полученные данные.
- Освоите методы мониторинга черного и белого ящика и сможете применять их для повышения надежности и производительности систем.
Прошедшие
мероприятия
Возможность пройти вступительное тестирование повторно появится только через 3 дня
Результаты тестирования будут отправлены вам на email, указанный при регистрации.
Тест рассчитан на 30 минут, после начала тестирования отложить тестирование не получится!
Корпоративное обучение для ваших сотрудников
- Курсы OTUS верифицированы крупными игроками ИТ-рынка и предлагают инструменты и практики, актуальные на данный момент
- Студенты работают в группах, могут получить консультации не только преподавателей, но и профессионального сообщества
- OTUS проверяет знания студентов перед стартом обучения и после его завершения
- Простой и удобный личный кабинет компании, в котором можно видеть статистику по обучению сотрудников
- Сертификат нашего выпускника за 5 лет стал гарантом качества знаний в обществе
- OTUS создал в IT более 120 курсов по 7 направлениям, линейка которых расширяется по 40-50 курсов в год
Подтверждение знаний и навыков
OTUS осуществляет лицензированную образовательную деятельность.
В конце обучения вы получите сертификат OTUS о прохождении курса
После обучения вы:
- заберете с собой полный комплект обучающих материалов: видеозаписи всех вебинаров, презентации к занятиям и другие дополнительные материалы
- получите сертификат об окончании курса
- повысите свою ценность и конкурентоспособность как IT-специалиста
SRE практики и инструменты
Полная стоимость
Стоимость указана для оплаты физическими лицами
вычета до 13% стоимости обучения. Пройдите тестирование и менеджер вас проконсультирует
+7 499 938-92-02 бесплатно