SRE практики и инструменты

Лучшие практики по управлению надежностью, доступностью и эффективностью сервисов

24 апреля

Professional

5 месяцев

Онлайн

Пн/Ср 20:00 Мск

Для кого этот курс?

  • Системных инженеров, администраторов и операторов, в задачи которых входит обеспечение надежности и доступности
  • Разработчиков, которые хотят понять что происходит в production окружениях
  • Инфраструктурных и платформенных инженеров, которые предоставляют свои сервисы другим командам
  • Технических директоров, руководителей и тимлидов, которые хотят разобраться и внедрить SRE практики и инструменты

Необходимые знания:

  • Опыт из разработки, тестирования или эксплуатации
  • Будет плюсом пройденные курсы по: разработке, DevOps или Linux
Пройдите вступительный тест  и получите спец.цену на курс

Что вам даст этот курс?

Site Reliability Engineering - это подход к организации эксплуатации информационных систем.  

SRE подход переосмысливает задачи, которые исторически выполнялись операторами и системными администраторами, часто вручную, и передает их операционным группам, которые используют программное обеспечение и автоматизацию для решения проблем эксплуатации и управления системами. 

Подход решает задачу управления надежностью используя набор техник: принятие решений на основе данных о состоянии системы,  работа с инцидентами и усовершенствованные регламенты, работа со стейкхолдерами и управление ожиданиями и конечно же  разумная автоматизация происходящего.
 
SRE - это прежде всего практики создания масштабируемых и высоконадежных программных систем.

На курсе вы узнаете:

  • Что такое SRE и какие существуют на сегодня SRE-практики
  • Как внедрить SRE практики в своей организации
  • Как управлять надежностью, доступностью и эффективностью сервисов
  • Управлять изменениями
  • Осуществлять мониторинг и улучшать наблюдаемость системы
  • Реагировать на инциденты и проблемы с производительностью
  • Что такое SRE и какие существуют на сегодня SRE-практики
  • Как внедрить SRE практики в своей организации 

Лабораторные работы

Практические домашние задания для закрепления теории выполняются на базе следующего технологического стека: Linux, Kubernetes, Ansible, Terraform, Prometheus, Python.

Процесс обучения

Все обучение проходит онлайн: вебинары, общение с преподавателями и вашей группой в telegram курса, сдача домашних работ и получение обратной связи от преподавателя. Вебинары идут дважды в неделю по 2 академических часа (то есть астрономических 1,5 часа). Все вебинары сохраняются и в записи в вашем личном кабинете. Домашнее задание выдается в среднем раз в 2 недели, а его выполнение занимает 3-5 часов. Мы горячо призываем заниматься такой самостоятельной работой, так как это поможет вам качественно освоить все изучаемые технологии на практике с поддержкой и обратной связью наших преподавателей.

Практика

 

Проработка теории в домашних заданиях

Преподаватели-практики

 

Опытные спикеры, которые работают в ведущих компаниях

Портфолио

 

Индивидуальная разработка итоговой проектной работы

Трудоустройство

Многие студенты еще во время прохождения первой части программы находят или меняют работу, а к концу обучения могут претендовать на повышение в должности. 

  • Получите помощь с оформлением резюме, портфолио и сопроводительного письма
  • Разместите свое резюме в базе OTUS и сможете получать приглашения на собеседования от партнеров

SRE-Engineer

Перспективы направления
Средний уровень зарплат в Москве:
150 000Junior+ специалист
230 000Middle+ специалист
350 000Senior специалист
251
актуальная вакансия

Работодатели курса

Формат обучения

Интерактивные вебинары 


2 онлайн-трансляции по 2 ак.часа в неделю. Доступ к записям и материалам остается навсегда

В процессе обучения

Домашние задания + проектная работа, для усиления вашего портфолио и компетенций

Активное комьюнити

Общайтесь с преподавателями голосом на вебинарах, в закрытом чате Telegram и при проверке домашних заданий

Программа

Введение в SRE

В первом модуле рассматриваются основные принципы SRE

Тема 1: Введение в SRE // ДЗ

Тема 2: Основные принципы SRE

Тема 3: SLI, SLA, SLO и управление рисками // ДЗ

Everything as a Code

Второй модуль посвящен рассмотрению практик управления различными конфигурациями

Тема 1: GIT 101: совместная работа, CI, вендоринг // ДЗ

Тема 2: Практика управление конфигурацией. Ansible // ДЗ

Тема 3: Практика управление конфигурацией. Terraform // ДЗ

Экосистема Kubernetes

В третьем модуле наибольшее внимание будет уделено экосистеме Kubernetes

Тема 1: Linux 101: cgroups/namespaces/network/containers // ДЗ

Тема 2: Экосистема Kubernetes // ДЗ

Тема 3: Практика управление конфигурацией. Helm // ДЗ

Тема 4: QA-сессия

Автоматизация (Toil elimination)

В данном модуле рассмотрим различные аспекты автоматизации в контексте SRE

Тема 1: Автоматизация: CLI, Data transformation // ДЗ

Тема 2: Aвтоматизация: Runbook Automation (Jenkins/AWX/Rundeck) // ДЗ

Тема 3: Автоматизация: Low-Code/No-Code

Мониторинг и практика оповещений

В данном модуле будут рассмотрены и проанализированы различные аспекты мониторинга в контексте SRE

Тема 1: Задачи мониторинга и алертинга // ДЗ

Тема 2: Observability // ДЗ

Тема 3: Dashboard as a Code // ДЗ

Практики SRE

Шестой модуль нацелен комплексно ознакомить с различными практиками SRE подхода

Тема 1: Непрерывная поставка и управление изменениями // ДЗ

Тема 2: Управление релизами

Тема 3: Практика on-call и жизненный цикл SRE команды

Тема 4: QA-сессия

Тема 5: Практика постмортемов

Тема 6: Тестирование надежности систем // ДЗ

Тема 7: Практика диагностики и решения проблем // ДЗ (нумерация)

Тема 8: Управление нагрузкой предотвращения перегрузок и сбоев // ДЗ

Тема 9: Customer Reliability Engineering

Поиск работы

В данном модуле будут рассмотрены советы и рекомендации по позиционированию специалиста на рынке труда

Тема 1: Как подсветить навыки в резюме. Шаблон резюме

Тема 2: Этапы собеседования: чего ждать? Live-собеседование с поведенческими вопросами

Проектная работа

В рамках модуля будут подведены итоги обучения на курсе. В частности - пройдёт подготовка и защита проектной работы

Тема 1: Выбор темы и организация проектной работы

Тема 2: Консультация по проектам и домашним заданиям - промежуточная приемка

Тема 3: Защита проектных работ // Проект

Также вы можете получить полную программу, чтобы убедиться, что обучение вам подходит

Проектная работа


Заключительный месяц курса посвящен проектной работе. Свой проект - это использование SRE практик и инструментов, которые были интересны слушателю. То, что можно создать на основе знаний, полученных на курсе. В процессе работы по проекту можно получить консультации преподавателей.

Пример выпускного проекта - читайте в нашем блоге:

Преподаватели

Руководитель курса

Сергей Караткевич

Анатолий Бурнашев

SRE expert

Анастасия Порхун

Специалист по информационной безопасности

Отдел безопасности сетевых приложений

Дмитрий Жиляев

Николай Акулов

Михаил Чугунов

Ведущий DevOps-инженер

Максим Жарников

SRE-инженер

Газпром-нефть

Эксперты-практики делятся опытом, разбирают кейсы студентов и дают развернутый фидбэк на домашние задания

Ближайшие мероприятия

Открытый вебинар — это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.

KPI и метрики непрерывной доставки - отслеживаем стабильность развертывания на примере ArgoCD
Михаил Чугунов
На данном открытом уроке мы рассмотрим, какие метрики и ключевые показатели требуются, для успешного мониторинга и оценивания качества конвейера доставки. Поговорим о том, какие инструменты позволяют нам этого достичь и на примере ArgoCD разберем несколько кейсов, которые могут пригодиться на "боевых" стендах...
1 апреля в 17:00
Открытый вебинар
Сбор метрик, связанных с разработкой программного обеспечения, на примере argoCD: используем API чтобы понять происходящее в командах
Сергей Караткевич
- О чём вебинар
Существуют метрики, которые помогают понять динамику системы, обнаружить узкие места и аргументированно предлагать изменения, основываясь на данных
- Структура вебинара
Какие есть метрики (DORA, Engineering, MTT*)
ArgoCD, gitOps и получение информации через API
- Кому подойдёт
Тем кто хочет применить подход "решения на основе данных"
- Результаты вебинара
Получите готовый фреймворк "Как начать работать с метриками"
...
10 апреля в 17:00
Открытый вебинар
Observability и eBPF: как перестать искать черную кошку в темной комнате? Включить свет!
Сергей Караткевич
- О чём вебинар
eBPF как мощный интрумент, помогающий получить исчерпывающую информацию о вашей системе
- Структура вебинара
Что такое eBPF и история
Какие есть инструменты, упрощающие работу с eBPF
- Кому подойдёт
Тем кто хочет попробовать eBPF но не знает как начать
- Результаты вебинара
Получите представление об экосистеме вокруг eBPF, популярных инструментах и их возможностях/
...
22 апреля в 17:00
Открытый вебинар

Прошедшие
мероприятия

Сергей Караткевич
Открытый вебинар
O11y (Observability) - что это? Почему Observability != Monitoring?
Сергей Караткевич
Открытый вебинар
Лабораторные окружения, что нового?
Для доступа ко всем прошедшим мероприятиям необходимо пройти входное тестирование
Возможность пройти вступительное тестирование повторно появится только через 3 дня
Результаты тестирования будут отправлены вам на email, указанный при регистрации.
Тест рассчитан на 30 минут, после начала тестирования отложить тестирование не получится!

Корпоративное обучение для ваших сотрудников

Отус помогает развивать высокотехнологичные Команды. Почему нам удаётся это делать успешно:
  • Курсы OTUS верифицированы крупными игроками ИТ-рынка и предлагают инструменты и практики, актуальные на данный момент
  • Студенты работают в группах, могут получить консультации не только преподавателей, но и профессионального сообщества
  • OTUS проверяет знания студентов перед стартом обучения и после его завершения
  • Простой и удобный личный кабинет компании, в котором можно видеть статистику по обучению сотрудников
  • Сертификат нашего выпускника за 5 лет стал гарантом качества знаний в обществе
  • OTUS создал в IT более 120 курсов по 7 направлениям, линейка которых расширяется по 40-50 курсов в год

Сертификат о прохождении курса

OTUS осуществляет лицензированную образовательную деятельность.
В конце обучения вы получите сертификат OTUS о прохождении курса

После обучения вы: 

  • заберете с собой полный комплект обучающих материалов: видеозаписи всех вебинаров, презентации к занятиям и другие дополнительные материалы
  • получите сертификат об окончании курса
  • повысите свою ценность и конкурентоспособность как IT-специалиста

Частые вопросы

Что, если в середине курса я не смогу продолжать обучение?
У вас есть право одного бесплатного трансфера в другую группу
Обязательно ли защищать выпускной проект?
Для получения сертификата OTUS необходимо сдать проект. Кроме того, проект необязательно защищать перед аудиторией, а можно сдать в чате с преподавателем.
Я могу вернуть деньги?
Да, вы можете сделать возврат средств пропорционально оставшимся месяцам обучения.