Это курс нашего партнера

SRE практики и инструменты

Site Reliability Engineering, как дисциплина, решает проблемы надежности и доступности сервисов

Начало занятий

В июле

Начало занятий
В июле
Что даст вам этот курс

Сейчас в индустрии уже понятно, что SRE - это про надежность, доступность и эффективность сервисов, про управление изменениями, мониторинг, реагирование на инциденты и производительность своих сервисов. В таких компаниях как Google это отдельная профессия или должность, на которую нанимают только разработчиков, в других это выделенная роль или методология, которую используют все участники команды.

В крупных компаниях, таких как Google и Netflix, есть практика ротации, когда разработчики, тестировщики или инженеры эксплуатации могут временно, на несколько месяцев, сменить должность и поработать в других командах, мы предлагаем вам провести аналогичный эксперимент.

Курс подойдет для:

- Разработчиков, которые развиваются дальше и отвечают за свои сервисы в production окружениях
- SRE и системных инженеров, в задачи которых входит обеспечение надежности и доступности
- Инфраструктурных и платформенных инженеров, которые начали предоставлять свои сервисы другим командам
- Техническим директорам, руководителям и тимлидам, которые хотят разобраться и внедрить лучшие SRE практики и инструменты

На курсе вы узнаете, как:

- Обеспечить надежность, доступность и эффективность сервисов
- Управлять изменениями
- Осуществлять мониторинг
- Реагировать на инциденты и производительность

Практические задания будем выполнять на базе следующего технологического стека: Linux, AWS, GCP, Ansible, Salt, Consul, Prometheus, Okmeter, NewRelic, PagerDuty, Perf, Strace, Go, Python.


Это первый полный курс по Site Reliability Engineering в России

Курс разработан на основе многолетнего практического опыта инженеров компании Express42

Рассмотрим SRE подходы в российских компаниях - Яндекс, Mail.ru, Авито, Badoo, HH.ru.

Подробно разберем современные SRE практики на примерах таких компаний как Google, Facebook, Netflix, Spotify, Evernote, PagerDuty, NewRelic


По окончании курса вы будете:

- Знать все доступные на данный момент SRE-практики и инструменты
- Следовать SRE-принципам
- Понимать, как выстраивать SRE-процессы в контексте взаимодействия с DevOps
- Уметь применять полученные знания в своей ежедневной работе, улучшая жизнь себе, коллегам, проекту и компании
Мы видим, что SRE это тренд в 2019 году и хотим полностью раскрыть данную тему
Игорь Курочкин
Преподаватель курса
Мы видим, что SRE это тренд в 2019 году и хотим полностью раскрыть данную тему
Игорь Курочкин
Преподаватель курса
Преподаватель
Игорь Курочкин
Express 42
Развивает DevOps практики и инструменты в компании Экспресс 42
Преподаватель
Игорь Курочкин
Express 42
Развивает DevOps практики и инструменты в компании Экспресс 42
Минимальные знания

- Опыт из разработки, тестирования или эксплуатации
- Будет плюсом один из пройденных курсов по разработке в ОТУС
- Будет плюсом пройденные курсы по DevOps практикам и инструментам и Linux
Процесс обучения
Все обучение проходит онлайн: вебинары, общение с преподавателями и вашей группой в слаке курса, сдача домашних работ и получение обратной связи от преподавателя.

Вебинары идут дважды в неделю по 2 академических часа (то есть астрономических 1,5 часа). Все вебинары сохраняются и в записи в вашем личном кабинете.

Домашнее задание выдается в среднем одно в неделю, а его выполнение занимает 3-5 часов. Мы горячо призываем заниматься такой самостоятельной работой, так как это поможет вам качественно освоить все изучаемые технологии на практике с поддержкой и обратной связью наших преподавателей.

Возникающие вопросы по материалам лекций, домашним заданиям и по выпускному проекту вы сможете задавать преподавателю в слаке или во время вебинаров.

Курс длится 4 месяца, а финальный отводится для выполнения проектной работы, досдачи домашних заданий и вопросов преподавателям.

Выполнение проектной работы помогает усвоению практических навыков, а тема проекта отдельно выносится в сертификат. Во время работы над проектом студенты получают консультации и обратную связь от преподавателей в слаке группы и на проектных занятиях.
Программа обучения
Модуль 1
Введение в SRE
Модуль 2
Принципы SRE
Модуль 3
Практики SRE
Модуль 4
Управление в SRE
Введение в SRE
Программа курса составлена на основе опыта, накопленного компанией Экспресс 42, которая на протяжении уже более 5 лет, помогает внедрять DevOps и SRE практики в крупных российских и зарубежных компаниях.
Введение в SRE
Поговорим об истории SRE, связью с DevOps и рассмотрим варианты взаимодействия. Обсудим подход SRE к управлению сервисами и различные варианты Reliability Engineering: Site, Production, Database.
Правила SRE и среда эксплуатации
Разберем основные правила работы и обсудим среду эксплуатации с точки зрения SRE.

SRE, Network, Hardware, Cloud, VM, Docker, K8s
Принципы SRE
SLI, SLA, SLO и управление рисками
Управление рисками - одна из самых важных практик. Обсудим, как SRE оценивает риски, управляет ими и использует лимит времени недоступности сервиса для того, чтобы объективно принимать решения. SLI, SLA, SLO - фундаментальные понятия для SRE. Рассмотрим каждый из этих понятий и определим показатели для сервиса.

SLI, SLA, SLO, error budget
Автоматизация
Рассмотрим подход SRE к автоматизации, а также примеры ее реализации — как успешные, так и неудачные.

IaC, Ad-hoc
Мониторинг
Мониторинг - один из основных компонентов успешной работы ПО. Если вы не можете наблюдать за сервисом, вы не знаете, что с ним происходит, а если вы не знаете, что происходит, то не можете гарантировать надежность. Получим представление о том, как и за какими компонентами следует наблюдать.

USE, RED, 4 Golden signals
Непрерывная поставка
Обсудим как обеспечить уверенность в стабильности и качестве выпускаемого продукта с помощью непрерывной поставки.
Снижение рутины и стремление к простоте
Рассмотрим, как избавиться от утомительной работы. Мы считаем утомительной и рутинной работу однообразную, повторяющуюся изо дня в день, но не дающую конкретных значимых результатов; объем такой работы растет пропорционально росту сервиса. И обсудим основной принцип эффективной разработки ПО - стремление к простоте.
Практики SRE
Практика оповещений
Разберем практику оповещений, изучим процессы и варианты оповещений, выберем инструментарий.
Практика on-call
Погрузимся в жизнь дежурного инженера. Поговорим про организацию и культуру дежурств. Разберем реализации на практике.
Практика диагностики и решения проблем
Рассмотрим примеры анализа реальных ситуаций и изучим инструментарий.
Практика реагирования на инциденты
Поймем что делать, когда система сломалась. Разберем разные типы аварий, вызванные тестированием, изменениями конфигурации и процессом. Обсудим выводы.
Практика управления инцидентами
Познакомимся с типами инцидентов и разберем их анатомию. Обсудим процессы управления в критических ситуациях.
Практика постмортемов
Поговорим про философию постмортемов, рассмотрим хороший и плохой постмортем. Поймем с чего начать внедрение культуры постмортема. Разберем примеры, инструменты и шаблоны.
Практика управление конфигурацией
Поговорим про управление конфигурацией с точки зрения SRE. Рассмотрим различные подходы.
Практика управление релизами
Рассмотрим практику управления релизами и координацию процесса. Разработаем чек-лист для запуска, обсудим приемы надежных релизов и роль SRE инженера.
Практика управления нагрузкой
Обсудим балансировку нагрузки на уровне фронтенда и датацентра, рассмотрим политики балансировки нагрузки.
Практика предотвращения перегрузок и сбоев
Узнаем как справиться с перегрузками, обсудим причины сбоев и способы их избежать.
Практика тестирования надежности систем
Рассмотрим виды тестирования ПО, процессы и инструменты. Поговорим про Chaos Engineering и проведение учений.

Chaos engineering
Практика разрешения конфликтов
Обсудим алгоритмы разрешения конфликтов и координацию распределенных систем.

Paxos
Практика конвейера обработки данных
Начнем разбираться в построении конвейеров для обработки данных.
Практика сохранности данных
Поговорим про стратегии для обеспечения сохранности данных, узнаем про целевые значения показателей сохранности и доступности и как SRE справляется справляется с трудностями обеспечения сохранности данных, обсудим общие принципы, применяемые для сохранности данных.
Практика разработки в SRE
Ответим на вопрос почему так важна разработка ПО внутри SRE и поговорим про культивирование разработки ПО в SRE.
Практика машинного обучения
Поговорим про машинное обучение и чем оно может быть полезно SRE на практике.
Управление в SRE
Управление прерываниями и операционной нагрузкой
Узнаем как управлять операционной нагрузкой и прерываниями. Разберем на примерах.
Жизненный цикл SRE команды
Рассмотрим жизненный цикл SRE команды: создание, найм, обучение, общение и взаимодействие внутри SRE команды.
Взаимодействие с SRE
Обсудим варианты взаимодействия с SRE командой. Масштабирование SRE и реализация SRE в enterprise проектах.
Выпускной проект
Заключительный месяц курса посвящен проектной работе. Свой проект - это использование SRE практик и инструментов, которые были интересны слушателю. То, что можно создать на основе знаний, полученных на курсе. При этом не обязательно закончить его за месяц. В процессе работы по проекту можно получить консультации преподавателей.

Примеры тем проекта:
- Повышение надежности своего сервиса
- Вывод сервиса в production окружение
- Покрытие мониторингом своего сервиса
- Создание процесса управления инцидентами и on-call
- Тестирование надежности своего сервиса
После обучения вы
- Будете хорошо разбираться в SRE практиках и инструментах и сможете применять их на своих проектах
- Заберете с собой learn-материалы по всем занятиям (презентации, записи вебинаров, примеры практических задач)
- Получите сертификат о прохождении курса
- Получите приглашение пройти собеседование в компаниях-партнерах (эту возможность получают самые успешные студенты).
Дата выдачи сертификата: 28 декабря 2019 года
Ваш сертификат
otus.ru
Константин Константинопольский
успешно закончил курс
«SRE практики и инструменты»
Успешных заданий:
16 из 16
Проектная работа:
Распределённая система сетевого мониторинга
Виталий Чибриков
Генеральный директор
№ 0001
otus.ru
Константин Константинопольский
успешно закончил курс
«SRE практики и инструменты»
Успешных заданий:
16 из 16
Проектная работа:
Распределённая система сетевого мониторинга
Виталий Чибриков
Генеральный директор
№ 0001
Партнеры ждут выпускников этого курса