Это курс нашего партнера

SRE практики и инструменты

Site Reliability Engineering, как дисциплина, решает проблемы надежности и доступности сервисов

Начало занятий

В октябре

Начало занятий
В октябре
Что даст вам этот курс

Сейчас в индустрии уже понятно, что SRE - это про надежность, доступность и эффективность сервисов, про управление изменениями, мониторинг, реагирование на инциденты и производительность своих сервисов. В таких компаниях как Google это отдельная профессия или должность, на которую нанимают только разработчиков, в других это выделенная роль или методология, которую используют все участники команды.

В крупных компаниях, таких как Google и Netflix, есть практика ротации, когда разработчики, тестировщики или инженеры эксплуатации могут временно, на несколько месяцев, сменить должность и поработать в других командах, мы предлагаем вам провести аналогичный эксперимент.

Курс подойдет для:

- Разработчиков, которые развиваются дальше и отвечают за свои сервисы в production окружениях
- SRE и системных инженеров, в задачи которых входит обеспечение надежности и доступности
- Инфраструктурных и платформенных инженеров, которые начали предоставлять свои сервисы другим командам
- Техническим директорам, руководителям и тимлидам, которые хотят разобраться и внедрить лучшие SRE практики и инструменты

На курсе вы узнаете, как:

- Обеспечить надежность, доступность и эффективность сервисов
- Управлять изменениями
- Осуществлять мониторинг
- Реагировать на инциденты и производительность

Практические задания будем выполнять на базе следующего технологического стека: Linux, AWS, GCP, Ansible, Salt, Consul, Prometheus, Okmeter, NewRelic, PagerDuty, Perf, Strace, Go, Python.


Это первый полный курс по Site Reliability Engineering в России

Курс разработан на основе многолетнего практического опыта инженеров компании Express42

Рассмотрим SRE подходы в российских компаниях - Яндекс, Mail.ru, Авито, Badoo, HH.ru.

Подробно разберем современные SRE практики на примерах таких компаний как Google, Facebook, Netflix, Spotify, Evernote, PagerDuty, NewRelic


По окончании курса вы будете:

- Знать все доступные на данный момент SRE-практики и инструменты
- Следовать SRE-принципам
- Понимать, как выстраивать SRE-процессы в контексте взаимодействия с DevOps
- Уметь применять полученные знания в своей ежедневной работе, улучшая жизнь себе, коллегам, проекту и компании
Мы видим, что SRE это тренд в 2019 году и хотим полностью раскрыть данную тему
Игорь Курочкин
Преподаватель курса
Мы видим, что SRE это тренд в 2019 году и хотим полностью раскрыть данную тему
Игорь Курочкин
Преподаватель курса
Преподаватель
Игорь Курочкин
Express 42
Развивает DevOps практики и инструменты в компании Экспресс 42
Преподаватель
Игорь Курочкин
Express 42
Развивает DevOps практики и инструменты в компании Экспресс 42
Минимальные знания

- Опыт из разработки, тестирования или эксплуатации
- Будет плюсом один из пройденных курсов по разработке в ОТУС
- Будет плюсом пройденные курсы по DevOps практикам и инструментам и Linux
Процесс обучения
Все обучение проходит онлайн: вебинары, общение с преподавателями и вашей группой в слаке курса, сдача домашних работ и получение обратной связи от преподавателя.

Вебинары идут дважды в неделю по 2 академических часа (то есть астрономических 1,5 часа). Все вебинары сохраняются и в записи в вашем личном кабинете.

Домашнее задание выдается в среднем одно в неделю, а его выполнение занимает 3-5 часов. Мы горячо призываем заниматься такой самостоятельной работой, так как это поможет вам качественно освоить все изучаемые технологии на практике с поддержкой и обратной связью наших преподавателей.

Возникающие вопросы по материалам лекций, домашним заданиям и по выпускному проекту вы сможете задавать преподавателю в слаке или во время вебинаров.

Курс длится 4 месяца, а финальный отводится для выполнения проектной работы, досдачи домашних заданий и вопросов преподавателям.

Выполнение проектной работы помогает усвоению практических навыков, а тема проекта отдельно выносится в сертификат. Во время работы над проектом студенты получают консультации и обратную связь от преподавателей в слаке группы и на проектных занятиях.
Программа обучения
Модуль 1
Введение в SRE
Модуль 2
Принципы SRE
Модуль 3
Практики SRE
Модуль 4
Управление в SRE
Введение в SRE
Программа курса составлена на основе опыта, накопленного компанией Экспресс 42, которая на протяжении уже более 5 лет, помогает внедрять DevOps и SRE практики в крупных российских и зарубежных компаниях.
Тема 1: Введение в SRE
Поговорим об истории SRE, связью с DevOps и рассмотрим варианты взаимодействия. Обсудим подход SRE к управлению сервисами и различные варианты Reliability Engineering: Site, Production, Database.
Тема 2: Правила SRE и среда эксплуатации
Разберем основные правила работы и обсудим среду эксплуатации с точки зрения SRE.

SRE, Network, Hardware, Cloud, VM, Docker, K8s
Принципы SRE
Тема 1: SLI, SLA, SLO и управление рисками
Управление рисками - одна из самых важных практик. Обсудим, как SRE оценивает риски, управляет ими и использует лимит времени недоступности сервиса для того, чтобы объективно принимать решения. SLI, SLA, SLO - фундаментальные понятия для SRE. Рассмотрим каждый из этих понятий и определим показатели для сервиса.

SLI, SLA, SLO, error budget
Тема 2: Автоматизация
Рассмотрим подход SRE к автоматизации, а также примеры ее реализации — как успешные, так и неудачные.

IaC, Ad-hoc
Тема 3: Мониторинг
Мониторинг - один из основных компонентов успешной работы ПО. Если вы не можете наблюдать за сервисом, вы не знаете, что с ним происходит, а если вы не знаете, что происходит, то не можете гарантировать надежность. Получим представление о том, как и за какими компонентами следует наблюдать.

USE, RED, 4 Golden signals
Тема 4: Непрерывная поставка
Обсудим как обеспечить уверенность в стабильности и качестве выпускаемого продукта с помощью непрерывной поставки.
Тема 5: Снижение рутины и стремление к простоте
Рассмотрим, как избавиться от утомительной работы. Мы считаем утомительной и рутинной работу однообразную, повторяющуюся изо дня в день, но не дающую конкретных значимых результатов; объем такой работы растет пропорционально росту сервиса. И обсудим основной принцип эффективной разработки ПО - стремление к простоте.
Практики SRE
Тема 1: Практика оповещений
Разберем практику оповещений, изучим процессы и варианты оповещений, выберем инструментарий.
Тема 2: Практика on-call
Погрузимся в жизнь дежурного инженера. Поговорим про организацию и культуру дежурств. Разберем реализации на практике.
Тема 3: Практика диагностики и решения проблем
Рассмотрим примеры анализа реальных ситуаций и изучим инструментарий.
Тема 4: Практика реагирования на инциденты
Поймем что делать, когда система сломалась. Разберем разные типы аварий, вызванные тестированием, изменениями конфигурации и процессом. Обсудим выводы.
Тема 5: Практика управления инцидентами
Познакомимся с типами инцидентов и разберем их анатомию. Обсудим процессы управления в критических ситуациях.
Тема 6: Практика постмортемов
Поговорим про философию постмортемов, рассмотрим хороший и плохой постмортем. Поймем с чего начать внедрение культуры постмортема. Разберем примеры, инструменты и шаблоны.
Тема 7: Практика управление конфигурацией
Поговорим про управление конфигурацией с точки зрения SRE. Рассмотрим различные подходы.
Тема 8: Практика управление релизами
Рассмотрим практику управления релизами и координацию процесса. Разработаем чек-лист для запуска, обсудим приемы надежных релизов и роль SRE инженера.
Тема 9: Практика управления нагрузкой
Обсудим балансировку нагрузки на уровне фронтенда и датацентра, рассмотрим политики балансировки нагрузки.
Тема 10: Практика предотвращения перегрузок и сбоев
Узнаем как справиться с перегрузками, обсудим причины сбоев и способы их избежать.
Тема 11: Практика тестирования надежности систем
Рассмотрим виды тестирования ПО, процессы и инструменты. Поговорим про Chaos Engineering и проведение учений.

Chaos engineering
Тема 12: Практика разрешения конфликтов
Обсудим алгоритмы разрешения конфликтов и координацию распределенных систем.

Paxos
Тема 13: Практика конвейера обработки данных
Начнем разбираться в построении конвейеров для обработки данных.
Тема 14: Практика сохранности данных
Поговорим про стратегии для обеспечения сохранности данных, узнаем про целевые значения показателей сохранности и доступности и как SRE справляется справляется с трудностями обеспечения сохранности данных, обсудим общие принципы, применяемые для сохранности данных.
Тема 15: Практика разработки в SRE
Ответим на вопрос почему так важна разработка ПО внутри SRE и поговорим про культивирование разработки ПО в SRE.
Тема 16: Практика машинного обучения
Поговорим про машинное обучение и чем оно может быть полезно SRE на практике.
Управление в SRE
Тема 1: Управление прерываниями и операционной нагрузкой
Узнаем как управлять операционной нагрузкой и прерываниями. Разберем на примерах.
Тема 2: Жизненный цикл SRE команды
Рассмотрим жизненный цикл SRE команды: создание, найм, обучение, общение и взаимодействие внутри SRE команды.
Тема 3: Взаимодействие с SRE
Обсудим варианты взаимодействия с SRE командой. Масштабирование SRE и реализация SRE в enterprise проектах.
Выпускной проект
Заключительный месяц курса посвящен проектной работе. Свой проект - это использование SRE практик и инструментов, которые были интересны слушателю. То, что можно создать на основе знаний, полученных на курсе. При этом не обязательно закончить его за месяц. В процессе работы по проекту можно получить консультации преподавателей.

Примеры тем проекта:
- Повышение надежности своего сервиса
- Вывод сервиса в production окружение
- Покрытие мониторингом своего сервиса
- Создание процесса управления инцидентами и on-call
- Тестирование надежности своего сервиса
После обучения вы
- Будете хорошо разбираться в SRE практиках и инструментах и сможете применять их на своих проектах
- Заберете с собой learn-материалы по всем занятиям (презентации, записи вебинаров, примеры практических задач)
- Получите сертификат о прохождении курса
- Получите приглашение пройти собеседование в компаниях-партнерах (эту возможность получают самые успешные студенты).
Дата выдачи сертификата: 15 марта 2020 года
Ваш сертификат

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «SRE практики и инструменты»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018г.

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «SRE практики и инструменты»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018г.
Партнеры ждут выпускников этого курса