Data Engineer

Лучшие практики по приготовлению данных. Загрузка, обработка, организация хранения и доступа к данным с использованием современных инструментов
Подойдет ли мне этот курс?

Длительность

4 месяца

Начало

29 мая

Занятия

Пн 20:00, Ср 20:00

Общая стоимость

44 000 ₽

В месяц

12 500 ₽

В кредит:

12500 ₽ в месяц

Хочу дешевле
Общая стоимость
44 000 ₽
В месяц: 12 500 ₽
В кредит: 44000 ₽
в месяц
Продолжительность
4 месяца, 4 академических часа в неделю
Пн 20:00, Ср 20:00
Начало занятий
29 мая
Что даст вам этот курс

  • понимание ключевых способов интеграции, обработки, хранения больших данных

  • умение работать с компонентами экосистемы Hadoop, распределенными хранилищами и платформами

  • практические навыки разработки дата-сервисов, витрин и приложений

  • знание принципов организации мониторинга, оркестрации, тестирования


  • Курс адресован разработчикам, администраторам СУБД и всем, кто стремится повысить профессиональный уровень, освоить новые инструменты и заниматься интересными задачами в сфере работы с данными.


    После обучения Data Engineering вы станете востребованным специалистом, который:

    • разворачивает, налаживает и оптимизирует инструменты обработки данных

    • адаптирует датасеты для дальнейшей работы и аналитики

    • создает сервисы, которые используют результаты обработки больших объемов данных

    • отвечает за архитектуру данных в компании



    • Real Case Studies: примеры внедрений, использования инструментов, оптимизации производительности, проблемы, ошибки и прикладные результаты

      Высокая практическая направленность:


      В течение курса будем инкрементально создавать работающий продукт, решая прикладные задачи

      Целостная картина вызовов и задач современного бизнеса, и роли Инженера


      Данных в их решении

      Востребованность у работодателей


      22 работодателя уже готов позвать на собеседование выпускников курса






        Инженер данных - почему это актуально и интересно:



      • Прежде чем попасть на стол CEO в виде квартального отчета или индивидуальной подборкой книг в email-рассылке, данные проделывают длительный и сложный, полный преобразований и трансформаций, путь, требующий непрерывного мониторинга и оркестрации.

      • В этом ключе команда инженеров, которая готова обеспечить непрерывную поставку достоверной информации для всех бизнес-потребителей и функций играет важнейшую роль в принятии тактических и стратегических решений всей компании.

      • Работа инженеров данных, внешне незаметная, удивительно сложна и интересна по своей специфике. Невероятное количество закономерностей и связей, инструментов и подходов, параметров и настроек не оставят равнодушным ни один пытливый ум в поисках оптимальных и элегантных решений.
Всё о курсе «Data Engineer», 27 мая в 20:00
День Открытых Дверей — отличная возможность узнать подробнее о программе курса, особенностях онлайн-формата, навыках, компетенциях и перспективах, которые ждут выпускников после обучения. Также преподаватель расскажет о своём профессиональном опыте и ответит на вопросы участников. Поэтому если есть вопрос, запишитесь на онлайн-трансляцию и задайте его в прямом эфире!
Ведет
Артемий
Козырь
Преподаватели
Егор Матешук
Senior Data Engineer, MaximaTelecom
Артемий Козырь
Data Engineer, СИБУР
Иван Трусов
Data Engineer, Zalando SE
Антон Задорожный
Principal Engineer, Teradata Global Delivery Center
Владимир Дроздецкий
Разработчик инфраструктуры letundra.com, exposcan.ru, crispmessenger.com
Последние 4 года работает с большими данными: строит системы для обработки больших данных, консультирует по вопросам построения инфраструктуры для аналитики. В основном проекты связаны с решениями на базе Hadoop и Vertica. В последнее время активно исследует облачные хранилища данных. Ранее также проводил исследования потребительской активности для банков и сетевых магазинов.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Сейчас занимает аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.
Более 4-х лет опыта работы с Хранилищами Данных, построении ETL/ELT, Аналитике данных и Визуализации.
Опыт работы над продуктами в компаниях PwC, Московская Биржа, Сбербанк, СИБУР.
Сферы интересов: KPIs and Scorecards / Budgeting and Planning / Retail Scoring / Next Best Offer / Reporting.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Образование: НИУ ВШЭ, факультет бизнес-информатики.
В течение последних 4 лет работает с проектами, непосредственно связанными с обработкой и хранением больших данных в приложениях к machine learning и event processing в Билайн, МТС и Сбербанк. Основной стек используемых в работе технологий - Apache Spark, AWS и Databricks, Oracle, Hive и Kafka.

В последние два года в качестве руководителя направления в Сбербанке разрабатывал систему машинного обучения на Apache Spark для целей кредитного скоринга. Сейчас занимает позицию Data Engineer в Zalando SE в Берлине (крупнейший онлайн-магазин одежды и аксессуаров в Европе).

Образование: РЭУ им. Плеханова, магистр по специальности прикладная математика в экономике.
Архитектор и разработчик в области аналитических решений, построивший хранилища данных и аналитические решения (CRM, MDM) , продолживший карьеру с data lake и потоковой аналитикой. В России работал с компаниями Сбербанк, ВТБ, МТС, Магнит, Мегафон, oneFactor.

Последние 3 года строит решения по обработке больших данных для мобильных операторов, финансовых институтов, автопроизводителей и фармацевтических компаний в Центральной Европе. Занимает позицию Principal Engineer в Teradata Global Delivery Center в Праге.

Образование: МГУ, факультет вычислительной математики и кибернетики.
Занимается поддержкой и траблшутингом серверов MySQL, приложений, написанных на PHP, etc. Активно внедряет и использует докер со всей его инфраструктурой. Придерживается мнения, что всё должно быть декларативно описано, поэтому использует Ansible.

Разрабатывает и настраивает инфраструктуру для таких стартапов, как letundra.com, exposcan.ru, crispmessenger.com. Занимается мониторингом при помощи Zabbix и Prometheus, создаёт графики в Grafana.

Чтобы легко подстраиваться под требования бизнеса, деплоит и описывает процессы в Gitlab, собирает и обрабатывает логи в ELK и Graylog2. Любит и умеет пользоваться активным сетевым оборудованием вендора MikroTik.
Егор
Матешук
Артемий
Козырь
Иван
Трусов
Антон
Задорожный
Владимир
Дроздецкий
Преподаватели
Егор Матешук
Senior Data Engineer, MaximaTelecom
Последние 4 года работает с большими данными: строит системы для обработки больших данных, консультирует по вопросам построения инфраструктуры для аналитики. В основном проекты связаны с решениями на базе Hadoop и Vertica. В последнее время активно исследует облачные хранилища данных. Ранее также проводил исследования потребительской активности для банков и сетевых магазинов.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Сейчас занимает аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.
Артемий Козырь
Data Engineer, СИБУР
Более 4-х лет опыта работы с Хранилищами Данных, построении ETL/ELT, Аналитике данных и Визуализации.
Опыт работы над продуктами в компаниях PwC, Московская Биржа, Сбербанк, СИБУР.
Сферы интересов: KPIs and Scorecards / Budgeting and Planning / Retail Scoring / Next Best Offer / Reporting.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Образование: НИУ ВШЭ, факультет бизнес-информатики.
Иван Трусов
Data Engineer, Zalando SE
В течение последних 4 лет работает с проектами, непосредственно связанными с обработкой и хранением больших данных в приложениях к machine learning и event processing в Билайн, МТС и Сбербанк. Основной стек используемых в работе технологий - Apache Spark, AWS и Databricks, Oracle, Hive и Kafka.

В последние два года в качестве руководителя направления в Сбербанке разрабатывал систему машинного обучения на Apache Spark для целей кредитного скоринга. Сейчас занимает позицию Data Engineer в Zalando SE в Берлине (крупнейший онлайн-магазин одежды и аксессуаров в Европе).

Образование: РЭУ им. Плеханова, магистр по специальности прикладная математика в экономике.
Антон Задорожный
Principal Engineer, Teradata Global Delivery Center
Архитектор и разработчик в области аналитических решений, построивший хранилища данных и аналитические решения (CRM, MDM) , продолживший карьеру с data lake и потоковой аналитикой. В России работал с компаниями Сбербанк, ВТБ, МТС, Магнит, Мегафон, oneFactor.

Последние 3 года строит решения по обработке больших данных для мобильных операторов, финансовых институтов, автопроизводителей и фармацевтических компаний в Центральной Европе. Занимает позицию Principal Engineer в Teradata Global Delivery Center в Праге.

Образование: МГУ, факультет вычислительной математики и кибернетики.
Владимир Дроздецкий
Разработчик инфраструктуры letundra.com, exposcan.ru, crispmessenger.com
Занимается поддержкой и траблшутингом серверов MySQL, приложений, написанных на PHP, etc. Активно внедряет и использует докер со всей его инфраструктурой. Придерживается мнения, что всё должно быть декларативно описано, поэтому использует Ansible.

Разрабатывает и настраивает инфраструктуру для таких стартапов, как letundra.com, exposcan.ru, crispmessenger.com. Занимается мониторингом при помощи Zabbix и Prometheus, создаёт графики в Grafana.

Чтобы легко подстраиваться под требования бизнеса, деплоит и описывает процессы в Gitlab, собирает и обрабатывает логи в ELK и Graylog2. Любит и умеет пользоваться активным сетевым оборудованием вендора MikroTik.
Минимальные знания
Необходимое:

  • Навыки функционального программирования
  • Основы работы с БД: SQL, индексы, агрегирующие функции
  • Базовые знания ОС: работа с командной строкой, доступ по SSH
  • Будет плюсом:

  • Навыки программирования на Java/Scala
  • Знакомство с компонентами экосистемы Hadoop
  • Понимание основ машинного обучения с позиции Data Scienist-а или аналитика
Процесс обучения
Обучение проходит в формате онлайн-вебинаров на русском языке.
Регулярность занятий: 2 раза в неделю по 2 академических часа (1.5 астрономических часа).

Каждую неделю предполагается выполнение 1 домашнего задания (время на выполнение: 2-4 академических часа). По всем практическим заданиям команда преподавателей дает развернутый фидбек.

Для прохождения курса потребуется компьютер с доступом в интернет и аккаунт на облаке (Google Cloud) с неиспользованной Free Trial версией.
Программа обучения
Модуль 1
Data Engineer: задачи, инструменты, умения
Модуль 2
Загрузка и форматы данных (Data Ingestion)
Модуль 3
Построение пайплайнов / Очереди сообщений / Хранилища данных
Модуль 4
Процессинг и доступ к данным
Модуль 5
Обеспечивающие системы (мониторинг, оркестрация, тесты)
Модуль 6
Проектная работа
Data Engineer: задачи, инструменты, умения
Data Engineer + Основные классы задач Data Engineer
- Кто этот специалист и зачем?
- Какая ценность для бизнеса?
- Потребность на рынке. Навыки
- Дальнейшее развитие
- Data Driven Decisions

- Какие задачи решает?
- Инструменты для решения основных задач
- Введение в большие данные: где используют, экосистема и история развития фреймворков
29 мая, 20:00 — 21:30
Лектор: Артемий Козырь
Домашние задания: 1
1 Домашнее задание: анализ рынка Инженер Данных: РФ, USA, EU
Топ потребностей бизнеса, ключевые технологии и умения
Понять для себя, где и чем бы вам хотелось заниматься
Фиксация целей на процесс обучения
Архитектуры (e.g. kappa, lambda)
- CAP theorem, Distributed Computing, MPP (Massive Parallel Processing).
- Эволюция аналитических хранилищ данных
- SQL + Not Only SQL.
- Batch + Stream
- Lambda, Kappa
5 июня, 20:00 — 21:30
Лектор: Артемий Козырь
Платформы Cloudera и HortonWorks
- Кто такие Cloudera и HortonWorks и что за экосистемы они строят
- Как собрать кластер Hadoop на основе популярных дистрибутивов CDH и HDP

Задание после урока: регистрация и доступ в GCP
10 июня, 20:00 — 21:30
Лектор: Егор Матешук
Облачные экосистемы
Облака: Amazon Kinesis, Google Cloud Pub-Sub, Google Dataflow. Cloud functions
17 июня, 20:00 — 21:30
Лектор: Егор Матешук
Домашние задания: 1
1 Домашнее задание: развернуть дистрибутив Cloudera, выполнить первоначальные настройки
Загрузка и форматы данных (Data Ingestion)
Инструменты выгрузки данных из сторонних систем - 1 часть
- Типы систем-источников. Структурированные, полу- и неструктурированные данные. Логи, выгрузки из АС, Clickstream
- Инструменты для извлечения и загрузки данных - Flume, Sqoop, StreamSets, Fluentd, Debezium, logstash
- Практические примеры загрузки данных из сервисных баз данных
19 июня, 20:00 — 21:30
Лектор: Егор Матешук
Инструменты выгрузки данных из сторонних систем - 2 часть
- Типы систем-источников. Структурированные, полу- и неструктурированные данные. Логи, выгрузки из АС, Clickstream
- Инструменты для извлечения и загрузки данных - Flume, Sqoop, StreamSets, Fluentd
- Практические примеры загрузки данных из сервисных баз данных
24 июня, 20:00 — 21:30
Лектор: Егор Матешук
Хранилища сырых данных
- Принципы работы распределенных файловых систем
- Структура кластера HDFS
- Тонкости настройки HDFS - конфигурация, защита, обеспечение отказоустойчивости
26 июня, 20:00 — 21:30
Лектор: Егор Матешук
Форматы
- Назначение row-based и column-based форматов
- Обзор наиболее распространенных форматов: Avro, Parquet, ORC
1 июля, 20:00 — 21:30
Лектор: Артемий Козырь
Домашние задания: 1
1 Домашнее задание: сравнение производительности разных форматов и разных датасетов. Анализ результатов сравнения.
Построение пайплайнов / Очереди сообщений / Хранилища данных
Hive
3 июля, 20:00 — 21:30
Лектор: Егор Матешук
Очереди сообщений
- Kafka, RabbitMQ
- Потоковая обработка (виды обработки, описание Producer–consumer problem, пример архитектурного решения через Kafka, RabbitMQ, NATS)
- Google Dataflow paper (Event time vs processing time и так далее).
- Паттерны stream processing Joins, enricher, router. Event-sourcing.
8 июля, 20:00 — 21:30
Лектор: Антон Задорожный
Confluent Platform
- Apache Kafka & Confluent platform
- Schema registry. Данные с фиксированной схемой.
- KStreams. Фреймворк для потоковой обработки.
- KSQL. SQL на потоках данных.
10 июля, 20:00 — 21:30
Лектор: Антон Задорожный
Хранилища данных SQL, MPP - 1 часть
- Семейство MPP баз - назначение и особенности
- Логический и физический дизайн
- Vertica
15 июля, 20:00 — 21:30
Лектор: Егор Матешук
Домашние задания: 1
1 Домашнее задание: проектирование витрины в BigQuery / Vertica.
Хранилища данных SQL, MPP - 2 часть
- Семейство MPP баз - назначение и особенности
- Логический и физический дизайн
- Teradata, ClickHouse
17 июля, 20:00 — 21:30
Лектор: Артемий Козырь
Домашние задания: 1
1 Домашнее задание: проектирование витрины в BigQuery / Vertica.
NoSQL
- NoSQL Databases. HBase, Cassandra, Elasticsearch, Aerospike
- Key-value
- Cache
22 июля, 20:00 — 21:30
Лектор: Антон Задорожный
Elasticsearch
- Знакомство с компонентами ELK-стэка
- Классы задач, для которых подходит ELK
24 июля, 20:00 — 21:30
Лектор: Антон Задорожный
Процессинг и доступ к данным
Apache Spark - 1 часть
- Spark - что это и зачем он нужен
- API - RDD, Dataset, Dataframe, операции над распределенными коллекциями
- Процесс вычисления в Spark - task, stage, оптимизатор запросов
5 августа, 20:00 — 21:30
Лектор: Егор Матешук
Apache Spark - 2 часть
- Spark - что это и зачем он нужен
- API - RDD, Dataset, Dataframe, операции над распределенными коллекциями
- Процесс вычисления в Spark - task, stage, оптимизатор запросов
7 августа, 20:00 — 21:30
Лектор: Егор Матешук
Стримминг - Spark Streaming
- Micro-batch обработка данных
- Классический Spark Streaming
- Structured Streaming
- Continuous processing
12 августа, 20:00 — 21:30
Лектор: Николай Рекубратский
Стримминг - Apache Flink
- Возможности Flink для потоковой обработки
- Flink State
- Windows
- Processing/Event time
14 августа, 20:00 — 21:30
Доступ к данным, ноутбуки
- Инструменты интерактивной аналитики
- Apache Zeppelin - интерактивный инструмент для анализа больших данных
- Jupyter - интеграция с Apache Spark
19 августа, 20:00 — 21:30
Лектор: Артемий Козырь
ML
Пример построения модели
21 августа, 20:00 — 21:30
Лектор: Николай Рекубратский
Домашние задания: 1
1 Задание: обучаем собственную модель.
Обеспечивающие системы (мониторинг, оркестрация, тесты)
Оркестрация
- Как организовать многоэтапные процессы обработки данных
- Инструменты оркестрации - Oozie, Airflow
26 августа, 20:00 — 21:30
Лектор: Егор Матешук
DevOps, Тестирование, деплой (CI / CD)
- Культура DevOps
- Работа в команде
- CI / CD
- Auto tests
28 августа, 20:00 — 21:30
Лектор: Артемий Козырь
Контроль качества данных, мастер-данные + Troubleshooting
- Data Quality and Consistency. Качество данных. MDM
- Ошибки в коде, логике, виды, последствия, как найти и устранить корневую причину
- Вопросы поддержки. Support
- Network, integration, data quality, system faults, disk space, executor out of memory, grants, access rights, security
- Метрики качества. Контроль качества. Data Fix - как исправлять найденные ошибки
- MDM: управление мастер-данными
2 сентября, 20:00 — 21:30
Лектор: Артемий Козырь
Мониторинг
- Инструменты мониторинга - Prometheus, Zabbix, Graphite, Grafana
- Специфика мониторинга процессов обработки данных
4 сентября, 20:00 — 21:30
Лектор: Егор Матешук
Домашние задания: 1
1 Задание: развернуть и настроить инструменты мониторинга. Проанализировать текущие показатели.
Case studies. Примеры и разбор решения прикладных задач
Углубленные вопросы оптимизации. Фишки. Примеры, разбор
9 сентября, 20:00 — 21:30
Лектор: Артемий Козырь
Домашние задания: 1
1 Задание: разработать проверки качества данных для витрины. Внедрить их автоматическое выполнение.
На предложенных примерах попытаться выполнить устранение ошибок (Data fix).
Дальнейшее развитие. Hard skills + Soft skills. Бонус
- Где искать ответы на вопросы. Ресурсы. Как быстро разбираться и решать проблемы.
- Benchmarking - умеем сравнивать инструменты для решения конкретных задач
- Как грамотно составить резюме (CV) + proof-read резюме участников курса
- Как развиваться в плане Soft skills, Hard skills. Contribution.
11 сентября, 20:00 — 21:30
Лектор: Артемий Козырь
Домашние задания: 1
1 Задание: подготовить резюме (CV), отрецензировать резюме товарища. Завести аккаунт в LinkedIn.
Проектная работа
Вводное занятие по проектной работе
Слушатели курса смогут определиться с темой проекта (выбрать из предложенного списка или привнести задачу из деятельности своей компании), получить понимание какие ресурсы им необходимо использовать для работы.
16 сентября, 20:00 — 21:30
Лектор: Егор Матешук
Домашние задания: 1
1 Проектная работа
Консультация по проектной работе
Слушатели курса получат комментарии относительно прогресса проектной работы, ответы на вопросы, рекомендации по реализации.
25 сентября, 20:00 — 21:30
Лектор: Артемий Козырь
Защита проектной работы
По окончании занятия слушатели курса получат разбор проектов, комментарии и оценку своей работы.
2 октября, 20:00 — 21:30
Выпускной проект
Выпускной проект: реализация задачи по выбранной тематике в реальном времени с применением парадигмы Map-Reduce кластере в виде pipeline (Kafka, Spark, Hadoop экосистема) и визуализация результатов.

Список возможных тем проектов будет предложен. Также можно взять задачу "с работы" или близкого себе проекта.
Прошедшие открытые вебинары по курсу
Открытый вебинар - это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.
Lean Data Engineering: большие данные при небольшом бюджете
Егор Матешук
Пройти вступительное тестирование
Для доступа к прошедшим мероприятиям необходимо пройти входное тестирование
Возможность пройти вступительное тестирование повторно появится только через 2 недели
Результаты тестирования будут отправлены вам на e-mail, указанный при регистрации.
Тест рассчитан на 30 минут, после начала тестирования отложить тестирование не получится!
После обучения вы
Заберете с собой:
  • основные и дополнительные материалы, и видеозаписи занятий;

  • образцы кода;

  • собственный проект, который можно будет показывать при трудоустройстве;

  • сертификат о прохождении обучения.

  • В результате обучения вы:
  • будете иметь представление об основных классах задач Инженера Данных, инструментах, предназначенных для их решения, а также их преимуществах и особенностях;

  • научитесь выстраивать пайплайны пакетной и потоковой обработки данных;

  • сможете проектировать хранилища данных и организовывать оптимальный доступ для потребителей;

  • получите ряд полезных навыков: умение грамотно составлять CV, проходить интервью, выстраивать совместную работу с коллегами
Дата выдачи сертификата: 27 октября 2019 года
Ваш сертификат
otus.ru
Константин Константинопольский
успешно закончил курс
«Data Engineer»
Успешных заданий:
16 из 16
Проектная работа:
Распределённая система сетевого мониторинга
Виталий Чибриков
Генеральный директор
№ 0001
otus.ru
Константин Константинопольский
успешно закончил курс
«Data Engineer»
Успешных заданий:
16 из 16
Проектная работа:
Распределённая система сетевого мониторинга
Виталий Чибриков
Генеральный директор
№ 0001
Общая стоимость
44 000 ₽
В месяц: 12 500 ₽
В кредит: ₽ в месяц
Продолжительность
4 месяца
Начало занятий
29 мая