27 мая в 20:00

День открытых дверей
Всё о курсе «Data Engineer»

День открытых дверей онлайн

День Открытых Дверей — отличная возможность узнать подробнее о программе курса, особенностях онлайн-формата, навыках, компетенциях и перспективах, которые ждут выпускников после обучения. Также преподаватель расскажет о своём профессиональном опыте и ответит на вопросы участников. Поэтому если есть вопрос, запишитесь на онлайн-трансляцию и задайте его в прямом эфире!
Преподаватель
Артемий Козырь
Напомнить о мероприятии в календаре

О курсе

Data Engineer
44 000 ₽
4 месяца
Начало 29 мая
  • понимание ключевых способов интеграции, обработки, хранения больших данных
  • умение работать с компонентами экосистемы Hadoop, распределенными хранилищами и платформами
  • практические навыки разработки дата-сервисов, витрин и приложений
  • знание принципов организации мониторинга, оркестрации, тестирования
  • Курс адресован разработчикам, администраторам СУБД и всем, кто стремится повысить профессиональный уровень, освоить новые инструменты и заниматься интересными задачами в сфере работы с данными.

    После обучения Data ...

Программа курса
Модуль 1
Data Engineer: задачи, инструменты, умения
Модуль 2
Загрузка и форматы данных (Data Ingestion)
Модуль 3
Построение пайплайнов / Очереди сообщений / Хранилища данных
Модуль 4
Процессинг и доступ к данным
Модуль 5
Обеспечивающие системы (мониторинг, оркестрация, тесты)
Модуль 6
Проектная работа
Data Engineer: задачи, инструменты, умения
По результатам модуля:
- имеем представление о задачах и инструментах
- знаем, умеем объяснить, сравнить, применять
- умеем развернуть кластер в облаке
Data Engineer + Основные классы задач Data Engineer
- Кто этот специалист и зачем?
- Какая ценность для бизнеса?
- Потребность на рынке. Навыки
- Дальнейшее развитие
- Data Driven Decisions

- Какие задачи решает?
- Инструменты для решения основных задач
- Введение в большие данные: где используют, экосистема и история развития фреймворков
29 мая, 20:00 — 21:30
Лектор: Артемий Козырь
Архитектуры (e.g. kappa, lambda)
- CAP theorem, Distributed Computing, MPP (Massive Parallel Processing).
- Эволюция аналитических хранилищ данных
- SQL + Not Only SQL.
- Batch + Stream
- Lambda, Kappa
5 июня, 20:00 — 21:30
Лектор: Артемий Козырь
Платформы Cloudera и HortonWorks
- Кто такие Cloudera и HortonWorks и что за экосистемы они строят
- Как собрать кластер Hadoop на основе популярных дистрибутивов CDH и HDP
10 июня, 20:00 — 21:30
Лектор: Егор Матешук
Облачные экосистемы
Облака: Amazon Kinesis, Google Cloud Pub-Sub, Google Dataflow. Cloud functions
17 июня, 20:00 — 21:30
Лектор: Егор Матешук
Загрузка и форматы данных (Data Ingestion)
По результатам модуля:
- грузим в файловую систему
- смотрим форматы
- сравниваем сжатия
- настраиваем репликацию
Инструменты выгрузки данных из сторонних систем - 1 часть
- Типы систем-источников. Структурированные, полу- и неструктурированные данные. Логи, выгрузки из АС, Clickstream
- Инструменты для извлечения и загрузки данных - Flume, Sqoop, StreamSets, Fluentd, Debezium, logstash
- Практические примеры загрузки данных из сервисных баз данных
19 июня, 20:00 — 21:30
Лектор: Егор Матешук
Инструменты выгрузки данных из сторонних систем - 2 часть
- Типы систем-источников. Структурированные, полу- и неструктурированные данные. Логи, выгрузки из АС, Clickstream
- Инструменты для извлечения и загрузки данных - Flume, Sqoop, StreamSets, Fluentd
- Практические примеры загрузки данных из сервисных баз данных
24 июня, 20:00 — 21:30
Лектор: Егор Матешук
Хранилища сырых данных
- Принципы работы распределенных файловых систем
- Структура кластера HDFS
- Тонкости настройки HDFS - конфигурация, защита, обеспечение отказоустойчивости
26 июня, 20:00 — 21:30
Лектор: Егор Матешук
Форматы
- Назначение row-based и column-based форматов
- Обзор наиболее распространенных форматов: Avro, Parquet, ORC
1 июля, 20:00 — 21:30
Лектор: Артемий Козырь
Построение пайплайнов / Очереди сообщений / Хранилища данных
По результатам модуля:
- добавляем stream-источник
- создаем схему в хранилище
- создаем дизайн
- оптимизируем под задачу
Hive
3 июля, 20:00 — 21:30
Лектор: Егор Матешук
Очереди сообщений
- Kafka, RabbitMQ
- Потоковая обработка (виды обработки, описание Producer–consumer problem, пример архитектурного решения через Kafka, RabbitMQ, NATS)
- Google Dataflow paper (Event time vs processing time и так далее).
- Паттерны stream processing Joins, enricher, router. Event-sourcing.
8 июля, 20:00 — 21:30
Лектор: Николай Рекубратский
Confluent Platform
- Apache Kafka & Confluent platform
- Schema registry. Данные с фиксированной схемой.
- KStreams. Фреймворк для потоковой обработки.
- KSQL. SQL на потоках данных.
10 июля, 20:00 — 21:30
Хранилища данных SQL, MPP - 1 часть
- Семейство MPP баз - назначение и особенности
- Логический и физический дизайн
- Vertica
15 июля, 20:00 — 21:30
Лектор: Егор Матешук
Хранилища данных SQL, MPP - 2 часть
- Семейство MPP баз - назначение и особенности
- Логический и физический дизайн
- Teradata, ClickHouse
17 июля, 20:00 — 21:30
Лектор: Артемий Козырь
NoSQL
- NoSQL Databases. HBase, Cassandra, Elasticsearch, Aerospike
- Key-value
- Cache
22 июля, 20:00 — 21:30
Elasticsearch
- Знакомство с компонентами ELK-стэка
- Классы задач, для которых подходит ELK
24 июля, 20:00 — 21:30
Процессинг и доступ к данным
По результатам модуля:
- делаем вычисления, преобразования, агрегации данных (ETL)
- формируем конечные витрины (для ML / BI)
- обучаем простенькую модель
Apache Spark - 1 часть
- Spark - что это и зачем он нужен
- API - RDD, Dataset, Dataframe, операции над распределенными коллекциями
- Процесс вычисления в Spark - task, stage, оптимизатор запросов
5 августа, 20:00 — 21:30
Лектор: Егор Матешук
Apache Spark - 2 часть
- Spark - что это и зачем он нужен
- API - RDD, Dataset, Dataframe, операции над распределенными коллекциями
- Процесс вычисления в Spark - task, stage, оптимизатор запросов
7 августа, 20:00 — 21:30
Лектор: Егор Матешук
Стримминг - Spark Streaming
- Micro-batch обработка данных
- Классический Spark Streaming
- Structured Streaming
- Continuous processing
12 августа, 20:00 — 21:30
Лектор: Николай Рекубратский
Стримминг - Apache Flink
- Возможности Flink для потоковой обработки
- Flink State
- Windows
- Processing/Event time
14 августа, 20:00 — 21:30
Доступ к данным, ноутбуки
- Инструменты интерактивной аналитики
- Apache Zeppelin - интерактивный инструмент для анализа больших данных
- Jupyter - интеграция с Apache Spark
19 августа, 20:00 — 21:30
Лектор: Артемий Козырь
ML
Пример построения модели
21 августа, 20:00 — 21:30
Лектор: Николай Рекубратский
Обеспечивающие системы (мониторинг, оркестрация, тесты)
По результатам модуля:
- настроили мониторинг
- выстроили DevOps pipeline
- настроили метрики качества данных
Оркестрация
- Как организовать многоэтапные процессы обработки данных
- Инструменты оркестрации - Oozie, Airflow
26 августа, 20:00 — 21:30
Лектор: Егор Матешук
DevOps, Тестирование, деплой (CI / CD)
- Культура DevOps
- Работа в команде
- CI / CD
- Auto tests
28 августа, 20:00 — 21:30
Лектор: Артемий Козырь
Контроль качества данных, мастер-данные + Troubleshooting
- Data Quality and Consistency. Качество данных. MDM
- Ошибки в коде, логике, виды, последствия, как найти и устранить корневую причину
- Вопросы поддержки. Support
- Network, integration, data quality, system faults, disk space, executor out of memory, grants, access rights, security
- Метрики качества. Контроль качества. Data Fix - как исправлять найденные ошибки
- MDM: управление мастер-данными
2 сентября, 20:00 — 21:30
Лектор: Артемий Козырь
Мониторинг
- Инструменты мониторинга - Prometheus, Zabbix, Graphite, Grafana
- Специфика мониторинга процессов обработки данных
4 сентября, 20:00 — 21:30
Лектор: Егор Матешук
Case studies. Примеры и разбор решения прикладных задач
Углубленные вопросы оптимизации. Фишки. Примеры, разбор
9 сентября, 20:00 — 21:30
Лектор: Артемий Козырь
Дальнейшее развитие. Hard skills + Soft skills. Бонус
- Где искать ответы на вопросы. Ресурсы. Как быстро разбираться и решать проблемы.
- Benchmarking - умеем сравнивать инструменты для решения конкретных задач
- Как грамотно составить резюме (CV) + proof-read резюме участников курса
- Как развиваться в плане Soft skills, Hard skills. Contribution.
11 сентября, 20:00 — 21:30
Лектор: Артемий Козырь
Проектная работа
Выпускной проект: реализация задачи по выбранной тематике в реальном времени с применением парадигмы Map-Reduce кластере в виде pipeline (Kafka, Spark, Hadoop экосистема) и визуализация результатов.

Список возможных тем проектов будет предложен. Также можно взять задачу "с работы" или близкого себе проекта.
Вводное занятие по проектной работе
Слушатели курса смогут определиться с темой проекта (выбрать из предложенного списка или привнести задачу из деятельности своей компании), получить понимание какие ресурсы им необходимо использовать для работы.
16 сентября, 20:00 — 21:30
Лектор: Егор Матешук
Домашние задания: 1
ДЗ
Проектная работа.
Консультация по проектной работе
Слушатели курса получат комментарии относительно прогресса проектной работы, ответы на вопросы, рекомендации по реализации.
25 сентября, 20:00 — 21:30
Лектор: Артемий Козырь
Защита проектной работы
По окончании занятия слушатели курса получат разбор проектов, комментарии и оценку своей работы.
2 октября, 20:00 — 21:30

Преподаватель

Артемий Козырь
Data Engineer, СИБУР
Более 4-х лет опыта работы с Хранилищами Данных, построении ETL/ELT, Аналитике данных и Визуализации.
Опыт работы над продуктами в компаниях PwC, Московская Биржа, Сбербанк, СИБУР.
Сферы интересов: KPIs and Scorecards / Budgeting and Planning / Retail Scoring / Next Best Offer / Reporting.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Образование: НИУ ВШЭ, факультет бизнес-информатики.
Преподаватель курсов:
Data Engineer

F.A.Q.: Наиболее часто задаваемые вопросы:

Нужно ли оплачивать обучение до Дня открытых дверей, если я хочу гарантированно попасть в группу?
Да, мы рекомендуем заранее оплатить обучение, чтобы гарантированно попасть в группу. В период проведения Дня открытых дверей резко возрастает количество желающих обучаться, поэтому может случиться так, что к окончанию Дня открытых дверей мест в группе не останется
Кто будет проводить День открытых дверей?
Проводить День открытых дверей будет преподаватель курса.
Как принять участие в Дне открытых дверей?
Для того, чтобы принять участие в Дне открытых дверей, оставьте свой e-mail в поле регистрации на мероприятие. Перед началом Дня открытых дверей мы пришлем вам ссылку, пройдя по которой, вы сможете присоединиться к вебинару.
Какие вопросы будем обсуждать на Дне открытых дверей?
На дне открытых дверей мы поговорим о проекте OTUS (о программе курса, почему мы не принимаем в группы новичков, почему учиться у нас интересно, но сложно), карьерных перспективах выпускников (почему вероятность карьерного роста у лучших студентов стремится к 100%), учебном процессе (оплатах, оценке знаний, сертификатах и прочих аспектах). Также ведущий мероприятия с радостью ответит на все ваши вопросы.