Data Engineer

Лучшие практики по приготовлению данных. Загрузка, обработка, организация хранения и доступа к данным с использованием современных инструментов
Подойдет ли мне этот курс?

Длительность

4 месяца

Начало

28 августа

Занятия

Ср 20:00, Пт 20:00

Общая стоимость

44 000 ₽

В месяц

12 500 ₽

В кредит:

12500 ₽ в месяц

Хочу дешевле
Общая стоимость
44 000 ₽
В месяц: 12 500 ₽
В кредит: 44000 ₽
в месяц
Продолжительность
4 месяца, 4 академических часа в неделю
Ср 20:00, Пт 20:00
Начало занятий
28 августа
Что даст вам этот курс

  • понимание ключевых способов интеграции, обработки, хранения больших данных

  • умение работать с компонентами экосистемы Hadoop, распределенными хранилищами и платформами

  • практические навыки разработки дата-сервисов, витрин и приложений

  • знание принципов организации мониторинга, оркестрации, тестирования


  • Курс адресован разработчикам, администраторам СУБД и всем, кто стремится повысить профессиональный уровень, освоить новые инструменты и заниматься интересными задачами в сфере работы с данными.


    После обучения Data Engineering вы станете востребованным специалистом, который:

    • разворачивает, налаживает и оптимизирует инструменты обработки данных

    • адаптирует датасеты для дальнейшей работы и аналитики

    • создает сервисы, которые используют результаты обработки больших объемов данных

    • отвечает за архитектуру данных в компании



    • Real Case Studies: примеры внедрений, использования инструментов, оптимизации производительности, проблемы, ошибки и прикладные результаты

      Высокая практическая направленность:


      В течение курса будем инкрементально создавать работающий продукт, решая прикладные задачи

      Целостная картина вызовов и задач современного бизнеса, и роли Инженера


      Данных в их решении

      Востребованность у работодателей


      26 работодателей уже готовы позвать на собеседование выпускников курса






        Инженер данных - почему это актуально и интересно:



      • Прежде чем попасть на стол CEO в виде квартального отчета или индивидуальной подборкой книг в email-рассылке, данные проделывают длительный и сложный, полный преобразований и трансформаций, путь, требующий непрерывного мониторинга и оркестрации.

      • В этом ключе команда инженеров, которая готова обеспечить непрерывную поставку достоверной информации для всех бизнес-потребителей и функций играет важнейшую роль в принятии тактических и стратегических решений всей компании.

      • Работа инженеров данных, внешне незаметная, удивительно сложна и интересна по своей специфике. Невероятное количество закономерностей и связей, инструментов и подходов, параметров и настроек не оставят равнодушным ни один пытливый ум в поисках оптимальных и элегантных решений.
Преподаватели
Егор Матешук
Senior Data Engineer, MaximaTelecom
Артемий Козырь
Data Engineer, СИБУР
Ivan Trusov
Data Engineer, Zalando SE
Антон Задорожный
Principal Engineer, Teradata Global Delivery Center
Владимир Дроздецкий
Разработчик инфраструктуры letundra.com, exposcan.ru, crispmessenger.com
Илья Маркин
Последние 4 года работает с большими данными: строит системы для обработки больших данных, консультирует по вопросам построения инфраструктуры для аналитики. В основном проекты связаны с решениями на базе Hadoop и Vertica. В последнее время активно исследует облачные хранилища данных. Ранее также проводил исследования потребительской активности для банков и сетевых магазинов.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Сейчас занимает аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Преподаватель
Более 4-х лет опыта работы с Хранилищами Данных, построении ETL/ELT, Аналитике данных и Визуализации.
Опыт работы над продуктами в компаниях PwC, Московская Биржа, Сбербанк, СИБУР.
Сферы интересов: KPIs and Scorecards / Budgeting and Planning / Retail Scoring / Next Best Offer / Reporting.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Образование: НИУ ВШЭ, факультет бизнес-информатики.

Преподаватель
В течение последних 4 лет работает с проектами, непосредственно связанными с обработкой и хранением больших данных в приложениях к machine learning и event processing в Билайн, МТС и Сбербанк. Основной стек используемых в работе технологий - Apache Spark, AWS и Databricks, Oracle, Hive и Kafka.

В последние два года в качестве руководителя направления в Сбербанке разрабатывал систему машинного обучения на Apache Spark для целей кредитного скоринга. Сейчас занимает позицию Data Engineer в Zalando SE в Берлине (крупнейший онлайн-магазин одежды и аксессуаров в Европе).

Образование: РЭУ им. Плеханова, магистр по специальности прикладная математика в экономике.

Преподаватель
Архитектор и разработчик в области аналитических решений, построивший хранилища данных и аналитические решения (CRM, MDM) , продолживший карьеру с data lake и потоковой аналитикой. В России работал с компаниями Сбербанк, ВТБ, МТС, Магнит, Мегафон, oneFactor.

Последние 3 года строит решения по обработке больших данных для мобильных операторов, финансовых институтов, автопроизводителей и фармацевтических компаний в Центральной Европе. Занимает позицию Principal Engineer в Teradata Global Delivery Center в Праге.

Образование: МГУ, факультет вычислительной математики и кибернетики.

Преподаватель
Занимается поддержкой и траблшутингом серверов MySQL, приложений, написанных на PHP, etc. Активно внедряет и использует докер со всей его инфраструктурой. Придерживается мнения, что всё должно быть декларативно описано, поэтому использует Ansible.

Разрабатывает и настраивает инфраструктуру для таких стартапов, как letundra.com, exposcan.ru, crispmessenger.com. Занимается мониторингом при помощи Zabbix и Prometheus, создаёт графики в Grafana.

Чтобы легко подстраиваться под требования бизнеса, деплоит и описывает процессы в Gitlab, собирает и обрабатывает логи в ELK и Graylog2. Любит и умеет пользоваться активным сетевым оборудованием вендора MikroTik.

Преподаватель
Senior software engineer в блокчейн стартапе insolar.io.
Пишет на Go.
Работал в области RTB. Писал свою DMP, в которой было около 600млн “пользователей”,где держали нагрузку в сотню тысяч запросов в секунду. Там и окунулся в мир Hadoop, BigData и других инструментов.

Егор
Матешук
Артемий
Козырь
Ivan
Trusov
Антон
Задорожный
Владимир
Дроздецкий
Илья
Маркин
Преподаватели
Егор Матешук
Senior Data Engineer, MaximaTelecom
Последние 4 года работает с большими данными: строит системы для обработки больших данных, консультирует по вопросам построения инфраструктуры для аналитики. В основном проекты связаны с решениями на базе Hadoop и Vertica. В последнее время активно исследует облачные хранилища данных. Ранее также проводил исследования потребительской активности для банков и сетевых магазинов.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Сейчас занимает аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Преподаватель
Артемий Козырь
Data Engineer, СИБУР
Более 4-х лет опыта работы с Хранилищами Данных, построении ETL/ELT, Аналитике данных и Визуализации.
Опыт работы над продуктами в компаниях PwC, Московская Биржа, Сбербанк, СИБУР.
Сферы интересов: KPIs and Scorecards / Budgeting and Planning / Retail Scoring / Next Best Offer / Reporting.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Образование: НИУ ВШЭ, факультет бизнес-информатики.

Преподаватель
Ivan Trusov
Data Engineer, Zalando SE
В течение последних 4 лет работает с проектами, непосредственно связанными с обработкой и хранением больших данных в приложениях к machine learning и event processing в Билайн, МТС и Сбербанк. Основной стек используемых в работе технологий - Apache Spark, AWS и Databricks, Oracle, Hive и Kafka.

В последние два года в качестве руководителя направления в Сбербанке разрабатывал систему машинного обучения на Apache Spark для целей кредитного скоринга. Сейчас занимает позицию Data Engineer в Zalando SE в Берлине (крупнейший онлайн-магазин одежды и аксессуаров в Европе).

Образование: РЭУ им. Плеханова, магистр по специальности прикладная математика в экономике.

Преподаватель
Антон Задорожный
Principal Engineer, Teradata Global Delivery Center
Архитектор и разработчик в области аналитических решений, построивший хранилища данных и аналитические решения (CRM, MDM) , продолживший карьеру с data lake и потоковой аналитикой. В России работал с компаниями Сбербанк, ВТБ, МТС, Магнит, Мегафон, oneFactor.

Последние 3 года строит решения по обработке больших данных для мобильных операторов, финансовых институтов, автопроизводителей и фармацевтических компаний в Центральной Европе. Занимает позицию Principal Engineer в Teradata Global Delivery Center в Праге.

Образование: МГУ, факультет вычислительной математики и кибернетики.

Преподаватель
Владимир Дроздецкий
Разработчик инфраструктуры letundra.com, exposcan.ru, crispmessenger.com
Занимается поддержкой и траблшутингом серверов MySQL, приложений, написанных на PHP, etc. Активно внедряет и использует докер со всей его инфраструктурой. Придерживается мнения, что всё должно быть декларативно описано, поэтому использует Ansible.

Разрабатывает и настраивает инфраструктуру для таких стартапов, как letundra.com, exposcan.ru, crispmessenger.com. Занимается мониторингом при помощи Zabbix и Prometheus, создаёт графики в Grafana.

Чтобы легко подстраиваться под требования бизнеса, деплоит и описывает процессы в Gitlab, собирает и обрабатывает логи в ELK и Graylog2. Любит и умеет пользоваться активным сетевым оборудованием вендора MikroTik.

Преподаватель
Илья Маркин
Senior software engineer в блокчейн стартапе insolar.io.
Пишет на Go.
Работал в области RTB. Писал свою DMP, в которой было около 600млн “пользователей”,где держали нагрузку в сотню тысяч запросов в секунду. Там и окунулся в мир Hadoop, BigData и других инструментов.

Минимальные знания
Необходимое:

  • Навыки функционального программирования
  • Основы работы с БД: SQL, индексы, агрегирующие функции
  • Базовые знания ОС: работа с командной строкой, доступ по SSH
  • Будет плюсом:

  • Навыки программирования на Java/Scala
  • Знакомство с компонентами экосистемы Hadoop
  • Понимание основ машинного обучения с позиции Data Scienist-а или аналитика
Процесс обучения
Обучение проходит в формате онлайн-вебинаров на русском языке.
Регулярность занятий: 2 раза в неделю по 2 академических часа (1.5 астрономических часа).

Каждую неделю предполагается выполнение 1 домашнего задания (время на выполнение: 2-4 академических часа). По всем практическим заданиям команда преподавателей дает развернутый фидбек.

Для прохождения курса потребуется компьютер с доступом в интернет и аккаунт на облаке (Google Cloud) с неиспользованной Free Trial версией.
Программа обучения
Модуль 1
Data Engineer: задачи, инструменты, умения
Модуль 2
Загрузка и форматы данных (Data Ingestion)
Модуль 3
Построение пайплайнов / Очереди сообщений / Хранилища данных
Модуль 4
Процессинг и доступ к данным
Модуль 5
Обеспечивающие системы (мониторинг, оркестрация, тесты)
Модуль 6
Проектная работа
Data Engineer: задачи, инструменты, умения
По результатам модуля:
- имеем представление о задачах и инструментах
- знаем, умеем объяснить, сравнить, применять
- умеем развернуть кластер в облаке
Тема 1: Инженер Данных. Задачи, навыки, инструменты, потребности на рынке.
- Кто этот специалист и зачем?
- Какая ценность для бизнеса?
- Потребность на рынке. Навыки
- Дальнейшее развитие
- Data Driven Decisions

- Какие задачи решает?
- Инструменты для решения основных задач
- Введение в большие данные: где используют, экосистема и история развития фреймворков
28 августа, 20:00 — 21:30
Лектор: Артемий Козырь
Домашние задания: 1
1 Домашнее задание: анализ рынка Инженер Данных: РФ, USA, EU
Топ потребностей бизнеса, ключевые технологии и умения
Понять для себя, где и чем бы вам хотелось заниматься
Фиксация целей на процесс обучения
Тема 2: Эволюция подходов работы с данными. Базовые принципы и понятия.
- CAP theorem, Distributed Computing, MPP (Massive Parallel Processing).
- Эволюция аналитических хранилищ данных
- SQL + Not Only SQL.
- Batch + Stream
- Lambda, Kappa
30 августа, 20:00 — 21:30
Лектор: Ivan Trusov
Домашние задания: 1
1 Строим свою архитектуру
Цель: В данном домашнем задании от участников курса ожидается небольшой архитектурный документ ( желательно - не более 3-х страниц). Выберите интересный сервис (Twitter / Uber / Linkedin / ваша организация или собственный проект) и разработайте для него архитектуру аналитического хранилища данных. Опишите возможные требования к хранилищу, источники и архитектуру хранения. Приведите пример бизнес-кейса, который можно решить с помощью выбранной вами архитектуры. В решении обязательно должна присутствовать архитектурная схема вашего решения, которая должна объяснять откуда к вам поступают данные, как вы планируете их хранить и как вы планируете их отдавать для решения бизнес-кейса. Описание архитектуры - это стандартное задание на архитектурных собеседованиях для Data Engineer. Выполнив данное задание, вы сможете в будущем воспользоваться этими знаниями для того, чтобы качественно и продуманно создавать дизайн для аналитического хранилища данных или понимать как ваше data-driven приложение ложится в экосистему вашей организации. Для рисования схемы советуем использовать бесплатный сервис draw.io
Тема 3: Облачные платформы. GCP, AWS, Azure.
Облака: Amazon Kinesis, Google Cloud Pub-Sub, Google Dataflow. Cloud functions
4 сентября, 20:00 — 21:30
Лектор: Егор Матешук
Домашние задания: 1
1 Создание пайплайна обработки данных на Google Cloud Platform
Цель: В этом домашнем задании мы создадим простейший пайплайн обработки данных 1) Развернем виртуальную машину, которая будет играть роль продуктового сервиса, генерирующего данные 2) Зальем данные в хранилище GCS 3) Загрузим эти данные в BigQuery для возможности анализа на SQL
Тема 4: Дистрибутивы Cloudera и Hortonworks
- Кто такие Cloudera и HortonWorks и что за экосистемы они строят
- Как собрать кластер Hadoop на основе популярных дистрибутивов CDH и HDP
6 сентября, 20:00 — 21:30
Лектор: Егор Матешук
Загрузка и форматы данных (Data Ingestion)
По результатам модуля:
- грузим в файловую систему
- смотрим форматы
- сравниваем сжатия
- настраиваем репликацию
Тема 1: Распределенные файловые системы
- Принципы работы распределенных файловых систем
- Структура кластера HDFS
- Тонкости настройки HDFS - конфигурация, защита, обеспечение отказоустойчивости
11 сентября, 20:00 — 21:30
Тема 2: Инструменты выгрузки данных из сторонних систем - 1 часть
- Типы систем-источников. Структурированные, полу- и неструктурированные данные. Логи, выгрузки из АС, Clickstream
- Инструменты для извлечения и загрузки данных - Flume, Sqoop, StreamSets, Fluentd, Debezium, logstash
- Практические примеры загрузки данных из сервисных баз данных
13 сентября, 20:00 — 21:30
Лектор: Егор Матешук
Тема 3: Инструменты выгрузки данных из сторонних систем - 2 часть
- Типы систем-источников. Структурированные, полу- и неструктурированные данные. Логи, выгрузки из АС, Clickstream
- Инструменты для извлечения и загрузки данных - Flume, Sqoop, StreamSets, Fluentd
- Практические примеры загрузки данных из сервисных баз данных
18 сентября, 20:00 — 21:30
Лектор: Ivan Trusov
Домашние задания: 1
1 Создать снепшот аналитической таблицы из операционного хранилища
Цель: Зачастую в Data Lake не требуется хранить всех сырых данных, например в ситуации когда наиболее интересными для пользователя являются какие-либо аналитические выгрузки. В нашем домашнем задании мы напишем пример такого приложения, которое позволяет писать в Data Lake текущий аналитический срез.
Тема 4: Форматы данных и их особенности
- Назначение row-based и column-based форматов
- Обзор наиболее распространенных форматов: Avro, Parquet, ORC
20 сентября, 20:00 — 21:30
Лектор: Артемий Козырь
Построение пайплайнов / Очереди сообщений / Хранилища данных
По результатам модуля:
- добавляем stream-источник
- создаем схему в хранилище
- создаем дизайн
- оптимизируем под задачу
Тема 1: Очереди сообщений
- Kafka, RabbitMQ
- Потоковая обработка (виды обработки, описание Producer–consumer problem, пример архитектурного решения через Kafka, RabbitMQ, NATS)
- Google Dataflow paper (Event time vs processing time и так далее).
- Паттерны stream processing Joins, enricher, router. Event-sourcing.
25 сентября, 20:00 — 21:30
Лектор: Антон Задорожный
Домашние задания: 2
1 Архитектурный анализ применимости очереди сообщений для конкретного кейса
Цель: В этом ДЗ мы оцениваем архитектурные решения (очередь сообщений/файловый обмен/RPC) для ваших кейсов, пробуем рассуждать о архитектурных критериях, ключевых требованиях
2 Анализ стримингового приложения по модели Dataflow
Цель: В этом ДЗ мы изучаем модель Dataflow и рассуждаем о простом стриминг приложении в концепциях Dataflow
Тема 2: DWH. Хранилища данных - 1 часть
- Семейство MPP баз - назначение и особенности
- Логический и физический дизайн
- Vertica
27 сентября, 20:00 — 21:30
Лектор: Егор Матешук
Тема 3: DWH. Хранилища данных - 2 часть
- Семейство MPP баз - назначение и особенности
- Логический и физический дизайн
- Google BigQuery
2 октября, 20:00 — 21:30
Лектор: Артемий Козырь
Домашние задания: 1
1 Домашнее задание: проектирование витрины в Vertica (BigQuery).
Цель: Спроектировать схему данных + Построить витрину Использовать Vertica (Docker) или BigQuery • Датасет: Захват данных из divolte (или GCP Public Datasets) Definition of Done: • DDL объектов • DML шагов преобразований • Опционально: Тестирование на наличие ошибок в данных
Тема 4: Хранилища NoSQL. Назначение и особенности.
- NoSQL Databases. HBase, Cassandra, Elasticsearch, Aerospike
- Key-value
- Cache
4 октября, 20:00 — 21:30
Лектор: Антон Задорожный
Тема 5: SQL-доступ к данным. Apache Hive.
9 октября, 20:00 — 21:30
Лектор: Артемий Козырь
Домашние задания: 1
1 HiveQL
Цель: Практика с Hive на CDH
Тема 6: Confluent Platform
- Apache Kafka & Confluent platform
- Schema registry. Данные с фиксированной схемой.
- KStreams. Фреймворк для потоковой обработки.
- KSQL. SQL на потоках данных.
11 октября, 20:00 — 21:30
Лектор: Антон Задорожный
Тема 7: Elasticsearch
- Знакомство с компонентами ELK-стэка
- Классы задач, для которых подходит ELK
16 октября, 20:00 — 21:30
Лектор: Антон Задорожный
Процессинг и доступ к данным
По результатам модуля:
- делаем вычисления, преобразования, агрегации данных (ETL)
- формируем конечные витрины (для ML / BI)
- обучаем простенькую модель
Тема 1: Apache Spark - 1 часть
- Spark - что это и зачем он нужен
- API - RDD, Dataset, Dataframe, операции над распределенными коллекциями
- Процесс вычисления в Spark - task, stage, оптимизатор запросов
18 октября, 20:00 — 21:30
Лектор: Егор Матешук
Тема 2: Apache Spark - 2 часть
- Spark - что это и зачем он нужен
- API - RDD, Dataset, Dataframe, операции над распределенными коллекциями
- Процесс вычисления в Spark - task, stage, оптимизатор запросов
23 октября, 20:00 — 21:30
Лектор: Егор Матешук
Тема 3: Spark Streaming
- Micro-batch обработка данных
- Классический Spark Streaming
- Structured Streaming
- Continuous processing
25 октября, 20:00 — 21:30
Лектор: Ivan Trusov
Тема 4: Доступ к данным, ноутбуки. Explore and visualize.
- Инструменты интерактивной аналитики
- Google Cloud Datalab
- Jupyter - интеграция с Apache Spark
30 октября, 20:00 — 21:30
Лектор: Артемий Козырь
Тема 5: Обучение моделей. ML.
Пример построения модели
1 ноября, 20:00 — 21:30
Лектор: Ivan Trusov
Домашние задания: 1
1 Задание: обучаем собственную модель.
Обеспечивающие системы (мониторинг, оркестрация, тесты)
По результатам модуля:
- настроили мониторинг
- выстроили DevOps pipeline
- настроили метрики качества данных
Тема 1: Оркестрация
- Как организовать многоэтапные процессы обработки данных
- Инструменты оркестрации - Oozie, Airflow
6 ноября, 20:00 — 21:30
Лектор: Егор Матешук
Тема 2: Интеграция, тестирование, развертывание. CI / CD. DevOps.
- Культура DevOps
- Работа в команде
- CI / CD
- Auto tests
8 ноября, 20:00 — 21:30
Тема 3: Мониторинг
- Инструменты мониторинга - Prometheus, Zabbix, Graphite, Grafana
- Специфика мониторинга процессов обработки данных
13 ноября, 20:00 — 21:30
Домашние задания: 1
1 Задание: развернуть и настроить инструменты мониторинга. Проанализировать текущие показатели.
Тема 4: Data Quality. Контроль качества данных, мастер-данные, Troubleshooting.
- Data Quality and Consistency. Качество данных. MDM
- Ошибки в коде, логике, виды, последствия, как найти и устранить корневую причину
- Вопросы поддержки. Support
- Network, integration, data quality, system faults, disk space, executor out of memory, grants, access rights, security
- Метрики качества. Контроль качества. Data Fix - как исправлять найденные ошибки
- MDM: управление мастер-данными
15 ноября, 20:00 — 21:30
Лектор: Артемий Козырь
Тема 5: Case studies. Кейсы компаний.
Углубленные вопросы оптимизации. Фишки. Примеры, разбор
20 ноября, 20:00 — 21:30
Лектор: Антон Задорожный
Домашние задания: 1
1 Задание: разработать проверки качества данных для витрины. Внедрить их автоматическое выполнение.
На предложенных примерах попытаться выполнить устранение ошибок (Data fix).
Тема 6: Бонус. Дальнейшее развитие Hard skills + Soft skills.
- Где искать ответы на вопросы. Ресурсы. Как быстро разбираться и решать проблемы.
- Benchmarking - умеем сравнивать инструменты для решения конкретных задач
- Как грамотно составить резюме (CV) + proof-read резюме участников курса
- Как развиваться в плане Soft skills, Hard skills. Contribution.
22 ноября, 20:00 — 21:30
Лектор: Артемий Козырь
Домашние задания: 1
1 Задание: подготовить резюме (CV), отрецензировать резюме товарища. Завести аккаунт в LinkedIn.
Проектная работа
Выпускной проект: реализация задачи по выбранной тематике в реальном времени с применением парадигмы Map-Reduce кластере в виде pipeline (Kafka, Spark, Hadoop экосистема) и визуализация результатов.

Список возможных тем проектов будет предложен. Также можно взять задачу "с работы" или близкого себе проекта.
Тема 1: Вводное занятие по проектной работе
Слушатели курса смогут определиться с темой проекта (выбрать из предложенного списка или привнести задачу из деятельности своей компании), получить понимание какие ресурсы им необходимо использовать для работы.
27 ноября, 20:00 — 21:30
Домашние задания: 1
1 Проектная работа
Тема 2: Консультация по проектной работе
Слушатели курса получат комментарии относительно прогресса проектной работы, ответы на вопросы, рекомендации по реализации.
29 ноября, 20:00 — 21:30
Тема 3: Защита проектной работы
По окончании занятия слушатели курса получат разбор проектов, комментарии и оценку своей работы.
4 декабря, 20:00 — 21:30
Выпускной проект
Выпускной проект: реализация задачи по выбранной тематике в реальном времени с применением парадигмы Map-Reduce кластере в виде pipeline (Kafka, Spark, Hadoop экосистема) и визуализация результатов.

Список возможных тем проектов будет предложен. Также можно взять задачу "с работы" или близкого себе проекта.
Прошедшие открытые вебинары по курсу
Открытый вебинар — это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.
Lean Data Engineering: большие данные при небольшом бюджете
Егор Матешук
День открытых дверей
16 августа в 20:00
Для доступа к прошедшим мероприятиям необходимо пройти входное тестирование
Возможность пройти вступительное тестирование повторно появится только через 2 недели
Результаты тестирования будут отправлены вам на e-mail, указанный при регистрации.
Тест рассчитан на 30 минут, после начала тестирования отложить тестирование не получится!
Пройти вступительное тестирование
После обучения вы
Заберете с собой:
  • основные и дополнительные материалы, и видеозаписи занятий;

  • образцы кода;

  • собственный проект, который можно будет показывать при трудоустройстве;

  • сертификат о прохождении обучения.

  • В результате обучения вы:
  • будете иметь представление об основных классах задач Инженера Данных, инструментах, предназначенных для их решения, а также их преимуществах и особенностях;

  • научитесь выстраивать пайплайны пакетной и потоковой обработки данных;

  • сможете проектировать хранилища данных и организовывать оптимальный доступ для потребителей;

  • получите ряд полезных навыков: умение грамотно составлять CV, проходить интервью, выстраивать совместную работу с коллегами
Дата выдачи сертификата: 25 января 2020 года
Ваш сертификат

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Data Engineer»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018г.

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Data Engineer»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018г.
Общая стоимость
44 000 ₽
В месяц: 12 500 ₽
В кредит: ₽ в месяц
Продолжительность
4 месяца
Начало занятий
28 августа