Курс по Data Engineering. Запишитесь на курс по организации и предобработке данных

Курсы

Курсы в разработке Подготовительные курсы
Работа в компаниях Компаниям Блог +7 499 110-61-65

Data Engineer

Лучшие практики по приготовлению данных. Загрузка, обработка, организация хранения и доступа к данным с использованием современных инструментов
Подойдет ли мне этот курс?

Длительность

4 месяца

Начало

27 ноября

Занятия

Ср 20:00, Пн 20:00

Общая стоимость

55 000 ₽

В месяц

15 000 ₽

В кредит:

15000 ₽ в месяц

Хочу дешевле
Общая стоимость
55 000 ₽
В месяц: 15 000 ₽
В кредит: 55000 ₽
в месяц
Продолжительность
4 месяца, 4 академ. часа в неделю
Ср 20:00, Пн 20:00
Начало занятий
27 ноября
Что даст вам этот курс

  • понимание ключевых способов интеграции, обработки, хранения больших данных

  • умение работать с компонентами экосистемы Hadoop, распределенными хранилищами и платформами

  • практические навыки разработки дата-сервисов, витрин и приложений

  • знание принципов организации мониторинга, оркестрации, тестирования


  • Курс адресован разработчикам, администраторам СУБД и всем, кто стремится повысить профессиональный уровень, освоить новые инструменты и заниматься интересными задачами в сфере работы с данными.


    После обучения Data Engineering вы станете востребованным специалистом, который:

    • разворачивает, налаживает и оптимизирует инструменты обработки данных

    • адаптирует датасеты для дальнейшей работы и аналитики

    • создает сервисы, которые используют результаты обработки больших объемов данных

    • отвечает за архитектуру данных в компании



    • Real Case Studies: примеры внедрений, использования инструментов, оптимизации производительности, проблемы, ошибки и прикладные результаты

      Высокая практическая направленность:


      В течение курса будем инкрементально создавать работающий продукт, решая прикладные задачи

      Целостная картина вызовов и задач современного бизнеса, и роли Инженера


      Данных в их решении

      Востребованность у работодателей


      28 работодателей уже готовы позвать на собеседование выпускников курса






        Инженер данных - почему это актуально и интересно:



      • Прежде чем попасть на стол CEO в виде квартального отчета или индивидуальной подборкой книг в email-рассылке, данные проделывают длительный и сложный, полный преобразований и трансформаций, путь, требующий непрерывного мониторинга и оркестрации.

      • В этом ключе команда инженеров, которая готова обеспечить непрерывную поставку достоверной информации для всех бизнес-потребителей и функций играет важнейшую роль в принятии тактических и стратегических решений всей компании.

      • Работа инженеров данных, внешне незаметная, удивительно сложна и интересна по своей специфике. Невероятное количество закономерностей и связей, инструментов и подходов, параметров и настроек не оставят равнодушным ни один пытливый ум в поисках оптимальных и элегантных решений.
Принципы построения систем потоковой аналитики, 18 ноября в 20:00
В этом занятии мы рассмотрим нюансы, технологический стек и основные проблемы, которые возникают при проектировании систем потоковой аналитики и потоковой обработки данных.
Ведет
Егор
Матешук
Предыдущий открытый вебинар
Всё о курсе «Data Engineer», 25 ноября в 20:00
День Открытых Дверей — отличная возможность задать все вопросы по курсу, узнать подробнее о программе, особенностях онлайн-формата, навыках, компетенциях и перспективах, которые ждут выпускников после обучения. Также преподаватель расскажет о себе и своём профессиональном опыте. Поэтому если есть вопрос, запишитесь на онлайн-трансляцию и задайте его в прямом эфире!
Артемий
Козырь
Предыдущий день открытых дверей
Преподаватели
Илья Маркин
Артемий Козырь
Data Engineer, СИБУР
Егор Матешук
Senior Data Engineer, MaximaTelecom
Владимир Дроздецкий
Разработчик инфраструктуры exposcan.ru, crispmessenger.com
Иван Трусов
Data Engineer, Zalando SE
Антон Задорожный
Principal Engineer, Teradata Global Delivery Center
Senior software engineer в блокчейн стартапе insolar.io.
Пишет на Go.
Работал в области RTB. Писал свою DMP, в которой было около 600млн “пользователей”,где держали нагрузку в сотню тысяч запросов в секунду. Там и окунулся в мир Hadoop, BigData и других инструментов.

Более 4-х лет опыта работы с Хранилищами Данных, построении ETL/ELT, Аналитике данных и Визуализации.
Опыт работы над продуктами в компаниях PwC, Московская Биржа, Сбербанк, СИБУР.
Сферы интересов: KPIs and Scorecards / Budgeting and Planning / Retail Scoring / Next Best Offer / Reporting.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Образование: НИУ ВШЭ, факультет бизнес-информатики.

Преподаватель
Последние 4 года работает с большими данными: строит системы для обработки больших данных, консультирует по вопросам построения инфраструктуры для аналитики. В основном проекты связаны с решениями на базе Hadoop и Vertica. В последнее время активно исследует облачные хранилища данных. Ранее также проводил исследования потребительской активности для банков и сетевых магазинов.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Сейчас занимает аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Преподаватель
Занимается поддержкой и траблшутингом серверов MySQL, приложений, написанных на PHP, etc. Активно внедряет и использует докер со всей его инфраструктурой. Придерживается мнения, что всё должно быть декларативно описано, поэтому использует Ansible.

Разрабатывает и настраивает инфраструктуру для таких стартапов, как exposcan.ru, crispmessenger.com. Занимается мониторингом при помощи Zabbix и Prometheus, создаёт графики в Grafana.

Чтобы легко подстраиваться под требования бизнеса, деплоит и описывает процессы в Gitlab, собирает и обрабатывает логи в ELK и Graylog2. Любит и умеет пользоваться активным сетевым оборудованием вендора MikroTik.

Преподаватель
В течение последних 4 лет работает с проектами, непосредственно связанными с обработкой и хранением больших данных в приложениях к machine learning и event processing в Билайн, МТС и Сбербанк. Основной стек используемых в работе технологий - Apache Spark, AWS и Databricks, Oracle, Hive и Kafka.

В последние два года в качестве руководителя направления в Сбербанке разрабатывал систему машинного обучения на Apache Spark для целей кредитного скоринга. Сейчас занимает позицию Data Engineer в Zalando SE в Берлине (крупнейший онлайн-магазин одежды и аксессуаров в Европе).

Образование: РЭУ им. Плеханова, магистр по специальности прикладная математика в экономике.

Преподаватель
Архитектор и разработчик в области аналитических решений, построивший хранилища данных и аналитические решения (CRM, MDM) , продолживший карьеру с data lake и потоковой аналитикой. В России работал с компаниями Сбербанк, ВТБ, МТС, Магнит, Мегафон, oneFactor.

Последние 3 года строит решения по обработке больших данных для мобильных операторов, финансовых институтов, автопроизводителей и фармацевтических компаний в Центральной Европе. Занимает позицию Principal Engineer в Teradata Global Delivery Center в Праге.

Образование: МГУ, факультет вычислительной математики и кибернетики.

Преподаватель
Илья
Маркин
Артемий
Козырь
Егор
Матешук
Владимир
Дроздецкий
Иван
Трусов
Антон
Задорожный
Преподаватели
Илья Маркин
Senior software engineer в блокчейн стартапе insolar.io.
Пишет на Go.
Работал в области RTB. Писал свою DMP, в которой было около 600млн “пользователей”,где держали нагрузку в сотню тысяч запросов в секунду. Там и окунулся в мир Hadoop, BigData и других инструментов.

Артемий Козырь
Data Engineer, СИБУР
Более 4-х лет опыта работы с Хранилищами Данных, построении ETL/ELT, Аналитике данных и Визуализации.
Опыт работы над продуктами в компаниях PwC, Московская Биржа, Сбербанк, СИБУР.
Сферы интересов: KPIs and Scorecards / Budgeting and Planning / Retail Scoring / Next Best Offer / Reporting.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Образование: НИУ ВШЭ, факультет бизнес-информатики.

Преподаватель
Егор Матешук
Senior Data Engineer, MaximaTelecom
Последние 4 года работает с большими данными: строит системы для обработки больших данных, консультирует по вопросам построения инфраструктуры для аналитики. В основном проекты связаны с решениями на базе Hadoop и Vertica. В последнее время активно исследует облачные хранилища данных. Ранее также проводил исследования потребительской активности для банков и сетевых магазинов.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Сейчас занимает аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Преподаватель
Владимир Дроздецкий
Разработчик инфраструктуры exposcan.ru, crispmessenger.com
Занимается поддержкой и траблшутингом серверов MySQL, приложений, написанных на PHP, etc. Активно внедряет и использует докер со всей его инфраструктурой. Придерживается мнения, что всё должно быть декларативно описано, поэтому использует Ansible.

Разрабатывает и настраивает инфраструктуру для таких стартапов, как exposcan.ru, crispmessenger.com. Занимается мониторингом при помощи Zabbix и Prometheus, создаёт графики в Grafana.

Чтобы легко подстраиваться под требования бизнеса, деплоит и описывает процессы в Gitlab, собирает и обрабатывает логи в ELK и Graylog2. Любит и умеет пользоваться активным сетевым оборудованием вендора MikroTik.

Преподаватель
Иван Трусов
Data Engineer, Zalando SE
В течение последних 4 лет работает с проектами, непосредственно связанными с обработкой и хранением больших данных в приложениях к machine learning и event processing в Билайн, МТС и Сбербанк. Основной стек используемых в работе технологий - Apache Spark, AWS и Databricks, Oracle, Hive и Kafka.

В последние два года в качестве руководителя направления в Сбербанке разрабатывал систему машинного обучения на Apache Spark для целей кредитного скоринга. Сейчас занимает позицию Data Engineer в Zalando SE в Берлине (крупнейший онлайн-магазин одежды и аксессуаров в Европе).

Образование: РЭУ им. Плеханова, магистр по специальности прикладная математика в экономике.

Преподаватель
Антон Задорожный
Principal Engineer, Teradata Global Delivery Center
Архитектор и разработчик в области аналитических решений, построивший хранилища данных и аналитические решения (CRM, MDM) , продолживший карьеру с data lake и потоковой аналитикой. В России работал с компаниями Сбербанк, ВТБ, МТС, Магнит, Мегафон, oneFactor.

Последние 3 года строит решения по обработке больших данных для мобильных операторов, финансовых институтов, автопроизводителей и фармацевтических компаний в Центральной Европе. Занимает позицию Principal Engineer в Teradata Global Delivery Center в Праге.

Образование: МГУ, факультет вычислительной математики и кибернетики.

Преподаватель
Отзывы
Сергей
Баранов
Курс более, чем понравился и удачно оказался "стопроцентно в руку".

- Курс значительно отодвинул наметившиеся ограничения в области архитектурных решений по работе с данными для нашей компании.
- Практически каждый (ровно каждый) вебинар курса дал мне варианты решений различных реальных проблем в реальных кейзах по работе.
- Корпус приобретённых практических навыков позволил реализовать эти решения как минимум на уровне работающих прототипов.
- Хочу отметить также серьёзный уровень владения и подачи теории, и погружённости в реальную практику преподавателей курса.

Рекомендую всем как для расширения архитектурного горизонта, так и для приобретения практических навыков работы с заявленным в программе инструментарием.
Читать целиком
Сергей
Баранов
Курс более, чем понравился и удачно оказался "стопроцентно в руку".

- Курс значительно отодвинул наметившиеся ограничения в области архитектурных решений по работе с данными для нашей компании.
- Практически каждый (ровно каждый) вебинар курса дал мне варианты решений различных реальных проблем в реальных кейзах по работе.
- Корпус приобретённых практических навыков позволил реализовать эти решения как минимум на уровне работающих прототипов.
- Хочу отметить также серьёзный уровень владения и подачи теории, и погружённости в реальную практику преподавателей курса.

Рекомендую всем как для расширения архитектурного горизонта, так и для приобретения практических навыков работы с заявленным в программе инструментарием.
Читать целиком
Необходимые знания
Необходимое:

  • Опыт разработки на Java/Python
  • Основы работы с БД: SQL, индексы, агрегирующие функции
  • Базовые знания ОС: работа с командной строкой, доступ по SSH
  • Будет плюсом:

  • Навыки программирования на Scala
  • Знакомство с компонентами экосистемы Hadoop
  • Понимание основ машинного обучения с позиции Data Scienist-а или аналитика
Процесс обучения
Обучение проходит в формате онлайн-вебинаров на русском языке.
Регулярность занятий: 2 раза в неделю по 2 академических часа (1.5 астрономических часа).

Каждую неделю предполагается выполнение 1 домашнего задания (время на выполнение: 2-4 академических часа). По всем практическим заданиям команда преподавателей дает развернутый фидбек.

Для прохождения курса потребуется компьютер с доступом в интернет и аккаунт на облаке (Google Cloud) с неиспользованной Free Trial версией.
Программа обучения
Модуль 1
Инженер Данных: задачи, инструменты, платформы
Модуль 2
Процессинг. Доступ к данным. ML
Модуль 3
Загрузка и форматы данных (Data Ingestion)
Модуль 4
Очереди сообщений. Хранилища данных. SQL-доступ.
Модуль 5
Обеспечивающие системы. Оркестрация, тестирование, мониторинг
Модуль 6
Проектная работа
Инженер Данных: задачи, инструменты, платформы
По результатам модуля:
- имеем представление о задачах и инструментах
- знаем, умеем объяснить, сравнить, применять
- умеем развернуть кластер в облаке
Тема 1: Инженер Данных. Задачи, навыки, инструменты, потребности на рынке.
- Кто этот специалист и зачем?
- Какая ценность для бизнеса?
- Потребность на рынке. Навыки
- Дальнейшее развитие
- Data Driven Decisions

- Какие задачи решает?
- Инструменты для решения основных задач
- Введение в большие данные: где используют, экосистема и история развития фреймворков
27 ноября, 20:00 — 21:30
Домашние задания: 1
1 Домашнее задание: анализ рынка Инженер Данных: РФ, USA, EU
Топ потребностей бизнеса, ключевые технологии и умения
Понять для себя, где и чем бы вам хотелось заниматься
Фиксация целей на процесс обучения
Тема 2: Эволюция подходов работы с данными. Базовые принципы и понятия
- CAP theorem, Distributed Computing, MPP (Massive Parallel Processing).
- Эволюция аналитических хранилищ данных
- SQL + Not Only SQL.
- Batch + Stream
- Lambda, Kappa
2 декабря, 20:00 — 21:30
Домашние задания: 1
1 Строим свою архитектуру
Цель: В данном домашнем задании от участников курса ожидается небольшой архитектурный документ ( желательно - не более 3-х страниц). Выберите интересный сервис (Twitter / Uber / Linkedin / ваша организация или собственный проект) и разработайте для него архитектуру аналитического хранилища данных. Опишите возможные требования к хранилищу, источники и архитектуру хранения. Приведите пример бизнес-кейса, который можно решить с помощью выбранной вами архитектуры. В решении обязательно должна присутствовать архитектурная схема вашего решения, которая должна объяснять откуда к вам поступают данные, как вы планируете их хранить и как вы планируете их отдавать для решения бизнес-кейса. Описание архитектуры - это стандартное задание на архитектурных собеседованиях для Data Engineer. Выполнив данное задание, вы сможете в будущем воспользоваться этими знаниями для того, чтобы качественно и продуманно создавать дизайн для аналитического хранилища данных или понимать как ваше data-driven приложение ложится в экосистему вашей организации. Для рисования схемы советуем использовать бесплатный сервис draw.io
Тема 3: Облачные платформы. Дистрибутивы Cloudera и Hortonworks
облачная инфраструктура: возможности, преимущества, особенности
Обзор AWS, GCP, Azure.
Кто такие Cloudera и HortonWorks и что за экосистемы они строят
Как собрать кластер Hadoop на основе популярных дистрибутивов CDH и HDP
4 декабря, 20:00 — 21:30
Домашние задания: 1
1 Развернуть дистрибутив Cloudera
Цель: Цель этого ДЗ - научиться выполнять базовые операции на кластере Hadoop. В его ходе нужно будет развернуть свой мини-кластер в Google Cloud Platform и создать таблицу в Hive.
Тема 4: Форматы данных и их особенности
обзор популярных форматов: AVRO, Parquet, ORC, CSV, JSON
Анализ применения, сравнение производительности

- Назначение row-based и column-based форматов
- Обзор наиболее распространенных форматов: Avro, Parquet, ORC
9 декабря, 20:00 — 21:30
Процессинг. Доступ к данным. ML
По результатам модуля:
- делаем вычисления, преобразования, агрегации данных (ETL)
- формируем конечные витрины (для ML / BI)
- обучаем простенькую модель
Тема 1: Scala, введение в Spark
scala для дата инженеров.
Введение в Spark, RDD API
11 декабря, 20:00 — 21:30
Домашние задания: 1
1 Введение в Scala
Цель: Написать распределенное приложение для чтения JSON-файлов.
Тема 2: Apache Spark - 1 часть
- Spark - что это и зачем он нужен
- API - RDD, Dataset, Dataframe, операции над распределенными коллекциями
- Процесс вычисления в Spark - task, stage, оптимизатор запросов
16 декабря, 20:00 — 21:30
Тема 3: Apache Spark - 2 часть
- Spark - что это и зачем он нужен
- API - RDD, Dataset, Dataframe, операции над распределенными коллекциями
- Процесс вычисления в Spark - task, stage, оптимизатор запросов
18 декабря, 20:00 — 21:30
Домашние задания: 1
1 Spark - Гид по безопасному Бостону
Цель: В этом задании предлагается собрать статистику по криминогенной обстановке в разных районах Бостона, используя Apache Spark.
Тема 4: Spark Streaming
- Micro-batch обработка данных
- Классический Spark Streaming
- Structured Streaming
- Continuous processing
23 декабря, 20:00 — 21:30
Тема 5: Доступ к данным, ноутбуки. Explore and visualize
- Инструменты интерактивной аналитики
- Google Cloud Datalab
- Jupyter - интеграция с Apache Spark
25 декабря, 20:00 — 21:30
Тема 6: Обучение моделей. ML
Пример построения модели
30 декабря, 20:00 — 21:30
Домашние задания: 1
1 Задание: обучаем собственную модель.
Загрузка и форматы данных (Data Ingestion)
По результатам модуля:
- грузим в файловую систему
- смотрим форматы
- сравниваем сжатия
- настраиваем репликацию
Тема 1: Распределенные файловые системы
- Принципы работы распределенных файловых систем
- Структура кластера HDFS
- Тонкости настройки HDFS - конфигурация, защита, обеспечение отказоустойчивости
1 января, 20:00 — 21:30
Тема 2: Инструменты выгрузки данных из сторонних систем - 1 часть
- Типы систем-источников. Структурированные, полу- и неструктурированные данные. Логи, выгрузки из АС, Clickstream
- Инструменты для извлечения и загрузки данных - Flume, Sqoop, StreamSets, Fluentd, Debezium, logstash
- Практические примеры загрузки данных из сервисных баз данных
6 января, 20:00 — 21:30
Тема 3: Инструменты выгрузки данных из сторонних систем - 2 часть
- Типы систем-источников. Структурированные, полу- и неструктурированные данные. Логи, выгрузки из АС, Clickstream
- Инструменты для извлечения и загрузки данных - Flume, Sqoop, StreamSets, Fluentd
- Практические примеры загрузки данных из сервисных баз данных
8 января, 20:00 — 21:30
Домашние задания: 1
1 Создать снепшот аналитической таблицы из операционного хранилища
Цель: Зачастую в Data Lake не требуется хранить всех сырых данных, например в ситуации когда наиболее интересными для пользователя являются какие-либо аналитические выгрузки. В нашем домашнем задании мы напишем пример такого приложения, которое позволяет писать в Data Lake текущий аналитический срез.
Очереди сообщений. Хранилища данных. SQL-доступ.
По результатам модуля:
- добавляем stream-источник
- создаем схему в хранилище
- создаем дизайн
- оптимизируем под задачу
Тема 1: Очереди сообщений, Kafka, Confluent platform
- Kafka, RabbitMQ
- Потоковая обработка (виды обработки, описание Producer–consumer problem, пример архитектурного решения через Kafka, RabbitMQ, NATS)
- Google Dataflow paper (Event time vs processing time и так далее).
- Паттерны stream processing Joins, enricher, router. Event-sourcing.
13 января, 20:00 — 21:30
Домашние задания: 2
1 Архитектурный анализ применимости очереди сообщений для конкретного кейса
Цель: В этом ДЗ мы оцениваем архитектурные решения (очередь сообщений/файловый обмен/RPC) для ваших кейсов, пробуем рассуждать о архитектурных критериях, ключевых требованиях
2 Анализ стримингового приложения по модели Dataflow
Цель: В этом ДЗ мы изучаем модель Dataflow и рассуждаем о простом стриминг приложении в концепциях Dataflow
Тема 2: DWH. Хранилища данных - 1 часть
- Семейство MPP баз - назначение и особенности
- Логический и физический дизайн
- Vertica
15 января, 20:00 — 21:30
Тема 3: DWH. Хранилища данных - 2 часть
- Семейство MPP баз - назначение и особенности
- Логический и физический дизайн
- Google BigQuery
20 января, 20:00 — 21:30
Домашние задания: 1
1 Домашнее задание: проектирование витрины в Vertica (BigQuery).
Цель: Спроектировать схему данных + Построить витрину Использовать Vertica (Docker) или BigQuery • Датасет: Захват данных из divolte (или GCP Public Datasets) Definition of Done: • DDL объектов • DML шагов преобразований • Опционально: Тестирование на наличие ошибок в данных
Тема 4: Хранилища NoSQL. Назначение и особенности
- NoSQL Databases. HBase, Cassandra, Elasticsearch, Aerospike
- Key-value
- Cache
22 января, 20:00 — 21:30
Тема 5: SQL-доступ к данным. Apache Hive.
27 января, 20:00 — 21:30
Домашние задания: 1
1 HiveQL
Цель: Практика с Hive на CDH
Тема 6: ElasticSearch
- Знакомство с компонентами ELK-стэка
- Классы задач, для которых подходит ELK
29 января, 20:00 — 21:30
Обеспечивающие системы. Оркестрация, тестирование, мониторинг
По результатам модуля:
- настроили мониторинг
- выстроили DevOps pipeline
- настроили метрики качества данных
Тема 1: Оркестрация
- Как организовать многоэтапные процессы обработки данных
- Инструменты оркестрации - Oozie, Airflow
3 февраля, 20:00 — 21:30
Тема 2: Интеграция, тестирование, развертывание. CI / CD. DevOps
- Культура DevOps
- Работа в команде
- CI / CD
- Auto tests
5 февраля, 20:00 — 21:30
Тема 3: Мониторинг
- Инструменты мониторинга - Prometheus, Zabbix, Graphite, Grafana
- Специфика мониторинга процессов обработки данных
10 февраля, 20:00 — 21:30
Домашние задания: 1
1 Задание: развернуть и настроить инструменты мониторинга. Проанализировать текущие показатели.
Тема 4: Data Quality. Контроль качества данных, мастер-данные, Troubleshooting
- Data Quality and Consistency. Качество данных. MDM
- Ошибки в коде, логике, виды, последствия, как найти и устранить корневую причину
- Вопросы поддержки. Support
- Network, integration, data quality, system faults, disk space, executor out of memory, grants, access rights, security
- Метрики качества. Контроль качества. Data Fix - как исправлять найденные ошибки
- MDM: управление мастер-данными
12 февраля, 20:00 — 21:30
Тема 5: Case studies. Кейсы компаний.
Углубленные вопросы оптимизации. Фишки. Примеры, разбор
17 февраля, 20:00 — 21:30
Домашние задания: 1
1 Задание: разработать проверки качества данных для витрины. Внедрить их автоматическое выполнение.
На предложенных примерах попытаться выполнить устранение ошибок (Data fix).
Тема 6: Бонус. Дальнейшее развитие Hard skills + Soft skills
- Где искать ответы на вопросы. Ресурсы. Как быстро разбираться и решать проблемы.
- Benchmarking - умеем сравнивать инструменты для решения конкретных задач
- Как грамотно составить резюме (CV) + proof-read резюме участников курса
- Как развиваться в плане Soft skills, Hard skills. Contribution.
19 февраля, 20:00 — 21:30
Домашние задания: 1
1 Задание: подготовить резюме (CV), отрецензировать резюме товарища. Завести аккаунт в LinkedIn.
Проектная работа
Выпускной проект: реализация задачи по выбранной тематике в реальном времени с применением парадигмы Map-Reduce кластере в виде pipeline (Kafka, Spark, Hadoop экосистема) и визуализация результатов.

Список возможных тем проектов будет предложен. Также можно взять задачу "с работы" или близкого себе проекта.
Тема 1: Вводное занятие по проектной работе
Слушатели курса смогут определиться с темой проекта (выбрать из предложенного списка или привнести задачу из деятельности своей компании), получить понимание какие ресурсы им необходимо использовать для работы.
24 февраля, 20:00 — 21:30
Домашние задания: 1
1 Проектная работа
Тема 2: Консультация по проектной работе
Слушатели курса получат комментарии относительно прогресса проектной работы, ответы на вопросы, рекомендации по реализации.
26 февраля, 20:00 — 21:30
Тема 3: Защита проектной работы
По окончании занятия слушатели курса получат разбор проектов, комментарии и оценку своей работы.
2 марта, 20:00 — 21:30
Выпускной проект
Выпускной проект: реализация задачи по выбранной тематике в реальном времени с применением парадигмы Map-Reduce кластере в виде pipeline (Kafka, Spark, Hadoop экосистема) и визуализация результатов.

Список возможных тем проектов будет предложен. Также можно взять задачу "с работы" или близкого себе проекта.
Прошедшие открытые вебинары по курсу
Открытый вебинар — это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.
Lean Data Engineering: большие данные при небольшом бюджете
Егор Матешук
День открытых дверей
16 августа в 20:00
Для доступа к прошедшим мероприятиям необходимо пройти входное тестирование
Возможность пройти вступительное тестирование повторно появится только через 2 недели
Результаты тестирования будут отправлены вам на e-mail, указанный при регистрации.
Тест рассчитан на 30 минут, после начала тестирования отложить тестирование не получится!
Пройти вступительное тестирование
После обучения вы
Заберете с собой:
  • основные и дополнительные материалы, и видеозаписи занятий;

  • образцы кода;

  • собственный проект, который можно будет показывать при трудоустройстве;

  • сертификат о прохождении обучения.

  • В результате обучения вы:
  • будете иметь представление об основных классах задач Инженера Данных, инструментах, предназначенных для их решения, а также их преимуществах и особенностях;

  • научитесь выстраивать пайплайны пакетной и потоковой обработки данных;

  • сможете проектировать хранилища данных и организовывать оптимальный доступ для потребителей;

  • получите ряд полезных навыков: умение грамотно составлять CV, проходить интервью, выстраивать совместную работу с коллегами
Дата выдачи сертификата: 24 апреля 2020 года
Ваш сертификат

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Data Engineer»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018г.

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Data Engineer»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018г.
Общая стоимость
55 000 ₽
В месяц: 15 000 ₽
В кредит: ₽ в месяц
Продолжительность
4 месяца
Начало занятий
27 ноября