Курс по Data Engineering. Запишитесь на курс по организации и предобработке данных

Курсы

Специализации Курсы в разработке Подготовительные курсы
+7 499 110-61-65

Data Engineer

Лучшие практики по приготовлению данных. Загрузка, обработка, организация хранения и доступа к данным с использованием современных инструментов
Подойдет ли мне этот курс?

Длительность

4 месяца

Начало

26 февраля

Занятия

Пт 20:00, Ср 20:00

Общая стоимость

55 000 ₽

В месяц

15 000 ₽

В кредит:

15000 ₽ в месяц

Хочу дешевле
Общая стоимость
55 000 ₽
В месяц: 15 000 ₽
В кредит: 55000 ₽
в месяц
Продолжительность
4 месяца, 4 академ. часа в неделю
Пт 20:00, Ср 20:00
Начало занятий
26 февраля
Что даст вам этот курс

  • понимание ключевых способов интеграции, обработки, хранения больших данных

  • умение работать с компонентами экосистемы Hadoop, распределенными хранилищами и платформами

  • практические навыки разработки дата-сервисов, витрин и приложений

  • знание принципов организации мониторинга, оркестрации, тестирования


  • Курс адресован разработчикам, администраторам СУБД и всем, кто стремится повысить профессиональный уровень, освоить новые инструменты и заниматься интересными задачами в сфере работы с данными.


    После обучения Data Engineering вы станете востребованным специалистом, который:

    • разворачивает, налаживает и оптимизирует инструменты обработки данных

    • адаптирует датасеты для дальнейшей работы и аналитики

    • создает сервисы, которые используют результаты обработки больших объемов данных

    • отвечает за архитектуру данных в компании



    • Real Case Studies: примеры внедрений, использования инструментов, оптимизации производительности, проблемы, ошибки и прикладные результаты

      Высокая практическая направленность:


      В течение курса будем инкрементально создавать работающий продукт, решая прикладные задачи

      Целостная картина вызовов и задач современного бизнеса, и роли Инженера


      Данных в их решении

      Востребованность у работодателей


      32 работодателя уже готовы позвать на собеседование выпускников курса






        Инженер данных - почему это актуально и интересно:



      • Прежде чем попасть на стол CEO в виде квартального отчета или индивидуальной подборкой книг в email-рассылке, данные проделывают длительный и сложный, полный преобразований и трансформаций, путь, требующий непрерывного мониторинга и оркестрации.

      • В этом ключе команда инженеров, которая готова обеспечить непрерывную поставку достоверной информации для всех бизнес-потребителей и функций играет важнейшую роль в принятии тактических и стратегических решений всей компании.

      • Работа инженеров данных, внешне незаметная, удивительно сложна и интересна по своей специфике. Невероятное количество закономерностей и связей, инструментов и подходов, параметров и настроек не оставят равнодушным ни один пытливый ум в поисках оптимальных и элегантных решений.
Преподаватели
Егор Матешук
Senior Data Engineer, MaximaTelecom
Артемий Козырь
Senior Data Engineer, Wheely
Антон Задорожный
Principal Engineer, Teradata Global Delivery Center
Владимир Дроздецкий
Разработчик инфраструктуры exposcan.ru, crispmessenger.com
Последние 4 года работает с большими данными: строит системы для обработки больших данных, консультирует по вопросам построения инфраструктуры для аналитики. В основном проекты связаны с решениями на базе Hadoop и Vertica. В последнее время активно исследует облачные хранилища данных. Ранее также проводил исследования потребительской активности для банков и сетевых магазинов.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Сейчас занимает аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Преподаватель
Более 5-ти лет опыта работы с Хранилищами Данных, построении ETL/ELT, Аналитике данных и Визуализации.
Опыт работы над продуктами в компаниях PwC, Московская Биржа, Сбербанк, СИБУР, Wheely.
Сферы интересов: KPIs and Scorecards / Budgeting and Planning / Retail Scoring / Next Best Offer / Reporting.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Образование: НИУ ВШЭ, факультет бизнес-информатики.

Преподаватель
Архитектор и разработчик в области аналитических решений, построивший хранилища данных и аналитические решения (CRM, MDM) , продолживший карьеру с data lake и потоковой аналитикой. В России работал с компаниями Сбербанк, ВТБ, МТС, Магнит, Мегафон, oneFactor.

Последние 3 года строит решения по обработке больших данных для мобильных операторов, финансовых институтов, автопроизводителей и фармацевтических компаний в Центральной Европе. Занимает позицию Principal Engineer в Teradata Global Delivery Center в Праге.

Образование: МГУ, факультет вычислительной математики и кибернетики.

Преподаватель
Занимается поддержкой и траблшутингом серверов MySQL, приложений, написанных на PHP, etc. Активно внедряет и использует докер со всей его инфраструктурой. Придерживается мнения, что всё должно быть декларативно описано, поэтому использует Ansible.

Разрабатывает и настраивает инфраструктуру для таких стартапов, как exposcan.ru, crispmessenger.com. Занимается мониторингом при помощи Zabbix и Prometheus, создаёт графики в Grafana.

Чтобы легко подстраиваться под требования бизнеса, деплоит и описывает процессы в Gitlab, собирает и обрабатывает логи в ELK и Graylog2. Любит и умеет пользоваться активным сетевым оборудованием вендора MikroTik.

Преподаватель
Егор
Матешук
Артемий
Козырь
Антон
Задорожный
Владимир
Дроздецкий
Преподаватели
Егор Матешук
Senior Data Engineer, MaximaTelecom
Последние 4 года работает с большими данными: строит системы для обработки больших данных, консультирует по вопросам построения инфраструктуры для аналитики. В основном проекты связаны с решениями на базе Hadoop и Vertica. В последнее время активно исследует облачные хранилища данных. Ранее также проводил исследования потребительской активности для банков и сетевых магазинов.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Сейчас занимает аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Преподаватель
Артемий Козырь
Senior Data Engineer, Wheely
Более 5-ти лет опыта работы с Хранилищами Данных, построении ETL/ELT, Аналитике данных и Визуализации.
Опыт работы над продуктами в компаниях PwC, Московская Биржа, Сбербанк, СИБУР, Wheely.
Сферы интересов: KPIs and Scorecards / Budgeting and Planning / Retail Scoring / Next Best Offer / Reporting.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Образование: НИУ ВШЭ, факультет бизнес-информатики.

Преподаватель
Антон Задорожный
Principal Engineer, Teradata Global Delivery Center
Архитектор и разработчик в области аналитических решений, построивший хранилища данных и аналитические решения (CRM, MDM) , продолживший карьеру с data lake и потоковой аналитикой. В России работал с компаниями Сбербанк, ВТБ, МТС, Магнит, Мегафон, oneFactor.

Последние 3 года строит решения по обработке больших данных для мобильных операторов, финансовых институтов, автопроизводителей и фармацевтических компаний в Центральной Европе. Занимает позицию Principal Engineer в Teradata Global Delivery Center в Праге.

Образование: МГУ, факультет вычислительной математики и кибернетики.

Преподаватель
Владимир Дроздецкий
Разработчик инфраструктуры exposcan.ru, crispmessenger.com
Занимается поддержкой и траблшутингом серверов MySQL, приложений, написанных на PHP, etc. Активно внедряет и использует докер со всей его инфраструктурой. Придерживается мнения, что всё должно быть декларативно описано, поэтому использует Ansible.

Разрабатывает и настраивает инфраструктуру для таких стартапов, как exposcan.ru, crispmessenger.com. Занимается мониторингом при помощи Zabbix и Prometheus, создаёт графики в Grafana.

Чтобы легко подстраиваться под требования бизнеса, деплоит и описывает процессы в Gitlab, собирает и обрабатывает логи в ELK и Graylog2. Любит и умеет пользоваться активным сетевым оборудованием вендора MikroTik.

Преподаватель
Отзывы
3
Сергей
Баранов
Курс более, чем понравился и удачно оказался "стопроцентно в руку".

- Курс значительно отодвинул наметившиеся ограничения в области архитектурных решений по работе с данными для нашей компании.
- Практически каждый (ровно каждый) вебинар курса дал мне варианты решений различных реальных проблем в реальных кейзах по работе.
- Корпус приобретённых практических навыков позволил реализовать эти решения как минимум на уровне работающих прототипов.
- Хочу отметить также серьёзный уровень владения и подачи теории, и погружённости в реальную практику преподавателей курса.

Рекомендую всем как для расширения архитектурного горизонта, так и для приобретения практических навыков работы с заявленным в программе инструментарием.
Читать целиком
Вадим
Заигрин
Очень полезный курс для инженеров данных. Широкий охват тем, глубокая проработка материала. Даже по темам, с которыми ты работаешь пару лет, узнаешь что-то новое.
Из недостатков можно отметить некоторую несогласованность между преподавателями. Например, один говорит, что системы визуального проектирования неудобны, а второй, что с их помощью можно делать то, что нужно.
Ещё хорошо бы оптимизировать последовательность тем. Теорию потоковой обработки лучше давать до практической работы со Spark Streaming.
Читать целиком
Андрей
Гореликов
1 До обучения я работал веб разработчиком джава и до поступления на курс поступил на должность разработчика хранилища, но на работе была маленькая команда и чтоб лучше освоить профессию поступил на курсы дата инженера в Отус.
2 Выбрал курс Дата инженера так как интересна эта специализация
3 В обучении понравлся актуальный материал и как преподователи вели обучение- много рабочих кейсов, быстрая проверка домашних работ и рекомендации как улучшить и тд. У меня как и многих были сложности с докером.
4 Обучение мне дало более широкие и глубокие знания по специальности с которыми я нашел новую работу, на собеседованиях уже мог обсуждать детали специальности, используемые технологии и тд. Касаемо работы я получил несколько оферов и одним из них воспользовался, можно сказать в ведущий банк и офис мечты ))
Понравился выпускной проект, было много консультаций и после во время защиты было много рекомендаций!!
Читать целиком
Сергей
Баранов
Курс более, чем понравился и удачно оказался "стопроцентно в руку".

- Курс значительно отодвинул наметившиеся ограничения в области архитектурных решений по работе с данными для нашей компании.
- Практически каждый (ровно каждый) вебинар курса дал мне варианты решений различных реальных проблем в реальных кейзах по работе.
- Корпус приобретённых практических навыков позволил реализовать эти решения как минимум на уровне работающих прототипов.
- Хочу отметить также серьёзный уровень владения и подачи теории, и погружённости в реальную практику преподавателей курса.

Рекомендую всем как для расширения архитектурного горизонта, так и для приобретения практических навыков работы с заявленным в программе инструментарием.
Читать целиком
Вадим
Заигрин
Очень полезный курс для инженеров данных. Широкий охват тем, глубокая проработка материала. Даже по темам, с которыми ты работаешь пару лет, узнаешь что-то новое.
Из недостатков можно отметить некоторую несогласованность между преподавателями. Например, один говорит, что системы визуального проектирования неудобны, а второй, что с их помощью можно делать то, что нужно.
Ещё хорошо бы оптимизировать последовательность тем. Теорию потоковой обработки лучше давать до практической работы со Spark Streaming.
Читать целиком
Андрей
Гореликов
1 До обучения я работал веб разработчиком джава и до поступления на курс поступил на должность разработчика хранилища, но на работе была маленькая команда и чтоб лучше освоить профессию поступил на курсы дата инженера в Отус.
2 Выбрал курс Дата инженера так как интересна эта специализация
3 В обучении понравлся актуальный материал и как преподователи вели обучение- много рабочих кейсов, быстрая проверка домашних работ и рекомендации как улучшить и тд. У меня как и многих были сложности с докером.
4 Обучение мне дало более широкие и глубокие знания по специальности с которыми я нашел новую работу, на собеседованиях уже мог обсуждать детали специальности, используемые технологии и тд. Касаемо работы я получил несколько оферов и одним из них воспользовался, можно сказать в ведущий банк и офис мечты ))
Понравился выпускной проект, было много консультаций и после во время защиты было много рекомендаций!!
Читать целиком
Необходимые знания
Необходимое:

  • Опыт разработки на Java/Python
  • Основы работы с БД: SQL, индексы, агрегирующие функции
  • Базовые знания ОС: работа с командной строкой, доступ по SSH
  • Будет плюсом:

  • Навыки программирования на Scala
  • Знакомство с компонентами экосистемы Hadoop
  • Понимание основ машинного обучения с позиции Data Scienist-а или аналитика
Подготовительный курс
Курс рассчитан для программистов и администраторов, которые хотят освоить ОС Linux с нуля.

На курсе мы:

  • детально разберем основные команды в Linux и научимся работать в консоли

  • познакомимся с зомби, сиротами и демонами

  • выясним, что такое ядро операционной системы и системные вызовы

  • научимся работать со стандартными потоками ввода/вывода

  • разберем некоторые особенности файловой системы ext4

Записаться
Процесс обучения
Обучение проходит в формате онлайн-вебинаров на русском языке.
Регулярность занятий: 2 раза в неделю по 2 академических часа (1.5 астрономических часа).

Каждую неделю предполагается выполнение 1 домашнего задания (время на выполнение: 2-4 академических часа). По всем практическим заданиям команда преподавателей дает развернутый фидбек.

Для прохождения курса потребуется компьютер с доступом в интернет и аккаунт на облаке (Google Cloud) с неиспользованной Free Trial версией.
Программа обучения
Модуль 1
Инженер Данных: задачи, инструменты, платформы
Модуль 2
Процессинг. Доступ к данным. ML
Модуль 3
Загрузка и форматы данных (Data Ingestion)
Модуль 4
Очереди сообщений. Хранилища данных. SQL-доступ.
Модуль 5
Обеспечивающие системы. Оркестрация, тестирование, мониторинг
Модуль 6
Проектная работа
Инженер Данных: задачи, инструменты, платформы
По результатам модуля:
- имеем представление о задачах и инструментах
- знаем, умеем объяснить, сравнить, применять
- умеем развернуть кластер в облаке
Тема 1: Инженер Данных. Задачи, навыки, инструменты, потребности на рынке.
- Кто этот специалист и зачем?
- Какая ценность для бизнеса?
- Потребность на рынке. Навыки
- Дальнейшее развитие
- Data Driven Decisions

- Какие задачи решает?
- Инструменты для решения основных задач
- Введение в большие данные: где используют, экосистема и история развития фреймворков
26 февраля, 20:00 — 21:30
Лектор: Артемий Козырь
Домашние задания: 1
1 Домашнее задание: анализ рынка Инженер Данных: РФ, USA, EU
Топ потребностей бизнеса, ключевые технологии и умения
Понять для себя, где и чем бы вам хотелось заниматься
Фиксация целей на процесс обучения
Тема 2: Эволюция подходов работы с данными. Базовые принципы и понятия
- CAP theorem, Distributed Computing, MPP (Massive Parallel Processing).
- Эволюция аналитических хранилищ данных
- SQL + Not Only SQL.
- Batch + Stream
- Lambda, Kappa
4 марта, 20:00 — 21:30
Лектор: Антон Задорожный
Домашние задания: 1
1 Строим свою архитектуру
Цель: В данном домашнем задании от участников курса ожидается небольшой архитектурный документ ( желательно - не более 3-х страниц). Выберите интересный сервис (Twitter / Uber / Linkedin / ваша организация или собственный проект) и разработайте для него архитектуру аналитического хранилища данных. Опишите возможные требования к хранилищу, источники и архитектуру хранения. Приведите пример бизнес-кейса, который можно решить с помощью выбранной вами архитектуры. В решении обязательно должна присутствовать архитектурная схема вашего решения, которая должна объяснять откуда к вам поступают данные, как вы планируете их хранить и как вы планируете их отдавать для решения бизнес-кейса. Описание архитектуры - это стандартное задание на архитектурных собеседованиях для Data Engineer. Выполнив данное задание, вы сможете в будущем воспользоваться этими знаниями для того, чтобы качественно и продуманно создавать дизайн для аналитического хранилища данных или понимать как ваше data-driven приложение ложится в экосистему вашей организации. Для рисования схемы советуем использовать бесплатный сервис draw.io
Тема 3: Облачные платформы. Дистрибутивы Cloudera и Hortonworks
облачная инфраструктура: возможности, преимущества, особенности
Обзор AWS, GCP, Azure.
Кто такие Cloudera и HortonWorks и что за экосистемы они строят
Как собрать кластер Hadoop на основе популярных дистрибутивов CDH и HDP
6 марта, 20:00 — 21:30
Лектор: Егор Матешук
Домашние задания: 1
1 Развернуть дистрибутив Cloudera
Цель: Цель этого ДЗ - научиться выполнять базовые операции на кластере Hadoop. В его ходе нужно будет развернуть свой мини-кластер в Google Cloud Platform и создать таблицу в Hive.
Тема 4: Форматы данных и их особенности
обзор популярных форматов: AVRO, Parquet, ORC, CSV, JSON
Анализ применения, сравнение производительности

- Назначение row-based и column-based форматов
- Обзор наиболее распространенных форматов: Avro, Parquet, ORC
11 марта, 20:00 — 21:30
Лектор: Артемий Козырь
Процессинг. Доступ к данным. ML
По результатам модуля:
- делаем вычисления, преобразования, агрегации данных (ETL)
- формируем конечные витрины (для ML / BI)
- обучаем простенькую модель
Тема 1: Scala, введение в Spark
scala для дата инженеров.
Введение в Spark, RDD API
13 марта, 20:00 — 21:30
Лектор: Егор Матешук
Домашние задания: 1
1 Введение в Scala
Цель: Написать распределенное приложение для чтения JSON-файлов.
Тема 2: Apache Spark - 1 часть
- Spark - что это и зачем он нужен
- API - RDD, Dataset, Dataframe, операции над распределенными коллекциями
- Процесс вычисления в Spark - task, stage, оптимизатор запросов
18 марта, 20:00 — 21:30
Лектор: Егор Матешук
Тема 3: Apache Spark - 2 часть
- Spark - что это и зачем он нужен
- API - RDD, Dataset, Dataframe, операции над распределенными коллекциями
- Процесс вычисления в Spark - task, stage, оптимизатор запросов
20 марта, 20:00 — 21:30
Лектор: Егор Матешук
Домашние задания: 1
1 Spark - Гид по безопасному Бостону
Цель: В этом задании предлагается собрать статистику по криминогенной обстановке в разных районах Бостона, используя Apache Spark.
Тема 4: Очереди сообщений, Kafka, Confluent platform
- Kafka, RabbitMQ
- Потоковая обработка (виды обработки, описание Producer–consumer problem, пример архитектурного решения через Kafka, RabbitMQ, NATS)
- Google Dataflow paper (Event time vs processing time и так далее).
- Паттерны stream processing Joins, enricher, router. Event-sourcing.
10 апреля, 20:00 — 21:30
Лектор: Антон Задорожный
Тема 5: Spark Streaming
- Micro-batch обработка данных
- Классический Spark Streaming
- Structured Streaming
- Continuous processing
25 марта, 20:00 — 21:30
Лектор: Егор Матешук
Тема 6: Доступ к данным, ноутбуки. Explore and visualize
- Инструменты интерактивной аналитики
- Google Cloud Datalab
- Jupyter - интеграция с Apache Spark
27 марта, 20:00 — 21:30
Лектор: Артемий Козырь
Тема 7: Обучение моделей. ML
Пример построения модели
1 апреля, 20:00 — 21:30
Домашние задания: 1
1 Задание: обучаем собственную модель.
Цель: В результате данного ДЗ вы научитесь обучаю свою собственную простейшую модель на Apache Spark и применять ее к стриминговым данным.
Загрузка и форматы данных (Data Ingestion)
По результатам модуля:
- грузим в файловую систему
- смотрим форматы
- сравниваем сжатия
- настраиваем репликацию
Тема 1: Распределенные файловые системы
- Принципы работы распределенных файловых систем
- Структура кластера HDFS
- Тонкости настройки HDFS - конфигурация, защита, обеспечение отказоустойчивости
3 апреля, 20:00 — 21:30
Тема 2: Инструменты выгрузки данных из сторонних систем - 1 часть
- Типы систем-источников. Структурированные, полу- и неструктурированные данные. Логи, выгрузки из АС, Clickstream
- Инструменты для извлечения и загрузки данных - Flume, Sqoop, StreamSets, Fluentd, Debezium, logstash
- Практические примеры загрузки данных из сервисных баз данных
8 апреля, 20:00 — 21:30
Лектор: Егор Матешук
Тема 3: Инструменты выгрузки данных из сторонних систем - 2 часть
- Типы систем-источников. Структурированные, полу- и неструктурированные данные. Логи, выгрузки из АС, Clickstream
- Инструменты для извлечения и загрузки данных - Flume, Sqoop, StreamSets, Fluentd
- Практические примеры загрузки данных из сервисных баз данных
15 апреля, 20:00 — 21:30
Лектор: Артемий Козырь
Домашние задания: 1
1 Создать снепшот аналитической таблицы из операционного хранилища
Цель: Зачастую в Data Lake не требуется хранить всех сырых данных, например в ситуации когда наиболее интересными для пользователя являются какие-либо аналитические выгрузки. В нашем домашнем задании мы напишем пример такого приложения, которое позволяет писать в Data Lake текущий аналитический срез.
Очереди сообщений. Хранилища данных. SQL-доступ.
По результатам модуля:
- добавляем stream-источник
- создаем схему в хранилище
- создаем дизайн
- оптимизируем под задачу
Тема 1: DWH. Хранилища данных - 1 часть
- Семейство MPP баз - назначение и особенности
- Логический и физический дизайн
- Vertica
17 апреля, 20:00 — 21:30
Лектор: Егор Матешук
Тема 2: DWH. Хранилища данных - 2 часть
- Семейство MPP баз - назначение и особенности
- Логический и физический дизайн
- Google BigQuery
22 апреля, 20:00 — 21:30
Лектор: Артемий Козырь
Домашние задания: 1
1 Домашнее задание: проектирование витрины в Vertica (BigQuery).
Цель: Спроектировать схему данных + Построить витрину Использовать Vertica (Docker) или BigQuery • Датасет: Захват данных из divolte (или GCP Public Datasets) Definition of Done: • DDL объектов • DML шагов преобразований • Опционально: Тестирование на наличие ошибок в данных
Тема 3: Хранилища NoSQL. Назначение и особенности
- NoSQL Databases. HBase, Cassandra, Elasticsearch, Aerospike
- Key-value
- Cache
24 апреля, 20:00 — 21:30
Тема 4: SQL-доступ к данным. Apache Hive.
29 апреля, 20:00 — 21:30
Лектор: Артемий Козырь
Домашние задания: 1
1 HiveQL
Цель: Практика с Hive на CDH
Тема 5: ElasticSearch
- Знакомство с компонентами ELK-стэка
- Классы задач, для которых подходит ELK
8 мая, 20:00 — 21:30
Обеспечивающие системы. Оркестрация, тестирование, мониторинг
По результатам модуля:
- настроили мониторинг
- выстроили DevOps pipeline
- настроили метрики качества данных
Тема 1: Оркестрация
- Как организовать многоэтапные процессы обработки данных
- Инструменты оркестрации - Oozie, Airflow
13 мая, 20:00 — 21:30
Тема 2: Интеграция, тестирование, развертывание. CI / CD. DevOps
- Культура DevOps
- Работа в команде
- CI / CD
- Auto tests
15 мая, 20:00 — 21:30
Тема 3: Мониторинг
- Инструменты мониторинга - Prometheus, Zabbix, Graphite, Grafana
- Специфика мониторинга процессов обработки данных
20 мая, 20:00 — 21:30
Домашние задания: 1
1 Задание: развернуть и настроить инструменты мониторинга. Проанализировать текущие показатели.
Тема 4: Data Quality. Контроль качества данных, мастер-данные, Troubleshooting
- Data Quality and Consistency. Качество данных. MDM
- Ошибки в коде, логике, виды, последствия, как найти и устранить корневую причину
- Вопросы поддержки. Support
- Network, integration, data quality, system faults, disk space, executor out of memory, grants, access rights, security
- Метрики качества. Контроль качества. Data Fix - как исправлять найденные ошибки
- MDM: управление мастер-данными
22 мая, 20:00 — 21:30
Лектор: Артемий Козырь
Тема 5: Case studies. Кейсы компаний.
Углубленные вопросы оптимизации. Фишки. Примеры, разбор
27 мая, 20:00 — 21:30
Домашние задания: 1
1 Задание: разработать проверки качества данных для витрины. Внедрить их автоматическое выполнение.
На предложенных примерах попытаться выполнить устранение ошибок (Data fix).
Тема 6: Бонус. Дальнейшее развитие Hard skills + Soft skills
- Где искать ответы на вопросы. Ресурсы. Как быстро разбираться и решать проблемы.
- Benchmarking - умеем сравнивать инструменты для решения конкретных задач
- Как грамотно составить резюме (CV) + proof-read резюме участников курса
- Как развиваться в плане Soft skills, Hard skills. Contribution.
29 мая, 20:00 — 21:30
Лектор: Артемий Козырь
Домашние задания: 1
1 Задание: подготовить резюме (CV), отрецензировать резюме товарища. Завести аккаунт в LinkedIn.
Проектная работа
Выпускной проект: реализация задачи по выбранной тематике в реальном времени с применением парадигмы Map-Reduce кластере в виде pipeline (Kafka, Spark, Hadoop экосистема) и визуализация результатов.

Список возможных тем проектов будет предложен. Также можно взять задачу "с работы" или близкого себе проекта.
Тема 1: Выбор темы и организация проектной работы
выбрать и обсудить тему проектной работы;
спланировать работу над проектом;
ознакомиться с регламентом работы над проектом.
3 июня, 20:00 — 21:30
Домашние задания: 1
1 Проектная работа
Тема 2: Консультация по проектам и домашним заданиям
получить ответы на вопросы по проекту, ДЗ и по курсу.
17 июня, 20:00 — 21:30
Тема 3: Защита проектных работ
защитить проект и получить рекомендации экспертов.
1 июля, 20:00 — 21:30
Выпускной проект
Выпускной проект: реализация задачи по выбранной тематике в реальном времени с применением парадигмы Map-Reduce кластере в виде pipeline (Kafka, Spark, Hadoop экосистема) и визуализация результатов.

Список возможных тем проектов будет предложен. Также можно взять задачу "с работы" или близкого себе проекта.
Прошедшие открытые вебинары по курсу
Открытый вебинар — это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.
Data Build Tool для хранилища Amazon Redshift
Артемий Козырь
День открытых дверей
19 февраля в 20:00
Для доступа к прошедшим мероприятиям необходимо пройти входное тестирование
Возможность пройти вступительное тестирование повторно появится только через 2 недели
Результаты тестирования будут отправлены вам на e-mail, указанный при регистрации.
Тест рассчитан на 30 минут, после начала тестирования отложить тестирование не получится!
Пройти вступительное тестирование
После обучения вы
Заберете с собой:
  • основные и дополнительные материалы, и видеозаписи занятий;

  • образцы кода;

  • собственный проект, который можно будет показывать при трудоустройстве;

  • сертификат о прохождении обучения.

  • В результате обучения вы:
  • будете иметь представление об основных классах задач Инженера Данных, инструментах, предназначенных для их решения, а также их преимуществах и особенностях;

  • научитесь выстраивать пайплайны пакетной и потоковой обработки данных;

  • сможете проектировать хранилища данных и организовывать оптимальный доступ для потребителей;

  • получите ряд полезных навыков: умение грамотно составлять CV, проходить интервью, выстраивать совместную работу с коллегами
Дата выдачи сертификата: 24 июля 2020 года
Ваш сертификат

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Data Engineer»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018 года.

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Data Engineer»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018 года.
Общая стоимость
55 000 ₽
В месяц: 15 000 ₽
В кредит: ₽ в месяц
Продолжительность
4 месяца
Начало занятий
26 февраля