Экосистема Hadoop, Spark, Hive. Курс для Data инженеров
⚡ Подписка на курсы OTUS!
Интенсивная прокачка навыков для IT-специалистов!
Подробнее

Курсы

Программирование
iOS Developer. Professional Kotlin Backend Developer Flutter Mobile Developer Symfony Framework C++ Developer. Basic Unity Game Developer. Basic Java Developer. Professional
-35%
Highload Architect Unity Game Developer. Professional React.js Developer Специализация Java-разработчик
-25%
Алгоритмы и структуры данных
-16%
Scala-разработчик C# Developer. Professional
-23%
Разработчик голосовых ассистентов и чат-ботов Team Lead Архитектура и шаблоны проектирования NoSQL Web-разработчик на Python Golang Developer. Professional PostgreSQL Vue.js разработчик Супер-практикум по использованию и настройке GIT Разработчик IoT Подготовка к сертификации Oracle Java Programmer (OCAJP) Программист С HTML/CSS
Инфраструктура
Инфраструктурная платформа на основе Kubernetes Microservice Architecture Базы данных Highload Architect Reverse-Engineering. Professional
-8%
Network engineer. Basic Administrator Linux.Basic MongoDB Infrastructure as a code MS SQL Server Developer Cloud Solution Architecture Мониторинг и логирование: Zabbix, Prometheus, ELK Супер-практикум по использованию и настройке GIT Разработчик IoT Экcпресс-курс «ELK» Супер-интенсив "Tarantool" Экспресс-курс «CI/CD или Непрерывная поставка с Docker и Kubernetes» Экспресс-курс «Введение в непрерывную поставку на базе Docker»
Корпоративные курсы
Безопасность веб-приложений Экосистема Hadoop, Spark, Hive Пентест. Практика тестирования на проникновение Node.js Developer Java QA Engineer. Basic
-18%
Reverse-Engineering. Professional
-8%
DevOps практики и инструменты NoSQL Reverse-Engineering. Basic Cloud Solution Architecture Внедрение и работа в DevSecOps Супер-практикум по работе с протоколом BGP Game QA Engineer Супер - интенсив по Kubernetes Дизайн сетей ЦОД Экспресс-курс «IaC Ansible» Экспресс-курс по управлению миграциями (DBVC) Экспресс-курс "Версионирование и командная работа с помощью Git" Основы Windows Server
Специализации Курсы в разработке Подготовительные курсы Подписка
+7 499 938-92-02

Экосистема Hadoop, Spark, Hive

Углубленный курс по самым мощным инструментам обработки больших данных.

Длительность обучения:

3 месяца

4 ак. часа в нед.

Формат:

Online

Начало занятий:

18 июня

Дни занятий:

Ср 20:00, Пт 20:00

Что даст вам этот курс

Для кого этот курс:
Курс рассчитан на Data инженеров, желающих глубже изучить Spark, Hadoop, Hive

На курсе вы изучите следующие основные темы:

- Hadoop (основные компоненты, дистрибутивы вендоров)
- Архитектура HDFS
- Архитектура YARN
- Форматы данных
- Spark
- Spark Streaming и Flink
- Hive
- Оркестрация, Мониторинг и CI/CD
и т.д.

Научитесь применять все это на практике и закрепите с помощью интересных и сложных домашних заданий и выпускного проекта.

После прохождения курса вы сможете:

- Использовать Hadoop для обработки данных
- Взаимодействовать с его компонентами через консольные клиенты и API
- Работать со слабоструктурированными данными в Hive
- Писать и оптимизировать приложения на Spark
- Писать тесты для Spark-приложений
- Использовать Spark для обработки табличных, потоковых, гео-данных и даже графов
- Настраивать CI и мониторинг Spark-приложений

Преподаватели

Егор Матешук
CDO AdTech-компании Квант
Михаил Юрченков
АО "Максимателеком", Lead Data Engineer
Артемий Козырь
Senior Data Engineer, Wheely
Вадим Заигрин
Software Engineering Team Lead, Teradata
Максим Мигутин
Вадим Опольский
Luxoft DXC Technology, Scala Big Data разработчик
Последние 6 лет работает с большими данными: строит системы для обработки данных, консультирует по вопросам построения аналитических решений.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Затем занимал аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы). На данный момент является CDO AdTech-компании Квант.
Большой опыт работы с сервисами Hadoop (HDFS, Hive, Impala), оркестраторами (Airflow, Oozie), MPP-базами (Vertica, Kudu, Greenplum) и различными фреймворками для обработки данных (Spark, Flink).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Преподаватель
Окончил Факультет Компьютерных Наук НИУ ВШЭ. Занимается разработкой ПО с 2015 года.
Начинал в качестве разработчика Веб-сервисов на Ruby on Rails, позже занялся разработкой микросервисов на Scala (Spray, Akka). Сейчас занимается разработкой систем телеметрических больших данных в режиме реального времени.

Интересы: Scala, Haskell, высоконагруженные сервисы, обработка больших объемов данных.

Преподаватель
Более 5-ти лет опыта работы с Хранилищами Данных, построении ETL/ELT, Аналитике данных и Визуализации.
Опыт работы над продуктами в компаниях PwC, Московская Биржа, Сбербанк, СИБУР, Wheely.
Сферы интересов: KPIs and Scorecards / Budgeting and Planning / Retail Scoring / Next Best Offer / Reporting.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Образование: НИУ ВШЭ, факультет бизнес-информатики.

Преподаватель
Последние несколько лет работаю с большими данными как разработчик, Data Engineer и Data Scientist. Проекты в банках, телеком и розничных компаниях. Опыт работы с Hadoop (Cloudera, Hortonworks), MPP-системами (Teradata, Vertica), фреймворком Spark и Google Cloud Platform. Большой опыт в IT-инфраструктуре. Поработав и как Data Scientist, и как Data Engineer, понимаю, что без Data Engineer'а Data Scientist'у делать нечего.
Образование: МИЭМ, специальность: прикладная математика.

Otus Certified Educator

Преподаватель
Более 5-ти лет опыта в индустрии Данных & Аналитики в роли внешнего косультанта (IBM) и in-house лидера Data Engineering и Data Science-проектов (Альфа-Банк, Yum! Brands).
Сферы интересов: построение end-to-end аналитических систем, внедрение инструментов Машинного обучения в промышленную эксплуатацию, Рекомендательные системы, MPP-базы данных.
Образование: МГУ им. Ломоносова, математическая кафедра Экономического факультета

Преподаватель
В IT более 15 лет.
Сейчас интересуется технологиями больших данных и функциональным программированием.

Работает в Luxoft DXC Technology на Big Data проекте крупнейшей логиситической компании. Общий поток данных, приходящих в реальном времени, более 400 млн. событий в сутки.

Некоторые из главных достижений:
- участвовал в разработке пилота, в который FaceBook инвестировал 1 500 000 $
- окончил оффлан курс Scala в Тинькофф банке и был среди десяти лучших студентов
- получил сертификат Big Data от mail.ru в 2019 году
- контрибъютор Apache Ignite
- занимал призовые места на международном хакатоне Mercedes Benz Fashion Week и в конференции молодых ученых и специалистов

Увлекается спортивным ориентированием и может пробежать больше 45 км за 8 часов.

Преподаватель
Егор
Матешук
Михаил
Юрченков
Артемий
Козырь
Вадим
Заигрин
Максим
Мигутин
Вадим
Опольский

Преподаватели

Егор Матешук
CDO AdTech-компании Квант
Последние 6 лет работает с большими данными: строит системы для обработки данных, консультирует по вопросам построения аналитических решений.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Затем занимал аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы). На данный момент является CDO AdTech-компании Квант.
Большой опыт работы с сервисами Hadoop (HDFS, Hive, Impala), оркестраторами (Airflow, Oozie), MPP-базами (Vertica, Kudu, Greenplum) и различными фреймворками для обработки данных (Spark, Flink).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Преподаватель
Михаил Юрченков
АО "Максимателеком", Lead Data Engineer
Окончил Факультет Компьютерных Наук НИУ ВШЭ. Занимается разработкой ПО с 2015 года.
Начинал в качестве разработчика Веб-сервисов на Ruby on Rails, позже занялся разработкой микросервисов на Scala (Spray, Akka). Сейчас занимается разработкой систем телеметрических больших данных в режиме реального времени.

Интересы: Scala, Haskell, высоконагруженные сервисы, обработка больших объемов данных.

Преподаватель
Артемий Козырь
Senior Data Engineer, Wheely
Более 5-ти лет опыта работы с Хранилищами Данных, построении ETL/ELT, Аналитике данных и Визуализации.
Опыт работы над продуктами в компаниях PwC, Московская Биржа, Сбербанк, СИБУР, Wheely.
Сферы интересов: KPIs and Scorecards / Budgeting and Planning / Retail Scoring / Next Best Offer / Reporting.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Образование: НИУ ВШЭ, факультет бизнес-информатики.

Преподаватель
Вадим Заигрин
Software Engineering Team Lead, Teradata
Последние несколько лет работаю с большими данными как разработчик, Data Engineer и Data Scientist. Проекты в банках, телеком и розничных компаниях. Опыт работы с Hadoop (Cloudera, Hortonworks), MPP-системами (Teradata, Vertica), фреймворком Spark и Google Cloud Platform. Большой опыт в IT-инфраструктуре. Поработав и как Data Scientist, и как Data Engineer, понимаю, что без Data Engineer'а Data Scientist'у делать нечего.
Образование: МИЭМ, специальность: прикладная математика.

Otus Certified Educator

Преподаватель
Максим Мигутин
Более 5-ти лет опыта в индустрии Данных & Аналитики в роли внешнего косультанта (IBM) и in-house лидера Data Engineering и Data Science-проектов (Альфа-Банк, Yum! Brands).
Сферы интересов: построение end-to-end аналитических систем, внедрение инструментов Машинного обучения в промышленную эксплуатацию, Рекомендательные системы, MPP-базы данных.
Образование: МГУ им. Ломоносова, математическая кафедра Экономического факультета

Преподаватель
Вадим Опольский
Luxoft DXC Technology, Scala Big Data разработчик
В IT более 15 лет.
Сейчас интересуется технологиями больших данных и функциональным программированием.

Работает в Luxoft DXC Technology на Big Data проекте крупнейшей логиситической компании. Общий поток данных, приходящих в реальном времени, более 400 млн. событий в сутки.

Некоторые из главных достижений:
- участвовал в разработке пилота, в который FaceBook инвестировал 1 500 000 $
- окончил оффлан курс Scala в Тинькофф банке и был среди десяти лучших студентов
- получил сертификат Big Data от mail.ru в 2019 году
- контрибъютор Apache Ignite
- занимал призовые места на международном хакатоне Mercedes Benz Fashion Week и в конференции молодых ученых и специалистов

Увлекается спортивным ориентированием и может пробежать больше 45 км за 8 часов.

Преподаватель

Отзывы

2
Максим
Боровинский
Курсом на данный момент доволен. Были небольшие заминки с задержкой ДЗ, переносом занятий, но это всё незначительно и никак не повлияло на качество обучения.
Читать целиком
Дмитрий
Габидуллин
Записался на данный курс после прохождения Data Engineer с целью закрепить теорию, узнать про новые веяния в направлении.
В целом, полностью удовлетворен, несмотря на мелкие шероховатости (переносы лекций и, как мне показалось, не всегда соответствие пройденной темы на лекции и д/з).
Хотел бы отметить преподавателя Егора Матешука - всегда отличные, проработанные лекции и интересные домашние работы!
Читать целиком
Максим
Боровинский
Курсом на данный момент доволен. Были небольшие заминки с задержкой ДЗ, переносом занятий, но это всё незначительно и никак не повлияло на качество обучения.
Читать целиком
Дмитрий
Габидуллин
Записался на данный курс после прохождения Data Engineer с целью закрепить теорию, узнать про новые веяния в направлении.
В целом, полностью удовлетворен, несмотря на мелкие шероховатости (переносы лекций и, как мне показалось, не всегда соответствие пройденной темы на лекции и д/з).
Хотел бы отметить преподавателя Егора Матешука - всегда отличные, проработанные лекции и интересные домашние работы!
Читать целиком

Необходимые знания

  • Опыт написания кода хотя бы на одном из следующих языков: Python, Java, Scala
  • Базовое знание SQL и опыт работы с любой реляционной базой данных
  • Компьютер или виртуальная машина на Linux с ОЗУ не менее 8 Гб
Корпоративное обучение для ваших сотрудников
>
Программа обучения
В процессе обучения вы получите комплексные знания и навыки.
Тема 1. Основы Scala
Тема 2. Сборка проектов на Scala
C 30 июня
Тема 3. Hadoop
Тема 4. HDFS
Тема 5. YARN
Тема 6. Форматы данных
C 14 июля
Тема 7. Архитектура приложения Spark
Тема 8. RDD/Dataframe/Dataset
Тема 9. Методы оптимизации приложений Spark
Тема 10. Тестирование приложений Spark
Тема 11. Написание коннекторов для Spark
Тема 12. Spark ML
C 4 августа
Тема 13. Kafka
Тема 14. Spark Streaming
Тема 15. Structured Streaming
Тема 16. Flink - часть 1
Тема 17. Flink - часть 2
C 20 августа
Тема 18. Обзор Hive
Тема 19. HiveQL
C 27 августа
Тема 20. Оркестрация процессов обработки данных
Тема 21. Мониторинг и логирование для Spark-приложений
Тема 22. CI/CD для Spark и Hive
C 8 сентября
Тема 23. Выбор темы и организация проектной работы
Тема 24. Консультация по проектам и домашним заданиям
Тема 25. Защита проектных работ
Скачать подробную программу
Выпускной проект
В качестве выпускного проекта будет построена ETL-система на основе Hadoop, включающая в себя:
- Загрузку данных из источников
- Простой Data Lake на основе этих данных с использованием Hive
- Лямбда-архитектуру для реалтайм-аналитики на основе Spark

Процесс обучения

Образовательный процесс происходит ONLINE в формате вебинаров (язык преподавания — русский). В рамках курса слушателям предлагаются к выполнению домашние задания, которые позволяют применить на практике знания, полученные на занятиях. По каждому домашнему заданию преподаватель дает развернутый фидбек. В течение всего учебного процесса преподаватель находится в едином коммуникационном пространстве с группой - Slack, т.е. при обучении слушатель может задавать преподавателю уточняющие вопросы по учебным материалам.
Получить консультацию
Наш специалист свяжется с вами в ближайшее время. Если у вас возникли трудности в выборе курса или проблемы технического плана, то мы с радостью поможем вам.
Спасибо!
Мы получили Вашу заявку, в ближайшее время с Вами свяжется наш менеджер.

  • заберете с собой полный комплект обучающих материалов: видеозаписи всех вебинаров, презентации к занятиям, а также решение задач и проектов в виде кода на github и другие дополнительные материалы;

  • получите сертификат о прохождении курса;

  • получите приглашение пройти собеседование в компаниях-партнерах (эту возможность получают самые успешные студенты).

Дата выдачи сертификата: 18 октября 2021 года
Ваш сертификат

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Экосистема Hadoop, Spark, Hive»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018 года.

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Экосистема Hadoop, Spark, Hive»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018 года.
Прошедшие открытые вебинары
Открытый вебинар — это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.
Тестирование Spark приложений
Вадим Опольский
День открытых дверей
12 мая в 20:00
Для доступа к прошедшим мероприятиям необходимо пройти входное тестирование
Возможность пройти вступительное тестирование повторно появится только через 2 недели
Результаты тестирования будут отправлены вам на e-mail, указанный при регистрации.
Тест рассчитан на 30 минут, после начала тестирования отложить тестирование не получится!
Стоимость обучения
60 000 ₽
Продолжительность
3 месяца
Начало занятий
18 июня