Экосистема Hadoop, Spark, Hive. Курс для Data инженеров
🚀 OTUS Fest 2021
Бесплатная образовательная онлайн-конференция для IT-специалистов.
Подробнее

Курсы

Программирование
Backend-разработчик на PHP
-9%
Алгоритмы и структуры данных
-9%
Team Lead
-6%
Архитектура и шаблоны проектирования Разработчик IoT
-13%
C# Developer. Professional
-9%
HTML/CSS
-11%
C# ASP.NET Core разработчик
-5%
Kotlin Backend Developer
-8%
iOS Developer. Professional
-8%
Java Developer. Basic C++ Developer. Professional Web-разработчик на Python MS SQL Server Developer Android Developer. Basic Разработчик программных роботов (RPA) на базе UiPath и PIX Microservice Architecture Unity Game Developer. Basic Разработчик голосовых ассистентов и чат-ботов React.js Developer Node.js Developer Интенсив «Оптимизация в Java» Супер - интенсив по паттернам проектирования Супер - интенсив по Kubernetes JavaScript Developer. Basic Unity Game Developer. Professional Супер-интенсив Azure
Инфраструктура
Экспресс-курс «IaC Ansible»
-10%
Administrator Linux.Basic
-10%
Мониторинг и логирование: Zabbix, Prometheus, ELK
-10%
Экспресс-курс «CI/CD или Непрерывная поставка с Docker и Kubernetes»
-30%
Administrator Linux. Professional
-6%
Дизайн сетей ЦОД
-13%
NoSQL Основы Windows Server MS SQL Server Developer Инфраструктурная платформа на основе Kubernetes Cloud Solution Architecture Highload Architect Разработчик голосовых ассистентов и чат-ботов VOIP инженер Супер-практикум по работе с протоколом BGP Супер - интенсив по паттернам проектирования Супер - интенсив по Kubernetes Супер-интенсив "Tarantool"
Специализации Курсы в разработке Подготовительные курсы
+7 499 938-92-02
Специальная цена
Специальная цена

Экосистема Hadoop, Spark, Hive

Углубленный курс по самым мощным инструментам обработки больших данных.

Длительность обучения:

3 месяца

4 ак. часа в нед.

Формат:

Online

Начало занятий:

28 мая

Дни занятий:

Пт 20:00, Ср 20:00

Что даст вам этот курс

Для кого этот курс:
Курс рассчитан на Data инженеров, желающих глубже изучить Spark, Hadoop, Hive

На курсе вы изучите следующие основные темы:

- Hadoop (основные компоненты, дистрибутивы вендоров)
- Архитектура HDFS
- Архитектура YARN
- Форматы данных
- Spark
- Spark Streaming и Flink
- Hive
- Оркестрация, Мониторинг и CI/CD
и т.д.

Научитесь применять все это на практике и закрепите с помощью интересных и сложных домашних заданий и выпускного проекта.

После прохождения курса вы сможете:

- Использовать Hadoop для обработки данных
- Взаимодействовать с его компонентами через консольные клиенты и API
- Работать со слабоструктурированными данными в Hive
- Писать и оптимизировать приложения на Spark
- Писать тесты для Spark-приложений
- Использовать Spark для обработки табличных, потоковых, гео-данных и даже графов
- Настраивать CI и мониторинг Spark-приложений

Введение в Оркестрацию, 6 мая в 20:00
На сегодняшний день, инструменты Оркестрации - это отраслевой стандарт для организации получения, обработки и сохранения данных из сотен и даже тысяч разнородных источников с разнообразной частотой обновления и природой.

Сценарии использования платформ Оркестрации разнообразны: вы можете просто организовать регулярные select -> group by-> insert из production базы данных в "холодную" реплику под аналитику, а можете написать целый сервис, который будет раз в час обновлять данные, дообучать ML-модель и поставлять актуальные прогнозные значения конечным пользователям.

Данная технология - неотъемлемый инструмент в арсенале современного Data Engineer и администратора вычислительного кластера.

На Открытом Уроке мы подробно разберем, что же такое платформы Оркестрации, какие решения есть сегодня на рынке и даже углубимся в практический пример использования одной из самых распространенных платформ на сегодня: Apache Airflow.

Приходите, будет интересно!
Ведет
Максим
Мигутин
Предыдущий открытый вебинар
Demo day онлайн-курса «Экосистема Hadoop, Spark, Hive», 12 мая в 20:00
Demo Day — отличная возможность задать все вопросы по курсу, узнать подробнее о программе курса, особенностях онлайн-формата, навыках, компетенциях и перспективах, которые ждут выпускников после обучения.

Преподаватель-практик расскажет о себе, своём опыте, поделится лайфхаками по выгодной оплате курса.

Готовьте вопросы, сдавайте вступительный тест и присоединяйтесь!
Егор
Матешук
Предыдущий день открытых дверей

Преподаватели

Егор Матешук
CDO AdTech-компании Квант
Михаил Юрченков
АО "Максимателеком", Lead Data Engineer
Артемий Козырь
Senior Data Engineer, Wheely
Вадим Заигрин
Software Engineering Team Lead, Teradata
Максим Мигутин
Вадим Опольский
Luxoft DXC Technology, Scala Big Data разработчик
Последние 6 лет работает с большими данными: строит системы для обработки данных, консультирует по вопросам построения аналитических решений.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Затем занимал аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы). На данный момент является CDO AdTech-компании Квант.
Большой опыт работы с сервисами Hadoop (HDFS, Hive, Impala), оркестраторами (Airflow, Oozie), MPP-базами (Vertica, Kudu, Greenplum) и различными фреймворками для обработки данных (Spark, Flink).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Окончил Факультет Компьютерных Наук НИУ ВШЭ. Занимается разработкой ПО с 2015 года.
Начинал в качестве разработчика Веб-сервисов на Ruby on Rails, позже занялся разработкой микросервисов на Scala (Spray, Akka). Сейчас занимается разработкой систем телеметрических больших данных в режиме реального времени.

Интересы: Scala, Haskell, высоконагруженные сервисы, обработка больших объемов данных.

Более 5-ти лет опыта работы с Хранилищами Данных, построении ETL/ELT, Аналитике данных и Визуализации.
Опыт работы над продуктами в компаниях PwC, Московская Биржа, Сбербанк, СИБУР, Wheely.
Сферы интересов: KPIs and Scorecards / Budgeting and Planning / Retail Scoring / Next Best Offer / Reporting.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Образование: НИУ ВШЭ, факультет бизнес-информатики.

Последние несколько лет работаю с большими данными как разработчик, Data Engineer и Data Scientist. Проекты в банках, телеком и розничных компаниях. Опыт работы с Hadoop (Cloudera, Hortonworks), MPP-системами (Teradata, Vertica), фреймворком Spark и Google Cloud Platform. Большой опыт в IT-инфраструктуре. Поработав и как Data Scientist, и как Data Engineer, понимаю, что без Data Engineer'а Data Scientist'у делать нечего.
Образование: МИЭМ, специальность: прикладная математика.

Otus Certified Educator

Более 5-ти лет опыта в индустрии Данных & Аналитики в роли внешнего косультанта (IBM) и in-house лидера Data Engineering и Data Science-проектов (Альфа-Банк, Yum! Brands).
Сферы интересов: построение end-to-end аналитических систем, внедрение инструментов Машинного обучения в промышленную эксплуатацию, Рекомендательные системы, MPP-базы данных.
Образование: МГУ им. Ломоносова, математическая кафедра Экономического факультета

В IT более 15 лет.
Сейчас интересуется технологиями больших данных и функциональным программированием.

Работает в Luxoft DXC Technology на Big Data проекте крупнейшей логиситической компании. Общий поток данных, приходящих в реальном времени, более 400 млн. событий в сутки.

Некоторые из главных достижений:
- участвовал в разработке пилота, в который FaceBook инвестировал 1 500 000 $
- окончил оффлан курс Scala в Тинькофф банке и был среди десяти лучших студентов
- получил сертификат Big Data от mail.ru в 2019 году
- контрибъютор Apache Ignite
- занимал призовые места на международном хакатоне Mercedes Benz Fashion Week и в конференции молодых ученых и специалистов

Увлекается спортивным ориентированием и может пробежать больше 45 км за 8 часов.

Егор
Матешук
Михаил
Юрченков
Артемий
Козырь
Вадим
Заигрин
Максим
Мигутин
Вадим
Опольский

Преподаватели

Егор Матешук
CDO AdTech-компании Квант
Последние 6 лет работает с большими данными: строит системы для обработки данных, консультирует по вопросам построения аналитических решений.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Затем занимал аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы). На данный момент является CDO AdTech-компании Квант.
Большой опыт работы с сервисами Hadoop (HDFS, Hive, Impala), оркестраторами (Airflow, Oozie), MPP-базами (Vertica, Kudu, Greenplum) и различными фреймворками для обработки данных (Spark, Flink).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Михаил Юрченков
АО "Максимателеком", Lead Data Engineer
Окончил Факультет Компьютерных Наук НИУ ВШЭ. Занимается разработкой ПО с 2015 года.
Начинал в качестве разработчика Веб-сервисов на Ruby on Rails, позже занялся разработкой микросервисов на Scala (Spray, Akka). Сейчас занимается разработкой систем телеметрических больших данных в режиме реального времени.

Интересы: Scala, Haskell, высоконагруженные сервисы, обработка больших объемов данных.

Артемий Козырь
Senior Data Engineer, Wheely
Более 5-ти лет опыта работы с Хранилищами Данных, построении ETL/ELT, Аналитике данных и Визуализации.
Опыт работы над продуктами в компаниях PwC, Московская Биржа, Сбербанк, СИБУР, Wheely.
Сферы интересов: KPIs and Scorecards / Budgeting and Planning / Retail Scoring / Next Best Offer / Reporting.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Образование: НИУ ВШЭ, факультет бизнес-информатики.

Вадим Заигрин
Software Engineering Team Lead, Teradata
Последние несколько лет работаю с большими данными как разработчик, Data Engineer и Data Scientist. Проекты в банках, телеком и розничных компаниях. Опыт работы с Hadoop (Cloudera, Hortonworks), MPP-системами (Teradata, Vertica), фреймворком Spark и Google Cloud Platform. Большой опыт в IT-инфраструктуре. Поработав и как Data Scientist, и как Data Engineer, понимаю, что без Data Engineer'а Data Scientist'у делать нечего.
Образование: МИЭМ, специальность: прикладная математика.

Otus Certified Educator

Максим Мигутин
Более 5-ти лет опыта в индустрии Данных & Аналитики в роли внешнего косультанта (IBM) и in-house лидера Data Engineering и Data Science-проектов (Альфа-Банк, Yum! Brands).
Сферы интересов: построение end-to-end аналитических систем, внедрение инструментов Машинного обучения в промышленную эксплуатацию, Рекомендательные системы, MPP-базы данных.
Образование: МГУ им. Ломоносова, математическая кафедра Экономического факультета

Вадим Опольский
Luxoft DXC Technology, Scala Big Data разработчик
В IT более 15 лет.
Сейчас интересуется технологиями больших данных и функциональным программированием.

Работает в Luxoft DXC Technology на Big Data проекте крупнейшей логиситической компании. Общий поток данных, приходящих в реальном времени, более 400 млн. событий в сутки.

Некоторые из главных достижений:
- участвовал в разработке пилота, в который FaceBook инвестировал 1 500 000 $
- окончил оффлан курс Scala в Тинькофф банке и был среди десяти лучших студентов
- получил сертификат Big Data от mail.ru в 2019 году
- контрибъютор Apache Ignite
- занимал призовые места на международном хакатоне Mercedes Benz Fashion Week и в конференции молодых ученых и специалистов

Увлекается спортивным ориентированием и может пробежать больше 45 км за 8 часов.

Отзывы

2
Максим
Боровинский
Курсом на данный момент доволен. Были небольшие заминки с задержкой ДЗ, переносом занятий, но это всё незначительно и никак не повлияло на качество обучения.
Читать целиком
Дмитрий
Габидуллин
Записался на данный курс после прохождения Data Engineer с целью закрепить теорию, узнать про новые веяния в направлении.
В целом, полностью удовлетворен, несмотря на мелкие шероховатости (переносы лекций и, как мне показалось, не всегда соответствие пройденной темы на лекции и д/з).
Хотел бы отметить преподавателя Егора Матешука - всегда отличные, проработанные лекции и интересные домашние работы!
Читать целиком
Максим
Боровинский
Курсом на данный момент доволен. Были небольшие заминки с задержкой ДЗ, переносом занятий, но это всё незначительно и никак не повлияло на качество обучения.
Читать целиком
Дмитрий
Габидуллин
Записался на данный курс после прохождения Data Engineer с целью закрепить теорию, узнать про новые веяния в направлении.
В целом, полностью удовлетворен, несмотря на мелкие шероховатости (переносы лекций и, как мне показалось, не всегда соответствие пройденной темы на лекции и д/з).
Хотел бы отметить преподавателя Егора Матешука - всегда отличные, проработанные лекции и интересные домашние работы!
Читать целиком

Необходимые знания

  • Опыт написания кода хотя бы на одном из следующих языков: Python, Java, Scala
  • Базовое знание SQL и опыт работы с любой реляционной базой данных
  • Компьютер или виртуальная машина на Linux с ОЗУ не менее 8 Гб
Корпоративное обучение для ваших сотрудников
>
Программа обучения
В процессе обучения вы получите комплексные знания и навыки.
C 28 мая
Тема 1. Основы Scala
Тема 2. Сборка проектов на Scala
C 9 июня
Тема 3. Hadoop
Тема 4. HDFS
Тема 5. YARN
Тема 6. Форматы данных
C 23 июня
Тема 7. Архитектура приложения Spark
Тема 8. RDD/Dataframe/Dataset
Тема 9. Методы оптимизации приложений Spark
Тема 10. Написание коннекторов для Spark
Тема 11. Тестирование приложений Spark
Тема 12. Spark ML
C 14 июля
Тема 13. Kafka
Тема 14. Spark Streaming
Тема 15. Structured Streaming
Тема 16. Flink - часть 1
Тема 17. Flink - часть 2
C 30 июля
Тема 18. Обзор Hive
Тема 19. HiveQL
C 6 августа
Тема 20. Оркестрация процессов обработки данных
Тема 21. Мониторинг и логирование для Spark-приложений
Тема 22. CI/CD для Spark и Hive
C 18 августа
Тема 23. Выбор темы и организация проектной работы
Тема 24. Консультация по проектам и домашним заданиям
Тема 25. Защита проектных работ
Скачать подробную программу
Выпускной проект
В качестве выпускного проекта будет построена ETL-система на основе Hadoop, включающая в себя:
- Загрузку данных из источников
- Простой Data Lake на основе этих данных с использованием Hive
- Лямбда-архитектуру для реалтайм-аналитики на основе Spark

Процесс обучения

Образовательный процесс происходит ONLINE в формате вебинаров (язык преподавания — русский). В рамках курса слушателям предлагаются к выполнению домашние задания, которые позволяют применить на практике знания, полученные на занятиях. По каждому домашнему заданию преподаватель дает развернутый фидбек. В течение всего учебного процесса преподаватель находится в едином коммуникационном пространстве с группой - Slack, т.е. при обучении слушатель может задавать преподавателю уточняющие вопросы по учебным материалам.
Получить консультацию
Наш специалист свяжется с вами в ближайшее время. Если у вас возникли трудности в выборе курса или проблемы технического плана, то мы с радостью поможем вам.
Спасибо!
Мы получили Вашу заявку, в ближайшее время с Вами свяжется наш менеджер.

  • заберете с собой полный комплект обучающих материалов: видеозаписи всех вебинаров, презентации к занятиям, а также решение задач и проектов в виде кода на github и другие дополнительные материалы;

  • получите сертификат о прохождении курса;

  • получите приглашение пройти собеседование в компаниях-партнерах (эту возможность получают самые успешные студенты).

Дата выдачи сертификата: 18 сентября 2021 года
Ваш сертификат

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Экосистема Hadoop, Spark, Hive»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018 года.

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Экосистема Hadoop, Spark, Hive»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018 года.
Прошедшие открытые вебинары
Открытый вебинар — это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.
Spark Data API
Вадим Опольский
День открытых дверей
26 января в 20:00
Для доступа к прошедшим мероприятиям необходимо пройти входное тестирование
Возможность пройти вступительное тестирование повторно появится только через 2 недели
Результаты тестирования будут отправлены вам на e-mail, указанный при регистрации.
Тест рассчитан на 30 минут, после начала тестирования отложить тестирование не получится!
Стоимость обучения
55 000 ₽
60 000 ₽
Продолжительность
3 месяца
Начало занятий
28 мая