Экосистема Hadoop, Spark, Hive. Курс для Data инженеров

Курсы

Программирование
Разработчик на Spring Framework C# ASP.NET Core разработчик iOS Developer. Basic Специализация iOS iOS Developer. Professional Архитектура и шаблоны проектирования Разработчик программных роботов (RPA) на базе UiPath и PIX Разработчик IoT Node.js Developer Java Developer. Professional
-19%
Microservice Architecture Unreal Engine Game Developer Scala-разработчик Java Developer. Basic HTML/CSS Специализация C++ Developer C++ Developer. Professional Android Developer. Professional
-20%
PostgreSQL для администраторов баз данных и разработчиков
-20%
C# Developer. Basic Cloud Solution Architecture Software Architect Web-разработчик на Python MS SQL Server Developer Team Lead NoSQL Symfony Framework Unity Game Developer. Professional Специализация PHP Developer Буткемп Java Groovy Developer
Специализации Курсы в разработке Подготовительные курсы Подписка
+7 499 938-92-02
Специальная цена
ПРИ ПОДДЕРЖКЕ
логотип партнера
ПРИ ПОДДЕРЖКЕ
логотип партнера
Специальная цена

Spark Developer

Углубленный курс по самым мощным инструментам обработки больших данных.

Длительность обучения:

4 месяца

4 ак. часа в нед.

Формат:

Online

Начало занятий:

30 июня

Дни занятий:

Чт 20:00, Вт 20:00

Что даст вам этот курс

Для кого этот курс:
Курс рассчитан на Data инженеров, желающих глубже изучить Spark, а попутно также Hadoop и Hive

На курсе вы изучите следующие основные темы:

- Hadoop (основные компоненты, дистрибутивы вендоров)
- Архитектура HDFS
- Архитектура YARN
- Форматы данных
- Spark
- Spark Streaming и Flink
- Hive
- Оркестрация, Мониторинг и CI/CD
и т.д.

Научитесь применять все это на практике и закрепите с помощью интересных и сложных домашних заданий и выпускного проекта.

После прохождения курса вы сможете:

- Использовать Hadoop для обработки данных
- Взаимодействовать с его компонентами через консольные клиенты и API
- Работать со слабоструктурированными данными в Hive
- Писать и оптимизировать приложения на Spark
- Писать тесты для Spark-приложений
- Использовать Spark для обработки табличных, потоковых, гео-данных и даже графов
- Настраивать CI и мониторинг Spark-приложений

Карта курсов направления Data Science в OTUS

Дата инженер и Spark в новых реалиях., 14 июня в 20:00
На открытом уроке разберем:
Как изменятся источники и получатели данных, объемы данных, языки для ETL, кластера, облака и IDE.
Как изменится потребность на рынке в дата инженере и к чему нужно быть готовым.
Обсудим open source технологии, примеры миграционных проектов.
Ведет
Вадим
Опольский
Предыдущий открытый вебинар
Spark в Kubernetes, 23 июня в 20:00
Рассмотрим особенности и варианты запуска Spark в Kubernetes
Вадим
Заигрин
Предыдущий открытый вебинар

Преподаватели

Егор Матешук
CDO AdTech-компании Квант
Руслан Сабитов
Mail.Ru Group, Senior Developer
Виталий Монастырев
Артемий Козырь
Analytics Engineer, Wheely
Вадим Заигрин
Software Engineering Team Lead, Teradata
Максим Мигутин
Вадим Опольский
Luxoft DXC Technology, Scala Big Data разработчик
Последние 6 лет работает с большими данными: строит системы для обработки данных, консультирует по вопросам построения аналитических решений.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Затем занимал аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы). На данный момент является CDO AdTech-компании Квант.
Большой опыт работы с сервисами Hadoop (HDFS, Hive, Impala), оркестраторами (Airflow, Oozie), MPP-базами (Vertica, Kudu, Greenplum) и различными фреймворками для обработки данных (Spark, Flink).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Преподаватель
Работал на Московской бирже, в департаменте информационных технологий Национального клирингового центра, занимался внедрением системы обязательной и налоговой отчётности на базе Hadoop. Разработал архитектуру системы и успешно внедрил в промышленную эксплуатацию несколько кластеров Hadoop.

В Mail.ru занимается поддержкой нескольких промышленных кластеров Hadoop. Самый крупный из них состоит из почти 700 нод общим объёмом более 50 Пб. Основной сервис — HBase, на базе которого строятся вспомогательные индексы для работы Поиска Mail.ru. Разработал систему мониторинга задач MapReduce, которая позволила анализировать производительность отдельных задач на протяжении времени.

В 2017 году прошёл обучение в Лондоне и стал сертифицированным администратором Hortonworks https://bcert.me/bc/html/show-badge.html?b=rgeppkg

Otus Certified Educator

Более 3 лет работаю в области больших данных. За это время занимался построением процессов обработки данных, интеграцией моделей машинного обучения на промышленные сервера, работал с облачными вычислениями и многим другим. Большой опыт работы с экосистемой Hadoop: HDFS, Apache Spark, Hive, Apache Phoenix, hBase и т.д.

Open source: принятые pull-request'ы в репозиторий Apache Phoenix.

Образование: с отличием закончил бакалавриат и магистратуру Санкт-Петербургского политехнического университета Петра Великого по направлению "Программная инженерия", в данный момент является аспирантом.

Интересы: в свободное время занимается full-stack разработкой небольшого сервиса-фотохостинга GradCit (доступен под iPhone, iPad и Mac).

Преподаватель
7+ лет опыта в области Хранилищ Данных, ELT pipelines, Анализа данных и визуализации.
Опыт работы над сервисами в компаниях Wheely, Sber, Moscow Exchange, PwC.
Сферы интересов: Data Modeling, Advanced analytics, Marketing Attribution, Data Quality, DevOps.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Blogging: Technology Enthusiast and Habr
2+ года веду занятия в ОТУС: Data Engineer, Hadoop Ecosystem, DWH Analyst

Преподаватель
Последние несколько лет работаю с большими данными как разработчик, Data Engineer и Data Scientist. Проекты в банках, телеком и розничных компаниях. Опыт работы с Hadoop (Cloudera, Hortonworks), MPP-системами (Teradata, Vertica), фреймворком Spark и Google Cloud Platform. Большой опыт в IT-инфраструктуре. Поработав и как Data Scientist, и как Data Engineer, понимаю, что без Data Engineer'а Data Scientist'у делать нечего.
Образование: МИЭМ, специальность: прикладная математика.

Otus Certified Educator

Преподаватель
Более 5-ти лет опыта в индустрии Данных & Аналитики в роли внешнего косультанта (IBM) и in-house лидера Data Engineering и Data Science-проектов (Альфа-Банк, Yum! Brands).
Сферы интересов: построение end-to-end аналитических систем, внедрение инструментов Машинного обучения в промышленную эксплуатацию, Рекомендательные системы, MPP-базы данных.
Образование: МГУ им. Ломоносова, математическая кафедра Экономического факультета

Преподаватель
В IT более 15 лет.
Сейчас интересуется технологиями больших данных и функциональным программированием.

Работает в Luxoft DXC Technology на Big Data проекте крупнейшей логиситической компании. Общий поток данных, приходящих в реальном времени, более 400 млн. событий в сутки.

Некоторые из главных достижений:
- участвовал в разработке пилота, в который FaceBook инвестировал 1 500 000 $
- окончил оффлан курс Scala в Тинькофф банке и был среди десяти лучших студентов
- получил сертификат Big Data от mail.ru в 2019 году
- контрибъютор Apache Ignite
- занимал призовые места на международном хакатоне Mercedes Benz Fashion Week и в конференции молодых ученых и специалистов
- сертифицированный Cassandra разработчик
- спикер HighLoad++

Увлекается спортивным ориентированием и может пробежать больше 45 км за 8 часов.

Руководитель программы
Егор
Матешук
Руслан
Сабитов
Виталий
Монастырев
Артемий
Козырь
Вадим
Заигрин
Максим
Мигутин
Вадим
Опольский

Преподаватели

Егор Матешук
CDO AdTech-компании Квант
Последние 6 лет работает с большими данными: строит системы для обработки данных, консультирует по вопросам построения аналитических решений.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Затем занимал аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы). На данный момент является CDO AdTech-компании Квант.
Большой опыт работы с сервисами Hadoop (HDFS, Hive, Impala), оркестраторами (Airflow, Oozie), MPP-базами (Vertica, Kudu, Greenplum) и различными фреймворками для обработки данных (Spark, Flink).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Преподаватель
Руслан Сабитов
Mail.Ru Group, Senior Developer
Работал на Московской бирже, в департаменте информационных технологий Национального клирингового центра, занимался внедрением системы обязательной и налоговой отчётности на базе Hadoop. Разработал архитектуру системы и успешно внедрил в промышленную эксплуатацию несколько кластеров Hadoop.

В Mail.ru занимается поддержкой нескольких промышленных кластеров Hadoop. Самый крупный из них состоит из почти 700 нод общим объёмом более 50 Пб. Основной сервис — HBase, на базе которого строятся вспомогательные индексы для работы Поиска Mail.ru. Разработал систему мониторинга задач MapReduce, которая позволила анализировать производительность отдельных задач на протяжении времени.

В 2017 году прошёл обучение в Лондоне и стал сертифицированным администратором Hortonworks https://bcert.me/bc/html/show-badge.html?b=rgeppkg

Виталий Монастырев
Otus Certified Educator

Более 3 лет работаю в области больших данных. За это время занимался построением процессов обработки данных, интеграцией моделей машинного обучения на промышленные сервера, работал с облачными вычислениями и многим другим. Большой опыт работы с экосистемой Hadoop: HDFS, Apache Spark, Hive, Apache Phoenix, hBase и т.д.

Open source: принятые pull-request'ы в репозиторий Apache Phoenix.

Образование: с отличием закончил бакалавриат и магистратуру Санкт-Петербургского политехнического университета Петра Великого по направлению "Программная инженерия", в данный момент является аспирантом.

Интересы: в свободное время занимается full-stack разработкой небольшого сервиса-фотохостинга GradCit (доступен под iPhone, iPad и Mac).

Преподаватель
Артемий Козырь
Analytics Engineer, Wheely
7+ лет опыта в области Хранилищ Данных, ELT pipelines, Анализа данных и визуализации.
Опыт работы над сервисами в компаниях Wheely, Sber, Moscow Exchange, PwC.
Сферы интересов: Data Modeling, Advanced analytics, Marketing Attribution, Data Quality, DevOps.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Blogging: Technology Enthusiast and Habr
2+ года веду занятия в ОТУС: Data Engineer, Hadoop Ecosystem, DWH Analyst

Преподаватель
Вадим Заигрин
Software Engineering Team Lead, Teradata
Последние несколько лет работаю с большими данными как разработчик, Data Engineer и Data Scientist. Проекты в банках, телеком и розничных компаниях. Опыт работы с Hadoop (Cloudera, Hortonworks), MPP-системами (Teradata, Vertica), фреймворком Spark и Google Cloud Platform. Большой опыт в IT-инфраструктуре. Поработав и как Data Scientist, и как Data Engineer, понимаю, что без Data Engineer'а Data Scientist'у делать нечего.
Образование: МИЭМ, специальность: прикладная математика.

Otus Certified Educator

Преподаватель
Максим Мигутин
Более 5-ти лет опыта в индустрии Данных & Аналитики в роли внешнего косультанта (IBM) и in-house лидера Data Engineering и Data Science-проектов (Альфа-Банк, Yum! Brands).
Сферы интересов: построение end-to-end аналитических систем, внедрение инструментов Машинного обучения в промышленную эксплуатацию, Рекомендательные системы, MPP-базы данных.
Образование: МГУ им. Ломоносова, математическая кафедра Экономического факультета

Преподаватель
Вадим Опольский
Luxoft DXC Technology, Scala Big Data разработчик
В IT более 15 лет.
Сейчас интересуется технологиями больших данных и функциональным программированием.

Работает в Luxoft DXC Technology на Big Data проекте крупнейшей логиситической компании. Общий поток данных, приходящих в реальном времени, более 400 млн. событий в сутки.

Некоторые из главных достижений:
- участвовал в разработке пилота, в который FaceBook инвестировал 1 500 000 $
- окончил оффлан курс Scala в Тинькофф банке и был среди десяти лучших студентов
- получил сертификат Big Data от mail.ru в 2019 году
- контрибъютор Apache Ignite
- занимал призовые места на международном хакатоне Mercedes Benz Fashion Week и в конференции молодых ученых и специалистов
- сертифицированный Cassandra разработчик
- спикер HighLoad++

Увлекается спортивным ориентированием и может пробежать больше 45 км за 8 часов.

Руководитель программы

Отзывы

3
Максим
Боровинский
Курсом на данный момент доволен. Были небольшие заминки с задержкой ДЗ, переносом занятий, но это всё незначительно и никак не повлияло на качество обучения.
Читать целиком
Дмитрий
Габидуллин
Записался на данный курс после прохождения Data Engineer с целью закрепить теорию, узнать про новые веяния в направлении.
В целом, полностью удовлетворен, несмотря на мелкие шероховатости (переносы лекций и, как мне показалось, не всегда соответствие пройденной темы на лекции и д/з).
Хотел бы отметить преподавателя Егора Матешука - всегда отличные, проработанные лекции и интересные домашние работы!
Читать целиком
Елена
Попова
Положительные моменты.
Спасибо преподавателям за лекции, презентации и общение во время занятий. Отдельно хочу выделить прекрасную подготовку к занятиям Монастырева Виталия и Матешук Егора.
Понравились домашние задания, удобно, что достаточно поднять контейнер в докере и все окружение готово.
Немного критики)
Преподаватели не отвечают на сообщения в Slack. Для меня это огромный минус, за который курс не могу порекомендовать коллегам. В начале каждой лекции говорится, что все вопросы задавайте в Slack, по факту, они оставались там без ответа. Обратной связи после лекции не было.
По поводу проектной работы. Предложение - либо давать заготовденный список тем, для студентов, у которых отсутствует вдохновение в данные период, либо объявлять гораздо раньше "начинайте думать над темой". Долго времени потратила именно на выбор темы. И на написание самой работы осталось меньше, чем планировала.
В целом обстановка была продуктивная. С преподавателями общаться приятно. Организаторы реагировали быстро. Всем спасибо!
Читать целиком
Максим
Боровинский
Курсом на данный момент доволен. Были небольшие заминки с задержкой ДЗ, переносом занятий, но это всё незначительно и никак не повлияло на качество обучения.
Читать целиком
Дмитрий
Габидуллин
Записался на данный курс после прохождения Data Engineer с целью закрепить теорию, узнать про новые веяния в направлении.
В целом, полностью удовлетворен, несмотря на мелкие шероховатости (переносы лекций и, как мне показалось, не всегда соответствие пройденной темы на лекции и д/з).
Хотел бы отметить преподавателя Егора Матешука - всегда отличные, проработанные лекции и интересные домашние работы!
Читать целиком
Елена
Попова
Положительные моменты.
Спасибо преподавателям за лекции, презентации и общение во время занятий. Отдельно хочу выделить прекрасную подготовку к занятиям Монастырева Виталия и Матешук Егора.
Понравились домашние задания, удобно, что достаточно поднять контейнер в докере и все окружение готово.
Немного критики)
Преподаватели не отвечают на сообщения в Slack. Для меня это огромный минус, за который курс не могу порекомендовать коллегам. В начале каждой лекции говорится, что все вопросы задавайте в Slack, по факту, они оставались там без ответа. Обратной связи после лекции не было.
По поводу проектной работы. Предложение - либо давать заготовденный список тем, для студентов, у которых отсутствует вдохновение в данные период, либо объявлять гораздо раньше "начинайте думать над темой". Долго времени потратила именно на выбор темы. И на написание самой работы осталось меньше, чем планировала.
В целом обстановка была продуктивная. С преподавателями общаться приятно. Организаторы реагировали быстро. Всем спасибо!
Читать целиком

Необходимые знания

  • Опыт написания кода хотя бы на одном из следующих языков: Python, Java, Scala
  • Базовое знание SQL и опыт работы с любой реляционной базой данных
  • Компьютер или виртуальная машина на Linux с ОЗУ не менее 8 Гб
Корпоративное обучение для ваших сотрудников
>
Программа обучения
В процессе обучения вы получите комплексные знания и навыки.
C 30 июня
Тема 1. Основы Scala
Тема 2. Сборка проектов на Scala
Тема 3. Сборка проектов на Scala. Практика
C 14 июля
Тема 4. Hadoop
Тема 5. HDFS
Тема 6. YARN
Тема 7. Форматы данных
Тема 8. Q&A
C 2 августа
Тема 9. Архитектура приложения Spark
Тема 10. RDD/Dataframe/Dataset
Тема 11. Методы оптимизации приложений Spark
Тема 12. Написание коннекторов для Spark
Тема 13. Тестирование приложений Spark
Тема 14. Spark ML
C 30 августа
Тема 15. Kafka
Тема 16. Spark Streaming
Тема 17. Structured Streaming
Тема 18. Flink - часть 1
Тема 19. Flink - часть 2
Тема 20. Q&A
C 20 сентября
Тема 21. Обзор Hive
Тема 22. HiveQL
C 27 сентября
Тема 23. Оркестрация процессов обработки данных
Тема 24. Мониторинг и логирование для Spark-приложений
Тема 25. CI/CD для Spark и Hive
Тема 26. Q&A
C 11 октября
Тема 27. Выбор темы и организация проектной работы
Тема 28. Консультация по проектам и домашним заданиям
Тема 29. Защита проектных работ
Скачать подробную программу
Выпускной проект
В качестве выпускного проекта будет построена ETL-система на основе Hadoop, включающая в себя:
- Загрузку данных из источников
- Простой Data Lake на основе этих данных с использованием Hive
- Лямбда-архитектуру для реалтайм-аналитики на основе Spark

Процесс обучения

Образовательный процесс происходит ONLINE в формате вебинаров (язык преподавания — русский). В рамках курса слушателям предлагаются к выполнению домашние задания, которые позволяют применить на практике знания, полученные на занятиях. По каждому домашнему заданию преподаватель дает развернутый фидбек. В течение всего учебного процесса преподаватель находится в едином коммуникационном пространстве с группой - Slack, т.е. при обучении слушатель может задавать преподавателю уточняющие вопросы по учебным материалам.
Получить консультацию
Наш специалист свяжется с вами в ближайшее время. Если у вас возникли трудности в выборе курса или проблемы технического плана, то мы с радостью поможем вам.
Спасибо!
Мы получили Вашу заявку, в ближайшее время с Вами свяжется наш менеджер.

  • заберете с собой полный комплект обучающих материалов: видеозаписи всех вебинаров, презентации к занятиям, а также решение задач и проектов в виде кода на github и другие дополнительные материалы;

  • получите сертификат о прохождении курса;

  • получите приглашение пройти собеседование в компаниях-партнерах (эту возможность получают самые успешные студенты).

Дата выдачи сертификата: 27 ноября 2022 года
Ваш сертификат

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Spark Developer»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Директор департамента образования
ООО “Отус Онлайн-Образование”
Анна Фирсова

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018 года.

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Spark Developer»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Директор департамента образования
ООО “Отус Онлайн-Образование”
Анна Фирсова

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018 года.
Прошедшие открытые вебинары
Открытый вебинар — это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.
Введение в Оркестрацию
Максим Мигутин
День открытых дверей
8 декабря 2021 года в 20:00
Для доступа к прошедшим мероприятиям необходимо пройти входное тестирование
Возможность пройти вступительное тестирование повторно появится только через 2 недели
Результаты тестирования будут отправлены вам на e-mail, указанный при регистрации.
Тест рассчитан на 30 минут, после начала тестирования отложить тестирование не получится!

Партнеры ждут выпускников этого курса

Стоимость обучения
Cтоимость указана для оплаты физическими лицами
45 900 ₽
57 500 ₽
Продолжительность
4 месяца
Начало занятий
30 июня