Экосистема Hadoop, Spark, Hive. Курс для Data инженеров
⚡ Подписка на курсы OTUS!
Интенсивная прокачка навыков для IT-специалистов!
Подробнее

Курсы

Программирование
C++ Developer. Professional JavaScript Developer. Professional Android Developer. Professional Microservice Architecture React.js Developer JavaScript Developer. Basic PostgreSQL Программист С C++ Developer. Basic Team Lead PHP Developer. Professional Подготовка к сертификации Oracle Java Programmer (OCAJP) Алгоритмы и структуры данных Разработчик IoT C# Developer. Basic Unreal Engine Technical Game Design C# ASP.NET Core разработчик Python Developer. Basic Базы данных Node.js Developer iOS Developer. Professional Cloud Solution Architecture Kotlin Backend Developer Agile Project Manager Scala-разработчик Symfony Framework iOS Developer. Basic Супер-интенсив Azure Специализация Python Developer
Инфраструктура
Экспресс-курс по управлению миграциями (DBVC) Экспресс-курс «IaC Ansible» Microservice Architecture Разработчик программных роботов (RPA) на базе UiPath и PIX Внедрение и работа в DevSecOps NoSQL Специализация Administrator Linux
-24%
Разработчик IoT Мониторинг и логирование: Zabbix, Prometheus, ELK MongoDB
-37%
DevOps практики и инструменты MS SQL Server Developer SRE практики и инструменты Administrator Linux. Advanced Infrastructure as a code Супер-интенсив "Tarantool" Специализация Network engineer
Корпоративные курсы
Экспресс-курс по управлению миграциями (DBVC) Экспресс-курс «IaC Ansible» Разработчик программных роботов (RPA) на базе UiPath и PIX Внедрение и работа в DevSecOps NoSQL Spark Developer Экспресс-курс «CI/CD или Непрерывная поставка с Docker и Kubernetes» Game QA Engineer DevOps практики и инструменты Enterprise Architect Node.js Developer Cloud Solution Architecture Agile Project Manager Супер-практикум по работе с протоколом BGP Infrastructure as a code Промышленный ML на больших данных Супер-интенсив Azure Руководитель поддержки пользователей в IT
Специализации Курсы в разработке Подготовительные курсы Подписка
+7 499 938-92-02

Spark Developer

Углубленный курс по самым мощным инструментам обработки больших данных.

Длительность обучения:

3 месяца

4 ак. часа в нед.

Формат:

Online

Начало занятий:

29 сентября

Дни занятий:

Ср 20:00, Пт 20:00

Что даст вам этот курс

Для кого этот курс:
Курс рассчитан на Data инженеров, желающих глубже изучить Spark, а попутно также Hadoop и Hive

На курсе вы изучите следующие основные темы:

- Hadoop (основные компоненты, дистрибутивы вендоров)
- Архитектура HDFS
- Архитектура YARN
- Форматы данных
- Spark
- Spark Streaming и Flink
- Hive
- Оркестрация, Мониторинг и CI/CD
и т.д.

Научитесь применять все это на практике и закрепите с помощью интересных и сложных домашних заданий и выпускного проекта.

После прохождения курса вы сможете:

- Использовать Hadoop для обработки данных
- Взаимодействовать с его компонентами через консольные клиенты и API
- Работать со слабоструктурированными данными в Hive
- Писать и оптимизировать приложения на Spark
- Писать тесты для Spark-приложений
- Использовать Spark для обработки табличных, потоковых, гео-данных и даже графов
- Настраивать CI и мониторинг Spark-приложений

Приземление данных с помощью Apache Flink, 27 сентября в 20:00
На вебинаре рассмотрим проблемы чтения и записи данных из Apache Kafka. Познакомимся с Apache Flink и посмотрим на стенде, как можно эти проблемы решить.
Ведет
Вадим
Опольский
Предыдущий открытый вебинар

Преподаватели

Егор Матешук
CDO AdTech-компании Квант
Михаил Юрченков
АО "Максимателеком", Lead Data Engineer
Руслан Сабитов
Mail.Ru Group, Senior Developer
Виталий Монастырев
Артемий Козырь
Analytics Engineer, Wheely
Вадим Заигрин
Software Engineering Team Lead, Teradata
Максим Мигутин
Вадим Опольский
Luxoft DXC Technology, Scala Big Data разработчик
Последние 6 лет работает с большими данными: строит системы для обработки данных, консультирует по вопросам построения аналитических решений.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Затем занимал аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы). На данный момент является CDO AdTech-компании Квант.
Большой опыт работы с сервисами Hadoop (HDFS, Hive, Impala), оркестраторами (Airflow, Oozie), MPP-базами (Vertica, Kudu, Greenplum) и различными фреймворками для обработки данных (Spark, Flink).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Преподаватель
Окончил Факультет Компьютерных Наук НИУ ВШЭ. Занимается разработкой ПО с 2015 года.
Начинал в качестве разработчика Веб-сервисов на Ruby on Rails, позже занялся разработкой микросервисов на Scala (Spray, Akka). Сейчас занимается разработкой систем телеметрических больших данных в режиме реального времени.

Интересы: Scala, Haskell, высоконагруженные сервисы, обработка больших объемов данных.

Преподаватель
Работал на Московской бирже, в департаменте информационных технологий Национального клирингового центра, занимался внедрением системы обязательной и налоговой отчётности на базе Hadoop. Разработал архитектуру системы и успешно внедрил в промышленную эксплуатацию несколько кластеров Hadoop.

В Mail.ru занимается поддержкой нескольких промышленных кластеров Hadoop. Самый крупный из них состоит из почти 700 нод общим объёмом более 50 Пб. Основной сервис — HBase, на базе которого строятся вспомогательные индексы для работы Поиска Mail.ru. Разработал систему мониторинга задач MapReduce, которая позволила анализировать производительность отдельных задач на протяжении времени.

В 2017 году прошёл обучение в Лондоне и стал сертифицированным администратором Hortonworks https://bcert.me/bc/html/show-badge.html?b=rgeppkg

Преподаватель
Otus Certified Educator

Более 3 лет работаю в области больших данных. За это время занимался построением процессов обработки данных, интеграцией моделей машинного обучения на промышленные сервера, работал с облачными вычислениями и многим другим. Большой опыт работы с экосистемой Hadoop: HDFS, Apache Spark, Hive, Apache Phoenix, hBase и т.д.

Open source: принятые pull-request'ы в репозиторий Apache Phoenix.

Образование: с отличием закончил бакалавриат и магистратуру Санкт-Петербургского политехнического университета Петра Великого по направлению "Программная инженерия", в данный момент является аспирантом.

Интересы: в свободное время занимается full-stack разработкой небольшого сервиса-фотохостинга GradCit (доступен под iPhone, iPad и Mac).

Преподаватель
7+ лет опыта в области Хранилищ Данных, ELT pipelines, Анализа данных и визуализации.
Опыт работы над сервисами в компаниях Wheely, Sber, Moscow Exchange, PwC.
Сферы интересов: Data Modeling, Advanced analytics, Marketing Attribution, Data Quality, DevOps.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Blogging: Technology Enthusiast and Habr
2+ года веду занятия в ОТУС: Data Engineer, Hadoop Ecosystem, DWH Analyst

Преподаватель
Последние несколько лет работаю с большими данными как разработчик, Data Engineer и Data Scientist. Проекты в банках, телеком и розничных компаниях. Опыт работы с Hadoop (Cloudera, Hortonworks), MPP-системами (Teradata, Vertica), фреймворком Spark и Google Cloud Platform. Большой опыт в IT-инфраструктуре. Поработав и как Data Scientist, и как Data Engineer, понимаю, что без Data Engineer'а Data Scientist'у делать нечего.
Образование: МИЭМ, специальность: прикладная математика.

Otus Certified Educator

Преподаватель
Более 5-ти лет опыта в индустрии Данных & Аналитики в роли внешнего косультанта (IBM) и in-house лидера Data Engineering и Data Science-проектов (Альфа-Банк, Yum! Brands).
Сферы интересов: построение end-to-end аналитических систем, внедрение инструментов Машинного обучения в промышленную эксплуатацию, Рекомендательные системы, MPP-базы данных.
Образование: МГУ им. Ломоносова, математическая кафедра Экономического факультета

Преподаватель
В IT более 15 лет.
Сейчас интересуется технологиями больших данных и функциональным программированием.

Работает в Luxoft DXC Technology на Big Data проекте крупнейшей логиситической компании. Общий поток данных, приходящих в реальном времени, более 400 млн. событий в сутки.

Некоторые из главных достижений:
- участвовал в разработке пилота, в который FaceBook инвестировал 1 500 000 $
- окончил оффлан курс Scala в Тинькофф банке и был среди десяти лучших студентов
- получил сертификат Big Data от mail.ru в 2019 году
- контрибъютор Apache Ignite
- занимал призовые места на международном хакатоне Mercedes Benz Fashion Week и в конференции молодых ученых и специалистов

Увлекается спортивным ориентированием и может пробежать больше 45 км за 8 часов.

Преподаватель
Егор
Матешук
Михаил
Юрченков
Руслан
Сабитов
Виталий
Монастырев
Артемий
Козырь
Вадим
Заигрин
Максим
Мигутин
Вадим
Опольский

Преподаватели

Егор Матешук
CDO AdTech-компании Квант
Последние 6 лет работает с большими данными: строит системы для обработки данных, консультирует по вопросам построения аналитических решений.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Затем занимал аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы). На данный момент является CDO AdTech-компании Квант.
Большой опыт работы с сервисами Hadoop (HDFS, Hive, Impala), оркестраторами (Airflow, Oozie), MPP-базами (Vertica, Kudu, Greenplum) и различными фреймворками для обработки данных (Spark, Flink).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Преподаватель
Михаил Юрченков
АО "Максимателеком", Lead Data Engineer
Окончил Факультет Компьютерных Наук НИУ ВШЭ. Занимается разработкой ПО с 2015 года.
Начинал в качестве разработчика Веб-сервисов на Ruby on Rails, позже занялся разработкой микросервисов на Scala (Spray, Akka). Сейчас занимается разработкой систем телеметрических больших данных в режиме реального времени.

Интересы: Scala, Haskell, высоконагруженные сервисы, обработка больших объемов данных.

Преподаватель
Руслан Сабитов
Mail.Ru Group, Senior Developer
Работал на Московской бирже, в департаменте информационных технологий Национального клирингового центра, занимался внедрением системы обязательной и налоговой отчётности на базе Hadoop. Разработал архитектуру системы и успешно внедрил в промышленную эксплуатацию несколько кластеров Hadoop.

В Mail.ru занимается поддержкой нескольких промышленных кластеров Hadoop. Самый крупный из них состоит из почти 700 нод общим объёмом более 50 Пб. Основной сервис — HBase, на базе которого строятся вспомогательные индексы для работы Поиска Mail.ru. Разработал систему мониторинга задач MapReduce, которая позволила анализировать производительность отдельных задач на протяжении времени.

В 2017 году прошёл обучение в Лондоне и стал сертифицированным администратором Hortonworks https://bcert.me/bc/html/show-badge.html?b=rgeppkg

Преподаватель
Виталий Монастырев
Otus Certified Educator

Более 3 лет работаю в области больших данных. За это время занимался построением процессов обработки данных, интеграцией моделей машинного обучения на промышленные сервера, работал с облачными вычислениями и многим другим. Большой опыт работы с экосистемой Hadoop: HDFS, Apache Spark, Hive, Apache Phoenix, hBase и т.д.

Open source: принятые pull-request'ы в репозиторий Apache Phoenix.

Образование: с отличием закончил бакалавриат и магистратуру Санкт-Петербургского политехнического университета Петра Великого по направлению "Программная инженерия", в данный момент является аспирантом.

Интересы: в свободное время занимается full-stack разработкой небольшого сервиса-фотохостинга GradCit (доступен под iPhone, iPad и Mac).

Преподаватель
Артемий Козырь
Analytics Engineer, Wheely
7+ лет опыта в области Хранилищ Данных, ELT pipelines, Анализа данных и визуализации.
Опыт работы над сервисами в компаниях Wheely, Sber, Moscow Exchange, PwC.
Сферы интересов: Data Modeling, Advanced analytics, Marketing Attribution, Data Quality, DevOps.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Blogging: Technology Enthusiast and Habr
2+ года веду занятия в ОТУС: Data Engineer, Hadoop Ecosystem, DWH Analyst

Преподаватель
Вадим Заигрин
Software Engineering Team Lead, Teradata
Последние несколько лет работаю с большими данными как разработчик, Data Engineer и Data Scientist. Проекты в банках, телеком и розничных компаниях. Опыт работы с Hadoop (Cloudera, Hortonworks), MPP-системами (Teradata, Vertica), фреймворком Spark и Google Cloud Platform. Большой опыт в IT-инфраструктуре. Поработав и как Data Scientist, и как Data Engineer, понимаю, что без Data Engineer'а Data Scientist'у делать нечего.
Образование: МИЭМ, специальность: прикладная математика.

Otus Certified Educator

Преподаватель
Максим Мигутин
Более 5-ти лет опыта в индустрии Данных & Аналитики в роли внешнего косультанта (IBM) и in-house лидера Data Engineering и Data Science-проектов (Альфа-Банк, Yum! Brands).
Сферы интересов: построение end-to-end аналитических систем, внедрение инструментов Машинного обучения в промышленную эксплуатацию, Рекомендательные системы, MPP-базы данных.
Образование: МГУ им. Ломоносова, математическая кафедра Экономического факультета

Преподаватель
Вадим Опольский
Luxoft DXC Technology, Scala Big Data разработчик
В IT более 15 лет.
Сейчас интересуется технологиями больших данных и функциональным программированием.

Работает в Luxoft DXC Technology на Big Data проекте крупнейшей логиситической компании. Общий поток данных, приходящих в реальном времени, более 400 млн. событий в сутки.

Некоторые из главных достижений:
- участвовал в разработке пилота, в который FaceBook инвестировал 1 500 000 $
- окончил оффлан курс Scala в Тинькофф банке и был среди десяти лучших студентов
- получил сертификат Big Data от mail.ru в 2019 году
- контрибъютор Apache Ignite
- занимал призовые места на международном хакатоне Mercedes Benz Fashion Week и в конференции молодых ученых и специалистов

Увлекается спортивным ориентированием и может пробежать больше 45 км за 8 часов.

Преподаватель

Отзывы

2
Максим
Боровинский
Курсом на данный момент доволен. Были небольшие заминки с задержкой ДЗ, переносом занятий, но это всё незначительно и никак не повлияло на качество обучения.
Читать целиком
Дмитрий
Габидуллин
Записался на данный курс после прохождения Data Engineer с целью закрепить теорию, узнать про новые веяния в направлении.
В целом, полностью удовлетворен, несмотря на мелкие шероховатости (переносы лекций и, как мне показалось, не всегда соответствие пройденной темы на лекции и д/з).
Хотел бы отметить преподавателя Егора Матешука - всегда отличные, проработанные лекции и интересные домашние работы!
Читать целиком
Максим
Боровинский
Курсом на данный момент доволен. Были небольшие заминки с задержкой ДЗ, переносом занятий, но это всё незначительно и никак не повлияло на качество обучения.
Читать целиком
Дмитрий
Габидуллин
Записался на данный курс после прохождения Data Engineer с целью закрепить теорию, узнать про новые веяния в направлении.
В целом, полностью удовлетворен, несмотря на мелкие шероховатости (переносы лекций и, как мне показалось, не всегда соответствие пройденной темы на лекции и д/з).
Хотел бы отметить преподавателя Егора Матешука - всегда отличные, проработанные лекции и интересные домашние работы!
Читать целиком

Необходимые знания

  • Опыт написания кода хотя бы на одном из следующих языков: Python, Java, Scala
  • Базовое знание SQL и опыт работы с любой реляционной базой данных
  • Компьютер или виртуальная машина на Linux с ОЗУ не менее 8 Гб
Корпоративное обучение для ваших сотрудников
>
Программа обучения
В процессе обучения вы получите комплексные знания и навыки.
C 29 сентября
Тема 1. Основы Scala
Тема 2. Сборка проектов на Scala
C 8 октября
Тема 3. Hadoop
Тема 4. HDFS
Тема 5. YARN
Тема 6. Форматы данных
Тема 7. Q&A
C 27 октября
Тема 8. Архитектура приложения Spark
Тема 9. RDD/Dataframe/Dataset
Тема 10. Методы оптимизации приложений Spark
Тема 11. Написание коннекторов для Spark
Тема 12. Тестирование приложений Spark
Тема 13. Spark ML
C 19 ноября
Тема 14. Kafka
Тема 15. Spark Streaming
Тема 16. Structured Streaming
Тема 17. Flink - часть 1
Тема 18. Flink - часть 2
Тема 19. Q&A
C 10 декабря
Тема 20. Обзор Hive
Тема 21. HiveQL
C 17 декабря
Тема 22. Оркестрация процессов обработки данных
Тема 23. Мониторинг и логирование для Spark-приложений
Тема 24. CI/CD для Spark и Hive
C 29 декабря
Тема 25. Выбор темы и организация проектной работы
Тема 26. Консультация по проектам и домашним заданиям
Тема 27. Защита проектных работ
Скачать подробную программу
Выпускной проект
В качестве выпускного проекта будет построена ETL-система на основе Hadoop, включающая в себя:
- Загрузку данных из источников
- Простой Data Lake на основе этих данных с использованием Hive
- Лямбда-архитектуру для реалтайм-аналитики на основе Spark

Процесс обучения

Образовательный процесс происходит ONLINE в формате вебинаров (язык преподавания — русский). В рамках курса слушателям предлагаются к выполнению домашние задания, которые позволяют применить на практике знания, полученные на занятиях. По каждому домашнему заданию преподаватель дает развернутый фидбек. В течение всего учебного процесса преподаватель находится в едином коммуникационном пространстве с группой - Slack, т.е. при обучении слушатель может задавать преподавателю уточняющие вопросы по учебным материалам.
Получить консультацию
Наш специалист свяжется с вами в ближайшее время. Если у вас возникли трудности в выборе курса или проблемы технического плана, то мы с радостью поможем вам.
Спасибо!
Мы получили Вашу заявку, в ближайшее время с Вами свяжется наш менеджер.

  • заберете с собой полный комплект обучающих материалов: видеозаписи всех вебинаров, презентации к занятиям, а также решение задач и проектов в виде кода на github и другие дополнительные материалы;

  • получите сертификат о прохождении курса;

  • получите приглашение пройти собеседование в компаниях-партнерах (эту возможность получают самые успешные студенты).

Дата выдачи сертификата: 19 января 2022 года
Ваш сертификат

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Spark Developer»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Директор департамента образования
ООО “Отус Онлайн-Образование”
Анна Фирсова

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018 года.

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Spark Developer»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Директор департамента образования
ООО “Отус Онлайн-Образование”
Анна Фирсова

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018 года.
Прошедшие открытые вебинары
Открытый вебинар — это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.
Тестирование Spark приложений
Вадим Опольский
День открытых дверей
7 сентября в 15:00
Для доступа к прошедшим мероприятиям необходимо пройти входное тестирование
Возможность пройти вступительное тестирование повторно появится только через 2 недели
Результаты тестирования будут отправлены вам на e-mail, указанный при регистрации.
Тест рассчитан на 30 минут, после начала тестирования отложить тестирование не получится!
Стоимость обучения
70 000 ₽
Продолжительность
3 месяца
Начало занятий
29 сентября