Экосистема Hadoop, Spark, Hive. Курс для Data инженеров
Рассрочка
ПРИ ПОДДЕРЖКЕ
логотип партнера
ПРИ ПОДДЕРЖКЕ
логотип партнера
Рассрочка

Spark Developer

Углубленный курс по самым мощным инструментам обработки больших данных.

Длительность обучения:

4 месяца

4 ак. часа в нед.

Формат:

Online

Начало занятий:

27 July

Дни занятий:

Чт 20:00, Вт 20:00

Что даст вам этот курс

Для кого этот курс:
Курс рассчитан на Data инженеров, желающих глубже изучить Spark, а попутно также Hadoop и Hive

На курсе вы изучите следующие основные темы:

- Hadoop (основные компоненты, дистрибутивы вендоров)
- Архитектура HDFS
- Архитектура YARN
- Форматы данных
- Spark
- Spark Streaming и Flink
- Hive
- Оркестрация, Мониторинг и CI/CD
и т.д.

Научитесь применять все это на практике и закрепите с помощью интересных и сложных домашних заданий и выпускного проекта.

После прохождения курса вы сможете:

- Использовать Hadoop для обработки данных
- Взаимодействовать с его компонентами через консольные клиенты и API
- Работать со слабоструктурированными данными в Hive
- Писать и оптимизировать приложения на Spark
- Писать тесты для Spark-приложений
- Использовать Spark для обработки табличных, потоковых, гео-данных и даже графов
- Настраивать CI и мониторинг Spark-приложений

Карта курсов направления Data Science в OTUS

Преподаватели

Вадим Заигрин
Ведущий эксперт по технологиям, Сбербанк
Алексей Бедринцев
Разработчик в ООО "Почтовые технологии"
Артемий Козырь
Analytics Engineer, Wheely
Виталий Монастырев
Валентин Шилин
Старший программист/аналитик данных Deutsche Telekom IT GmbH
Александра Чащина
Андрей Чучалов
Старший разработчик службы больших данных в компании "Вымпелком - информационные технологии"
Последние несколько лет работаю с большими данными как разработчик, Data Engineer и Data Scientist. Проекты в банках, телеком и розничных компаниях. Опыт работы с Hadoop (Cloudera, Hortonworks), MPP-системами (Teradata, Vertica), фреймворком Spark и Google Cloud Platform. Большой опыт в IT-инфраструктуре. Поработав и как Data Scientist, и как Data Engineer, понимаю, что без Data Engineer'а Data Scientist'у делать нечего.

Место работы: Сбербанк. Управление развития Корпоративной аналитической платформы. Ведущий эксперт по технологиям.

Образование: МИЭМ, специальность: прикладная математика.

Otus Certified Educator

Руководитель программы
Алексей Бедринцев

С 2016 г. работает с Hadoop, Hive. С 2020 г. тесно работает с Airflow.

Ранее занимался атоматизированным тестированием и разработкой десктопных приложений (с 2009 г. основной язык Python).

Образование: ФРТК МФТИ 2012 г., магистр прикладных математики и физики; аспирантура ИППИ РАН.
Автор статей в научных журналах и выступлений на конференциях по анализу данных.

Преподаватель
7+ лет опыта в области Хранилищ Данных, ELT pipelines, Анализа данных и визуализации.
Опыт работы над сервисами в компаниях Wheely, Sber, Moscow Exchange, PwC.
Сферы интересов: Data Modeling, Advanced analytics, Marketing Attribution, Data Quality, DevOps.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Blogging: Technology Enthusiast and Habr
2+ года веду занятия в ОТУС: Data Engineer, Hadoop Ecosystem, DWH Analyst

Otus Certified Educator

Более 3 лет работаю в области больших данных. За это время занимался построением процессов обработки данных, интеграцией моделей машинного обучения на промышленные сервера, работал с облачными вычислениями и многим другим. Большой опыт работы с экосистемой Hadoop: HDFS, Apache Spark, Hive, Apache Phoenix, hBase и т.д.

Open source: принятые pull-request'ы в репозиторий Apache Phoenix.

Образование: с отличием закончил бакалавриат и магистратуру Санкт-Петербургского политехнического университета Петра Великого по направлению "Программная инженерия", в данный момент является аспирантом.

Интересы: в свободное время занимается full-stack разработкой небольшого сервиса-фотохостинга GradCit (доступен под iPhone, iPad и Mac).

Выпускник СПбГУ ПM-ПУ по специальности "Прикладная математика и физика". Профессиональный опыт: 15 лет программирования на С++, С#, JavaScript, Python, Scala, Java.
Эксперт в обработке больших данных с помощью Scala/Spark и Hadoop Cloudera.

Проекты:
- автоматизация документооборота для скандинавских стран в составе команды Aditro (10-15 человек);
- автоматизация метеорадарной станции (программно-аппаратный комплекс управления метеорадаром MRL5) для активного воздействия на погоду (Болгария- Аргентина) (20 человек);
- различные проекты от стартапов до крупных химических предприятий (Eurofins) в Германии с составом команды от 3 до 50 человек.

Текущий проект: обработка сверхбольших данных DSL-метрик и прогнозирование потенциальных проблем на линиях связи в Deutsche Telekom.

Выпускница магистерской программы “Informatique pour la Science de Données (Big Data)” университета Париж-Сакле.

С 2018 года специализируется на больших данных. Участвует в проектах разработки аналитических платформ данных, а также платформ обработки данных в режиме реального времени на 10000+ пользователей. Имеет сертификаты Databricks Spark&Scala и RedHat DevOps. В настоящее время работает со стриминговой обработкой (Kafka), а также внедряет практики DataOps (Gitlab CI/CD, Kubernetes, Liquibase, Airflow).

Преподаватель
Первый раз познакомился с вычислительной техникой 30 лет назад в далеком 1993 году. С тех пор с разной степенью вовлеченности в ИТ-процесс занимался организацией вычислительных сетей, серверных помещений - центров обработки данных. Был как простым специалистом, так и руководителем большого структурного подразделения служб ИТ регионального масштаба. Однако на протяжении всего времени так или иначе неразрывно связан с автоматизацией, программированием, построением архитектурных решений.

В 2002 году познакомился с Java, и с тех пор работает с технологиями на базе JVM. С 2021 года активно увлекся большими данными, чем и занят по настоящее время.

В 2022 году окончил курс на OTUS по программе Data-engineer.

Преподаватель
Вадим
Заигрин
Алексей
Бедринцев
Артемий
Козырь
Виталий
Монастырев
Валентин
Шилин
Александра
Чащина
Андрей
Чучалов

Преподаватели

Вадим Заигрин
Ведущий эксперт по технологиям, Сбербанк
Последние несколько лет работаю с большими данными как разработчик, Data Engineer и Data Scientist. Проекты в банках, телеком и розничных компаниях. Опыт работы с Hadoop (Cloudera, Hortonworks), MPP-системами (Teradata, Vertica), фреймворком Spark и Google Cloud Platform. Большой опыт в IT-инфраструктуре. Поработав и как Data Scientist, и как Data Engineer, понимаю, что без Data Engineer'а Data Scientist'у делать нечего.

Место работы: Сбербанк. Управление развития Корпоративной аналитической платформы. Ведущий эксперт по технологиям.

Образование: МИЭМ, специальность: прикладная математика.

Otus Certified Educator

Руководитель программы
Алексей Бедринцев
Разработчик в ООО "Почтовые технологии"
Алексей Бедринцев

С 2016 г. работает с Hadoop, Hive. С 2020 г. тесно работает с Airflow.

Ранее занимался атоматизированным тестированием и разработкой десктопных приложений (с 2009 г. основной язык Python).

Образование: ФРТК МФТИ 2012 г., магистр прикладных математики и физики; аспирантура ИППИ РАН.
Автор статей в научных журналах и выступлений на конференциях по анализу данных.

Преподаватель
Артемий Козырь
Analytics Engineer, Wheely
7+ лет опыта в области Хранилищ Данных, ELT pipelines, Анализа данных и визуализации.
Опыт работы над сервисами в компаниях Wheely, Sber, Moscow Exchange, PwC.
Сферы интересов: Data Modeling, Advanced analytics, Marketing Attribution, Data Quality, DevOps.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Blogging: Technology Enthusiast and Habr
2+ года веду занятия в ОТУС: Data Engineer, Hadoop Ecosystem, DWH Analyst

Виталий Монастырев
Otus Certified Educator

Более 3 лет работаю в области больших данных. За это время занимался построением процессов обработки данных, интеграцией моделей машинного обучения на промышленные сервера, работал с облачными вычислениями и многим другим. Большой опыт работы с экосистемой Hadoop: HDFS, Apache Spark, Hive, Apache Phoenix, hBase и т.д.

Open source: принятые pull-request'ы в репозиторий Apache Phoenix.

Образование: с отличием закончил бакалавриат и магистратуру Санкт-Петербургского политехнического университета Петра Великого по направлению "Программная инженерия", в данный момент является аспирантом.

Интересы: в свободное время занимается full-stack разработкой небольшого сервиса-фотохостинга GradCit (доступен под iPhone, iPad и Mac).

Валентин Шилин
Старший программист/аналитик данных Deutsche Telekom IT GmbH
Выпускник СПбГУ ПM-ПУ по специальности "Прикладная математика и физика". Профессиональный опыт: 15 лет программирования на С++, С#, JavaScript, Python, Scala, Java.
Эксперт в обработке больших данных с помощью Scala/Spark и Hadoop Cloudera.

Проекты:
- автоматизация документооборота для скандинавских стран в составе команды Aditro (10-15 человек);
- автоматизация метеорадарной станции (программно-аппаратный комплекс управления метеорадаром MRL5) для активного воздействия на погоду (Болгария- Аргентина) (20 человек);
- различные проекты от стартапов до крупных химических предприятий (Eurofins) в Германии с составом команды от 3 до 50 человек.

Текущий проект: обработка сверхбольших данных DSL-метрик и прогнозирование потенциальных проблем на линиях связи в Deutsche Telekom.

Александра Чащина
Выпускница магистерской программы “Informatique pour la Science de Données (Big Data)” университета Париж-Сакле.

С 2018 года специализируется на больших данных. Участвует в проектах разработки аналитических платформ данных, а также платформ обработки данных в режиме реального времени на 10000+ пользователей. Имеет сертификаты Databricks Spark&Scala и RedHat DevOps. В настоящее время работает со стриминговой обработкой (Kafka), а также внедряет практики DataOps (Gitlab CI/CD, Kubernetes, Liquibase, Airflow).

Преподаватель
Андрей Чучалов
Старший разработчик службы больших данных в компании "Вымпелком - информационные технологии"
Первый раз познакомился с вычислительной техникой 30 лет назад в далеком 1993 году. С тех пор с разной степенью вовлеченности в ИТ-процесс занимался организацией вычислительных сетей, серверных помещений - центров обработки данных. Был как простым специалистом, так и руководителем большого структурного подразделения служб ИТ регионального масштаба. Однако на протяжении всего времени так или иначе неразрывно связан с автоматизацией, программированием, построением архитектурных решений.

В 2002 году познакомился с Java, и с тех пор работает с технологиями на базе JVM. С 2021 года активно увлекся большими данными, чем и занят по настоящее время.

В 2022 году окончил курс на OTUS по программе Data-engineer.

Преподаватель

Отзывы

4
Максим
Боровинский
Курсом на данный момент доволен. Были небольшие заминки с задержкой ДЗ, переносом занятий, но это всё незначительно и никак не повлияло на качество обучения.
Читать целиком
Дмитрий
Габидуллин
Записался на данный курс после прохождения Data Engineer с целью закрепить теорию, узнать про новые веяния в направлении.
В целом, полностью удовлетворен, несмотря на мелкие шероховатости (переносы лекций и, как мне показалось, не всегда соответствие пройденной темы на лекции и д/з).
Хотел бы отметить преподавателя Егора Матешука - всегда отличные, проработанные лекции и интересные домашние работы!
Читать целиком
Елена
Попова
Положительные моменты.
Спасибо преподавателям за лекции, презентации и общение во время занятий. Отдельно хочу выделить прекрасную подготовку к занятиям Монастырева Виталия и Матешук Егора.
Понравились домашние задания, удобно, что достаточно поднять контейнер в докере и все окружение готово.
Немного критики)
Преподаватели не отвечают на сообщения в Slack. Для меня это огромный минус, за который курс не могу порекомендовать коллегам. В начале каждой лекции говорится, что все вопросы задавайте в Slack, по факту, они оставались там без ответа. Обратной связи после лекции не было.
По поводу проектной работы. Предложение - либо давать заготовденный список тем, для студентов, у которых отсутствует вдохновение в данные период, либо объявлять гораздо раньше "начинайте думать над темой". Долго времени потратила именно на выбор темы. И на написание самой работы осталось меньше, чем планировала.
В целом обстановка была продуктивная. С преподавателями общаться приятно. Организаторы реагировали быстро. Всем спасибо!
Читать целиком
Александр
Логвинов
Курс для меня был полезен, хоть у меня есть опыт работы со Spark и Flink, мне удалось погрузиться более детально в тонкости работы этих платформ, особенно с точки зрения оптимизации. Преподаватели старались дать углубленные знания, особенно хочу особую благодарность передать Вадиму Ополькому за углубленное понимание предмета, важные уточнения именно в продуктовой обработке Spark и очень мощное введение в оптимизацию Flink. Очень понравилось по использовать Spark ML и создать модель, хотелось бы расширить этот раздел, так как сходу было сложно включиться в эту тему. Впечатлили разделы по hive, что это важная часть больших данных, которые я избегал. В целом курс удался для применения в продуктовой разработке и систематизирования знаний. Спасибо!
Читать целиком
Максим
Боровинский
Курсом на данный момент доволен. Были небольшие заминки с задержкой ДЗ, переносом занятий, но это всё незначительно и никак не повлияло на качество обучения.
Читать целиком
Дмитрий
Габидуллин
Записался на данный курс после прохождения Data Engineer с целью закрепить теорию, узнать про новые веяния в направлении.
В целом, полностью удовлетворен, несмотря на мелкие шероховатости (переносы лекций и, как мне показалось, не всегда соответствие пройденной темы на лекции и д/з).
Хотел бы отметить преподавателя Егора Матешука - всегда отличные, проработанные лекции и интересные домашние работы!
Читать целиком
Елена
Попова
Положительные моменты.
Спасибо преподавателям за лекции, презентации и общение во время занятий. Отдельно хочу выделить прекрасную подготовку к занятиям Монастырева Виталия и Матешук Егора.
Понравились домашние задания, удобно, что достаточно поднять контейнер в докере и все окружение готово.
Немного критики)
Преподаватели не отвечают на сообщения в Slack. Для меня это огромный минус, за который курс не могу порекомендовать коллегам. В начале каждой лекции говорится, что все вопросы задавайте в Slack, по факту, они оставались там без ответа. Обратной связи после лекции не было.
По поводу проектной работы. Предложение - либо давать заготовденный список тем, для студентов, у которых отсутствует вдохновение в данные период, либо объявлять гораздо раньше "начинайте думать над темой". Долго времени потратила именно на выбор темы. И на написание самой работы осталось меньше, чем планировала.
В целом обстановка была продуктивная. С преподавателями общаться приятно. Организаторы реагировали быстро. Всем спасибо!
Читать целиком
Александр
Логвинов
Курс для меня был полезен, хоть у меня есть опыт работы со Spark и Flink, мне удалось погрузиться более детально в тонкости работы этих платформ, особенно с точки зрения оптимизации. Преподаватели старались дать углубленные знания, особенно хочу особую благодарность передать Вадиму Ополькому за углубленное понимание предмета, важные уточнения именно в продуктовой обработке Spark и очень мощное введение в оптимизацию Flink. Очень понравилось по использовать Spark ML и создать модель, хотелось бы расширить этот раздел, так как сходу было сложно включиться в эту тему. Впечатлили разделы по hive, что это важная часть больших данных, которые я избегал. В целом курс удался для применения в продуктовой разработке и систематизирования знаний. Спасибо!
Читать целиком

Необходимые знания

  • Опыт написания кода хотя бы на одном из следующих языков: Python, Java, Scala
  • Базовое знание SQL и опыт работы с любой реляционной базой данных
  • Компьютер или виртуальная машина на Linux с ОЗУ не менее 8 Гб
Корпоративное обучение для ваших сотрудников
Поможем вашей компании развивать команду! Профиты данного курса для компании: Подробное изучение самых популярных баз данных с возможностью сосредоточиться на тех, которые используются в компании / Оптимизированные стабильные системы / Работа над промышленными задачами во время практики
>
Программа обучения
В процессе обучения вы получите комплексные знания и навыки.
C 27 July
Тема 1. Архитектура приложения Spark
Тема 2. Основы Scala
Тема 3. Сборка проектов на Scala
Тема 4. Сборка проектов на Scala. Практика
C 15 August
Тема 5. Hadoop
Тема 6. HDFS
Тема 7. YARN
Тема 8. Занятие «Q&A»
Тема 9. Форматы данных
C 31 August
Тема 10. RDD/Dataframe/Dataset
Тема 11. Занятие «Q&A: RDD/Dataframe/Dataset»
Тема 12. Методы оптимизации приложений Spark
Тема 13. Написание коннекторов для Spark
Тема 14. Spark ML
Тема 15. Тестирование приложений Spark
Тема 16. Q&A
C 26 September
Тема 17. Kafka
Тема 18. Spark Streaming
Тема 19. Structured Streaming
Тема 20. Flink - часть 1
Тема 21. Flink - часть 2
C 12 October
Тема 22. Обзор Hive
Тема 23. HiveQL
C 19 October
Тема 24. Оркестрация процессов обработки данных
Тема 25. Мониторинг и логирование для Spark-приложений
Тема 26. CI/CD для Spark и Hive
C 31 October
Тема 27. Выбор темы и организация проектной работы
Тема 28. Консультация по проектам и домашним заданиям
Тема 29. Spark на k8s
Тема 30. Защита проектных работ
Скачать подробную программу
Выпускной проект
В качестве выпускного проекта будет построена ETL-система на основе Hadoop, включающая в себя:
- Загрузку данных из источников
- Простой Data Lake на основе этих данных с использованием Hive
- Лямбда-архитектуру для реалтайм-аналитики на основе Spark

Процесс обучения

Образовательный процесс происходит ONLINE в формате вебинаров (язык преподавания — русский). В рамках курса слушателям предлагаются к выполнению домашние задания, которые позволяют применить на практике знания, полученные на занятиях. По каждому домашнему заданию преподаватель дает развернутый фидбек. В течение всего учебного процесса преподаватель находится в едином коммуникационном пространстве с группой - Slack, т.е. при обучении слушатель может задавать преподавателю уточняющие вопросы по учебным материалам.
Получить консультацию
Наш специалист свяжется с вами в ближайшее время. Если у вас возникли трудности в выборе курса или проблемы технического плана, то мы с радостью поможем вам.
Спасибо!
Мы получили Вашу заявку, в ближайшее время с Вами свяжется наш менеджер.

  • заберете с собой полный комплект обучающих материалов: видеозаписи всех вебинаров, презентации к занятиям, а также решение задач и проектов в виде кода на github и другие дополнительные материалы;

  • получите сертификат о прохождении курса;

Дата выдачи сертификата: 25 December 2023 года
Ваш сертификат

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Spark Developer»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Директор департамента образования
ООО “Отус Онлайн-Образование”
Анна Фирсова

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018 года.

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Spark Developer»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Директор департамента образования
ООО “Отус Онлайн-Образование”
Анна Фирсова

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018 года.
Прошедшие открытые вебинары
Открытый вебинар — это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.
Spark в Kubernetes
Вадим Опольский
День открытых дверей
8 December 2021 года в 20:00
Для доступа к прошедшим мероприятиям необходимо пройти входное тестирование
Возможность пройти вступительное тестирование повторно появится только через 2 недели
Результаты тестирования будут отправлены вам на email, указанный при регистрации.
Тест рассчитан на 30 минут, после начала тестирования отложить тестирование не получится!

Партнеры ждут выпускников этого курса

Стоимость обучения
Cтоимость указана для оплаты физическими лицами
65 000 ₽
Продолжительность
4 месяца
Начало занятий
27 July