Экосистема Hadoop, Spark, Hive. Курс для Data инженеров

Курсы

Программирование
Выбор профессии в IT
-99%
Разработчик на Spring Framework Python Developer. Basic Специализация Python Developer Python Developer. Professional Golang Developer. Professional Scala-разработчик Специализация iOS Angular Developer JavaScript Developer. Professional Java Developer. Professional Microservice Architecture Highload Architect Node.js Developer Kotlin Backend Developer. Professional Java Developer. Basic HTML/CSS Специализация C++ Developer C++ Developer. Professional PHP Developer. Professional Agile Project Manager PostgreSQL для администраторов баз данных и разработчиков MS SQL Server Developer Unreal Engine Game Developer. Professional Web-разработчик на Python Cloud Solution Architecture Flutter Mobile Developer PHP Developer. Basic Специализация PHP Developer Rust Developer Буткемп Java Unity VR/AR Developer
Специализации Курсы в разработке Подготовительные курсы Подписка
+7 499 938-92-02
ПРИ ПОДДЕРЖКЕ
логотип партнера
ПРИ ПОДДЕРЖКЕ
логотип партнера

Spark Developer

Углубленный курс по самым мощным инструментам обработки больших данных.

Длительность обучения:

4 месяца

4 ак. часа в нед.

Формат:

Online

Начало занятий:

27 декабря

Дни занятий:

Вт 20:00, Чт 20:00

Что даст вам этот курс

Для кого этот курс:
Курс рассчитан на Data инженеров, желающих глубже изучить Spark, а попутно также Hadoop и Hive

На курсе вы изучите следующие основные темы:

- Hadoop (основные компоненты, дистрибутивы вендоров)
- Архитектура HDFS
- Архитектура YARN
- Форматы данных
- Spark
- Spark Streaming и Flink
- Hive
- Оркестрация, Мониторинг и CI/CD
и т.д.

Научитесь применять все это на практике и закрепите с помощью интересных и сложных домашних заданий и выпускного проекта.

После прохождения курса вы сможете:

- Использовать Hadoop для обработки данных
- Взаимодействовать с его компонентами через консольные клиенты и API
- Работать со слабоструктурированными данными в Hive
- Писать и оптимизировать приложения на Spark
- Писать тесты для Spark-приложений
- Использовать Spark для обработки табличных, потоковых, гео-данных и даже графов
- Настраивать CI и мониторинг Spark-приложений

Карта курсов направления Data Science в OTUS

Использование коннекторов для Spark, 6 декабря в 20:00
Поговорим о том, какие коннекторы используются Spark из коробки, какие коннекторы подключаются из библиотек, а какие и когда надо писать самому.

Кому подходит этот урок:
- IT-специалистам которые хотят перейти в BIG Data
- Начинающим дата-инженерам, желающим углубиться в профессию
- Тем кто самостоятельно изучает технологии Big Data
- Новички получат первый опыт и узнают как работать с данными
- Узнаете какие навыки востребованы на рынке труда
- Каким инструментарием обязан обладать для решения задач"
Ведет
Вадим
Опольский
Предыдущий открытый вебинар

Преподаватели

Вадим Опольский
Luxoft DXC Technology, Scala Big Data разработчик
Алексей Бедринцев
Разработчик в ООО "Почтовые технологии"
Егор Матешук
CDO AdTech-компании Квант
Виталий Монастырев
Артемий Козырь
Analytics Engineer, Wheely
Вадим Заигрин
Ведущий эксперт по технологиям, Сбербанк
Максим Мигутин
Александр Устинов
В IT более 15 лет.
Сейчас интересуется технологиями больших данных и функциональным программированием.

Работает в Luxoft DXC Technology на Big Data проекте крупнейшей логиситической компании. Общий поток данных, приходящих в реальном времени, более 400 млн. событий в сутки.

Некоторые из главных достижений:
- участвовал в разработке пилота, в который FaceBook инвестировал 1 500 000 $
- окончил оффлан курс Scala в Тинькофф банке и был среди десяти лучших студентов
- получил сертификат Big Data от mail.ru в 2019 году
- контрибъютор Apache Ignite
- занимал призовые места на международном хакатоне Mercedes Benz Fashion Week и в конференции молодых ученых и специалистов
- сертифицированный Cassandra разработчик
- спикер HighLoad++

Увлекается спортивным ориентированием и может пробежать больше 45 км за 8 часов.

Руководитель программы
Алексей Бедринцев

С 2016 г. работает с Hadoop, Hive. С 2020 г. тесно работает с Airflow.

Ранее занимался атоматизированным тестированием и разработкой десктопных приложений (с 2009 г. основной язык Python).

Образование: ФРТК МФТИ 2012 г., магистр прикладных математики и физики; аспирантура ИППИ РАН.
Автор статей в научных журналах и выступлений на конференциях по анализу данных.

Преподаватель
Последние 6 лет работает с большими данными: строит системы для обработки данных, консультирует по вопросам построения аналитических решений.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Затем занимал аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы). На данный момент является CDO AdTech-компании Квант.
Большой опыт работы с сервисами Hadoop (HDFS, Hive, Impala), оркестраторами (Airflow, Oozie), MPP-базами (Vertica, Kudu, Greenplum) и различными фреймворками для обработки данных (Spark, Flink).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Otus Certified Educator

Более 3 лет работаю в области больших данных. За это время занимался построением процессов обработки данных, интеграцией моделей машинного обучения на промышленные сервера, работал с облачными вычислениями и многим другим. Большой опыт работы с экосистемой Hadoop: HDFS, Apache Spark, Hive, Apache Phoenix, hBase и т.д.

Open source: принятые pull-request'ы в репозиторий Apache Phoenix.

Образование: с отличием закончил бакалавриат и магистратуру Санкт-Петербургского политехнического университета Петра Великого по направлению "Программная инженерия", в данный момент является аспирантом.

Интересы: в свободное время занимается full-stack разработкой небольшого сервиса-фотохостинга GradCit (доступен под iPhone, iPad и Mac).

7+ лет опыта в области Хранилищ Данных, ELT pipelines, Анализа данных и визуализации.
Опыт работы над сервисами в компаниях Wheely, Sber, Moscow Exchange, PwC.
Сферы интересов: Data Modeling, Advanced analytics, Marketing Attribution, Data Quality, DevOps.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Blogging: Technology Enthusiast and Habr
2+ года веду занятия в ОТУС: Data Engineer, Hadoop Ecosystem, DWH Analyst

Последние несколько лет работаю с большими данными как разработчик, Data Engineer и Data Scientist. Проекты в банках, телеком и розничных компаниях. Опыт работы с Hadoop (Cloudera, Hortonworks), MPP-системами (Teradata, Vertica), фреймворком Spark и Google Cloud Platform. Большой опыт в IT-инфраструктуре. Поработав и как Data Scientist, и как Data Engineer, понимаю, что без Data Engineer'а Data Scientist'у делать нечего.

Место работы: Сбербанк. Управление развития Корпоративной аналитической платформы. Ведущий эксперт по технологиям.

Образование: МИЭМ, специальность: прикладная математика.

Otus Certified Educator

Преподаватель
Более 5-ти лет опыта в индустрии Данных & Аналитики в роли внешнего консультанта (IBM) и in-house лидера Data Engineering и Data Science-проектов (Альфа-Банк, Yum! Brands).

Сферы интересов: построение end-to-end аналитических систем, внедрение инструментов Машинного обучения в промышленную эксплуатацию, Рекомендательные системы, MPP-базы данных.

Образование: МГУ им. Ломоносова, математическая кафедра Экономического факультета

Работаю инженером данных в Epam Systems. Строю системы для обработки данных. Занимаюсь менторством.

Получил степень магистра по направлению "Интеллектуальный анализ данных". Работал над проектом по прогнозированию потребления электроэнергии энергорайонов РФ.

Начинал свою карьеру в качестве разработчика веб-сервисов на Java.

Вадим
Опольский
Алексей
Бедринцев
Егор
Матешук
Виталий
Монастырев
Артемий
Козырь
Вадим
Заигрин
Максим
Мигутин
Александр
Устинов

Преподаватели

Вадим Опольский
Luxoft DXC Technology, Scala Big Data разработчик
В IT более 15 лет.
Сейчас интересуется технологиями больших данных и функциональным программированием.

Работает в Luxoft DXC Technology на Big Data проекте крупнейшей логиситической компании. Общий поток данных, приходящих в реальном времени, более 400 млн. событий в сутки.

Некоторые из главных достижений:
- участвовал в разработке пилота, в который FaceBook инвестировал 1 500 000 $
- окончил оффлан курс Scala в Тинькофф банке и был среди десяти лучших студентов
- получил сертификат Big Data от mail.ru в 2019 году
- контрибъютор Apache Ignite
- занимал призовые места на международном хакатоне Mercedes Benz Fashion Week и в конференции молодых ученых и специалистов
- сертифицированный Cassandra разработчик
- спикер HighLoad++

Увлекается спортивным ориентированием и может пробежать больше 45 км за 8 часов.

Руководитель программы
Алексей Бедринцев
Разработчик в ООО "Почтовые технологии"
Алексей Бедринцев

С 2016 г. работает с Hadoop, Hive. С 2020 г. тесно работает с Airflow.

Ранее занимался атоматизированным тестированием и разработкой десктопных приложений (с 2009 г. основной язык Python).

Образование: ФРТК МФТИ 2012 г., магистр прикладных математики и физики; аспирантура ИППИ РАН.
Автор статей в научных журналах и выступлений на конференциях по анализу данных.

Преподаватель
Егор Матешук
CDO AdTech-компании Квант
Последние 6 лет работает с большими данными: строит системы для обработки данных, консультирует по вопросам построения аналитических решений.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Затем занимал аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы). На данный момент является CDO AdTech-компании Квант.
Большой опыт работы с сервисами Hadoop (HDFS, Hive, Impala), оркестраторами (Airflow, Oozie), MPP-базами (Vertica, Kudu, Greenplum) и различными фреймворками для обработки данных (Spark, Flink).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Виталий Монастырев
Otus Certified Educator

Более 3 лет работаю в области больших данных. За это время занимался построением процессов обработки данных, интеграцией моделей машинного обучения на промышленные сервера, работал с облачными вычислениями и многим другим. Большой опыт работы с экосистемой Hadoop: HDFS, Apache Spark, Hive, Apache Phoenix, hBase и т.д.

Open source: принятые pull-request'ы в репозиторий Apache Phoenix.

Образование: с отличием закончил бакалавриат и магистратуру Санкт-Петербургского политехнического университета Петра Великого по направлению "Программная инженерия", в данный момент является аспирантом.

Интересы: в свободное время занимается full-stack разработкой небольшого сервиса-фотохостинга GradCit (доступен под iPhone, iPad и Mac).

Артемий Козырь
Analytics Engineer, Wheely
7+ лет опыта в области Хранилищ Данных, ELT pipelines, Анализа данных и визуализации.
Опыт работы над сервисами в компаниях Wheely, Sber, Moscow Exchange, PwC.
Сферы интересов: Data Modeling, Advanced analytics, Marketing Attribution, Data Quality, DevOps.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Blogging: Technology Enthusiast and Habr
2+ года веду занятия в ОТУС: Data Engineer, Hadoop Ecosystem, DWH Analyst

Вадим Заигрин
Ведущий эксперт по технологиям, Сбербанк
Последние несколько лет работаю с большими данными как разработчик, Data Engineer и Data Scientist. Проекты в банках, телеком и розничных компаниях. Опыт работы с Hadoop (Cloudera, Hortonworks), MPP-системами (Teradata, Vertica), фреймворком Spark и Google Cloud Platform. Большой опыт в IT-инфраструктуре. Поработав и как Data Scientist, и как Data Engineer, понимаю, что без Data Engineer'а Data Scientist'у делать нечего.

Место работы: Сбербанк. Управление развития Корпоративной аналитической платформы. Ведущий эксперт по технологиям.

Образование: МИЭМ, специальность: прикладная математика.

Otus Certified Educator

Преподаватель
Максим Мигутин
Более 5-ти лет опыта в индустрии Данных & Аналитики в роли внешнего консультанта (IBM) и in-house лидера Data Engineering и Data Science-проектов (Альфа-Банк, Yum! Brands).

Сферы интересов: построение end-to-end аналитических систем, внедрение инструментов Машинного обучения в промышленную эксплуатацию, Рекомендательные системы, MPP-базы данных.

Образование: МГУ им. Ломоносова, математическая кафедра Экономического факультета

Александр Устинов
Работаю инженером данных в Epam Systems. Строю системы для обработки данных. Занимаюсь менторством.

Получил степень магистра по направлению "Интеллектуальный анализ данных". Работал над проектом по прогнозированию потребления электроэнергии энергорайонов РФ.

Начинал свою карьеру в качестве разработчика веб-сервисов на Java.

Отзывы

3
Максим
Боровинский
Курсом на данный момент доволен. Были небольшие заминки с задержкой ДЗ, переносом занятий, но это всё незначительно и никак не повлияло на качество обучения.
Читать целиком
Дмитрий
Габидуллин
Записался на данный курс после прохождения Data Engineer с целью закрепить теорию, узнать про новые веяния в направлении.
В целом, полностью удовлетворен, несмотря на мелкие шероховатости (переносы лекций и, как мне показалось, не всегда соответствие пройденной темы на лекции и д/з).
Хотел бы отметить преподавателя Егора Матешука - всегда отличные, проработанные лекции и интересные домашние работы!
Читать целиком
Елена
Попова
Положительные моменты.
Спасибо преподавателям за лекции, презентации и общение во время занятий. Отдельно хочу выделить прекрасную подготовку к занятиям Монастырева Виталия и Матешук Егора.
Понравились домашние задания, удобно, что достаточно поднять контейнер в докере и все окружение готово.
Немного критики)
Преподаватели не отвечают на сообщения в Slack. Для меня это огромный минус, за который курс не могу порекомендовать коллегам. В начале каждой лекции говорится, что все вопросы задавайте в Slack, по факту, они оставались там без ответа. Обратной связи после лекции не было.
По поводу проектной работы. Предложение - либо давать заготовденный список тем, для студентов, у которых отсутствует вдохновение в данные период, либо объявлять гораздо раньше "начинайте думать над темой". Долго времени потратила именно на выбор темы. И на написание самой работы осталось меньше, чем планировала.
В целом обстановка была продуктивная. С преподавателями общаться приятно. Организаторы реагировали быстро. Всем спасибо!
Читать целиком
Максим
Боровинский
Курсом на данный момент доволен. Были небольшие заминки с задержкой ДЗ, переносом занятий, но это всё незначительно и никак не повлияло на качество обучения.
Читать целиком
Дмитрий
Габидуллин
Записался на данный курс после прохождения Data Engineer с целью закрепить теорию, узнать про новые веяния в направлении.
В целом, полностью удовлетворен, несмотря на мелкие шероховатости (переносы лекций и, как мне показалось, не всегда соответствие пройденной темы на лекции и д/з).
Хотел бы отметить преподавателя Егора Матешука - всегда отличные, проработанные лекции и интересные домашние работы!
Читать целиком
Елена
Попова
Положительные моменты.
Спасибо преподавателям за лекции, презентации и общение во время занятий. Отдельно хочу выделить прекрасную подготовку к занятиям Монастырева Виталия и Матешук Егора.
Понравились домашние задания, удобно, что достаточно поднять контейнер в докере и все окружение готово.
Немного критики)
Преподаватели не отвечают на сообщения в Slack. Для меня это огромный минус, за который курс не могу порекомендовать коллегам. В начале каждой лекции говорится, что все вопросы задавайте в Slack, по факту, они оставались там без ответа. Обратной связи после лекции не было.
По поводу проектной работы. Предложение - либо давать заготовденный список тем, для студентов, у которых отсутствует вдохновение в данные период, либо объявлять гораздо раньше "начинайте думать над темой". Долго времени потратила именно на выбор темы. И на написание самой работы осталось меньше, чем планировала.
В целом обстановка была продуктивная. С преподавателями общаться приятно. Организаторы реагировали быстро. Всем спасибо!
Читать целиком

Необходимые знания

  • Опыт написания кода хотя бы на одном из следующих языков: Python, Java, Scala
  • Базовое знание SQL и опыт работы с любой реляционной базой данных
  • Компьютер или виртуальная машина на Linux с ОЗУ не менее 8 Гб
Корпоративное обучение для ваших сотрудников
>
Программа обучения
В процессе обучения вы получите комплексные знания и навыки.
C 27 декабря
Тема 1. Архитектура приложения Spark
Тема 2. Основы Scala
Тема 3. Сборка проектов на Scala
Тема 4. Сборка проектов на Scala. Практика
C 19 января
Тема 5. Hadoop
Тема 6. HDFS
Тема 7. YARN
Тема 8. Форматы данных
C 2 февраля
Тема 9. RDD/Dataframe/Dataset
Тема 10. Методы оптимизации приложений Spark
Тема 11. Написание коннекторов для Spark
Тема 12. Тестирование приложений Spark
Тема 13. Spark ML
Тема 14. Q&A
C 21 февраля
Тема 15. Kafka
Тема 16. Spark Streaming
Тема 17. Structured Streaming
Тема 18. Flink - часть 1
Тема 19. Flink - часть 2
C 21 марта
Тема 20. Обзор Hive
Тема 21. HiveQL
C 28 марта
Тема 22. Оркестрация процессов обработки данных
Тема 23. Мониторинг и логирование для Spark-приложений
Тема 24. CI/CD для Spark и Hive
C 6 апреля
Тема 25. Выбор темы и организация проектной работы
Тема 26. Консультация по проектам и домашним заданиям
Тема 27. Защита проектных работ
Скачать подробную программу
Выпускной проект
В качестве выпускного проекта будет построена ETL-система на основе Hadoop, включающая в себя:
- Загрузку данных из источников
- Простой Data Lake на основе этих данных с использованием Hive
- Лямбда-архитектуру для реалтайм-аналитики на основе Spark

Процесс обучения

Образовательный процесс происходит ONLINE в формате вебинаров (язык преподавания — русский). В рамках курса слушателям предлагаются к выполнению домашние задания, которые позволяют применить на практике знания, полученные на занятиях. По каждому домашнему заданию преподаватель дает развернутый фидбек. В течение всего учебного процесса преподаватель находится в едином коммуникационном пространстве с группой - Slack, т.е. при обучении слушатель может задавать преподавателю уточняющие вопросы по учебным материалам.
Получить консультацию
Наш специалист свяжется с вами в ближайшее время. Если у вас возникли трудности в выборе курса или проблемы технического плана, то мы с радостью поможем вам.
Спасибо!
Мы получили Вашу заявку, в ближайшее время с Вами свяжется наш менеджер.

  • заберете с собой полный комплект обучающих материалов: видеозаписи всех вебинаров, презентации к занятиям, а также решение задач и проектов в виде кода на github и другие дополнительные материалы;

  • получите сертификат о прохождении курса;

  • получите приглашение пройти собеседование в компаниях-партнерах (эту возможность получают самые успешные студенты).

Дата выдачи сертификата: 25 мая 2023 года
Ваш сертификат

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Spark Developer»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Директор департамента образования
ООО “Отус Онлайн-Образование”
Анна Фирсова

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018 года.

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Spark Developer»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Директор департамента образования
ООО “Отус Онлайн-Образование”
Анна Фирсова

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018 года.
Прошедшие открытые вебинары
Открытый вебинар — это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.
Schema Registry в Apache Kafka
Вадим Заигрин
День открытых дверей
8 декабря 2021 года в 20:00
Для доступа к прошедшим мероприятиям необходимо пройти входное тестирование
Возможность пройти вступительное тестирование повторно появится только через 2 недели
Результаты тестирования будут отправлены вам на e-mail, указанный при регистрации.
Тест рассчитан на 30 минут, после начала тестирования отложить тестирование не получится!

Партнеры ждут выпускников этого курса

Стоимость обучения
Cтоимость указана для оплаты физическими лицами
65 000 ₽
Продолжительность
4 месяца
Начало занятий
27 декабря