Разработка курса «Экосистема Spark, Hadoop, Hive» | OTUS
👋 Канал OTUS в Telegram!
Посты от приглашенных гостей из IT-тусовки, полезные статьи, подборки вакансий от партнеров ➞
Подробнее

Курсы

Программирование
Разработчик игр на Unity
-40%
Vue.js разработчик
-40%
React.js разработчик
-40%
Архитектор программного обеспечения
-40%
Архитектура и шаблоны проектирования
-40%
Разработчик C++
-40%
Разработчик Node.js
-40%
Scala-разработчик
-30%
Backend-разработка на Kotlin
-30%
Программист 1С
-30%
Symfony Framework
-30%
Разработчик на Spring Framework
-20%
Разработчик Golang
-25%
C# ASP.NET Core разработчик
-25%
iOS-разработчик. Базовый курс
-25%
VOIP инженер Базы данных AWS для разработчиков Cloud Solution Architecture Agile Project Manager в IT Супер - интенсив по паттернам проектирования Супер - интенсив по Kubernetes
Специализации Курсы в разработке Подготовительные курсы
+7 499 938-92-02

Экосистема Spark, Hadoop, Hive

Что даст вам этот курс
8
1
Углубленный курс по самым мощным инструментам обработки больших данных.

Курс рассчитан на Data инженеров, желающих глубже изучить Spark, Hadoop, Hive

Вы изучите следующие основные темы:

- Hadoop (основные компоненты, дистрибутивы вендоров)
- Архитектура HDFS (HDFS, ZooKeeper)
- Архитектура YARN (YARN, MapReduce)
- Форматы данных (Parquet, Orc, Avro)
- Scala
- Spark
- Spark Streaming
- RDD/Dataframe/Dataset
- GraphX, GeoSpark
- Hive
- Мониторинг и CI/CD

Научитесь применять все это на практике и закрепите с помощью интересных и сложных домашних заданий и выпускного проекта.

После прохождения курса вы сможете:

- Писать распределенные приложения на Apache Spark
- Работать с данными в HDFS и потоками данных в Kafka
- Обрабатывать большие объемы данных
- Оптимизировать приложения на Apache Spark

Программа курса в разработке и будет расширяться. Пожалуйста, пройдите опрос, чтобы помочь нам сделать курс максимально интересным для вас.
Преподаватель
Егор Матешук
Senior Data Engineer, MaximaTelecom
Последние 6 лет работает с большими данными: строит системы для обработки данных, консультирует по вопросам построения аналитических решений.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Затем занимал аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы). На данный момент является CDO AdTech-компании Квант.
Большой опыт работы с сервисами Hadoop (HDFS, Hive, Impala), оркестраторами (Airflow, Oozie), MPP-базами (Vertica, Kudu, Greenplum) и различными фреймворками для обработки данных (Spark, Flink).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Преподаватель
Егор Матешук
Senior Data Engineer, MaximaTelecom
Последние 6 лет работает с большими данными: строит системы для обработки данных, консультирует по вопросам построения аналитических решений.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Затем занимал аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы). На данный момент является CDO AdTech-компании Квант.
Большой опыт работы с сервисами Hadoop (HDFS, Hive, Impala), оркестраторами (Airflow, Oozie), MPP-базами (Vertica, Kudu, Greenplum) и различными фреймворками для обработки данных (Spark, Flink).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Программа обучения
Модуль 1
Экосистема Hadoop
Модуль 2
Scala
Модуль 3
Apache Spark
Модуль 4
Apache Hive
Модуль 5
Обслуживающие системы
Экосистема Hadoop
Оценить модуль
3
0
Тема 1: Hadoop (основные компоненты, дистрибутивы вендоров)
Оценить занятие
0
0
Тема 2: Архитектура HDFS (HDFS, ZooKeeper)
Оценить занятие
0
0
Тема 3: Архитектура YARN (YARN, MapReduce)
Оценить занятие
0
0
Тема 4: Форматы данных (Parquet, Orc, Avro)
Оценить занятие
0
0
Scala
Оценить модуль
3
0
Тема 1: Базовый синтаксис
Оценить занятие
0
0
Тема 2: Инструменты разработки и сборки (практика)
Оценить занятие
0
0
Тема 3: ООП
Оценить занятие
0
0
Тема 4: Элементы ФП
Оценить занятие
0
0
Apache Spark
Оценить модуль
3
0
Тема 1: Первый проект на Apache Spark
Оценить занятие
0
0
Тема 2: Архитектура приложения Spark
Оценить занятие
0
0
Тема 3: RDD/Dataframe/Dataset
Оценить занятие
0
0
Тема 4: Методы оптимизации
Оценить занятие
0
0
Тема 5: Spark Streaming 1
Оценить занятие
0
0
Тема 6: Spark Streaming 2
Оценить занятие
0
0
Тема 7: GraphX
Оценить занятие
0
0
Тема 8: GeoSpark
Оценить занятие
0
0
Тема 9: SparkML/XGBoost
Оценить занятие
0
0
Apache Hive
Оценить модуль
2
0
Тема 1: Обзор Hive, класса инструментов, возможностей
Оценить занятие
0
0
Тема 2: Oперации, форматы, детали, демо
Оценить занятие
0
0
Обслуживающие системы
Оценить модуль
2
0
Тема 1: Оркестрация процессов обработки данных
Оценить занятие
0
0
Тема 2: Мониторинг Spark-приложений
Оценить занятие
0
0
Тема 3: CI/CD для Spark и Hive
Оценить занятие
0
0
Опрос по программе "Экосистема Spark, Hadoop, Hive"

При запуске нового курса, нам очень важно оценивать качество и актуальность предлагаемой программы на этапе идеи и концепции модулей, поэтому мы будем очень рады и благодарны вашим ответам, экспертным оценкам и комментариям.

Вопрос №1 из 5
Есть ли у вас опыт работы дата инженером?
Вопрос №2 из 5
Выберите один вариант ответа
Какой у вас опыт программирования?
Вопрос №3 из 5
Выберите один вариант ответа
Интересна ли вам программа курса?
Вопрос №4 из 5
Какие темы особенно вам интересны в рамках этого курса?
Вопрос №5 из 5
Какие у вас пожелания к программе курса? (Что лучше добавить, а что убрать?)

Оставьте хотя бы один ответ для участия в опросе