Углубленный курс по самым мощным инструментам обработки больших данных.
29 апреля
4 месяца
Онлайн
Пн/Ср 20:00 Мск
2 занятия по 2 ак.часа в неделю.
Доступ к записям и материалам остается навсегда.
Домашние задания с поддержкой и обратной связью наших преподавателей помогут освоить изучаемые технологии.
Общайтесь с преподавателями голосом на вебинарах и в закрытой Telegram группе.
Вводный модуль, в котором мы познакомимся со Spark, рассмотрим архитектуру Spark-приложений и научимся писать код на Scala.
Тема 1: Что такое Spark
Тема 2: Первые шаги в Scala
Тема 3: Дальнейшие шаги в Scala
Тема 4: Практика работы со Scala
В этом модуле мы познакомимся с Большими Данными. Изучим Hadoop, рассмотрим, как запускать в Hadoop приложения Spark, изучим Hive и узнаем особенности HiveQL, узнаем, как запускать Spark в Kubernetes.
Тема 1: Основы Hadoop
Тема 2: Обзор Hive
Тема 3: Распределенные файловые системы
Тема 4: Spark в Hadoop, YARN
Тема 5: Spark в Kubernetes
В этом модуле изучим Spark API: RDD, DataFrame, Dataset и Spark SQL, узнаем, как использовать Arrow и Pandas API, сможем выбирать правильный API для реализации своей задачи и узнаем, как разрабатывать UDF и UDAF.
Тема 1: RDD
Тема 2: DataFrame
Тема 3: Dataset, SparkSQL
Тема 4: UDF и UDAF
Тема 5: Spark Connect
Тема 6: Pandas API
В этом модуле изучим взаимодействие Spark с различными источниками данных: файлы в различных форматах, подключение к различным СУБД, как разработать свой коннектор и как обрабатывать потоковые данные.
Тема 1: Файлы и их форматы
Тема 2: Базы данных, Hive
Тема 3: Kafka
Тема 4: Structured Streaming
Этот модуль посвящён дополнительным возможностям Spark, которые иногда напрасно игнорируются. Узнаем, как разрабатывать модели ML на Spark, как работать с графами и как тестировать приложения Spark.
Тема 1: Spark ML
Тема 2: Работа с графами
Тема 3: Геопространственная обработка данных в Apache Spark
Тема 4: Тестирование приложений Spark
Тема 5: Консультация по домашним заданиям
Этот модуль посвящён промышленному использованию Spark: как запускать задания Spark по расписанию, как осуществлять мониторинг приложений Spark и как оптимизировать приложения Spark.
Тема 1: Оркестрация процессов обработки данных
Тема 2: Мониторинг Spark приложений
Тема 3: Методы оптимизации приложений Spark
По результатам модуля вы у вас будет готовый проект, который позволит применить полученные в ходе курса знания на практике и в дальнейшем может быть включен в резюме при собеседовании на вакансии Data Engineer или Spark Developer.
Тема 1: Выбор темы и организация проектной работы
Тема 2: Консультация по проектам и домашним заданиям
Тема 3: Защита проектных работ
Курс завершается финальным проектом, который предстоит защитить перед преподавателями и командой. Вам будет, что обсудить на собеседовании! Вы можете выбрать одну из предложенных преподавателем тем или реализовать свою идею.
Эксперты-практики делятся опытом, разбирают кейсы студентов и дают развернутый фидбэк на домашние задания
Открытый вебинар — это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.
OTUS осуществляет лицензированную образовательную деятельность. В конце прохождения курса вы получите сертификат OTUS.
Стоимость в рассрочку