Рассрочка
Spark Developer
Углубленный курс по самым мощным инструментам обработки больших данных.
31 марта
4 месяца
Онлайн
Пн/Пт 20:00 Мск
Для кого этот курс?
- Для Инженеров данных, желающих глубже изучить Spark, которые хотят научиться применять Spark на практике и закрепить с помощью интересных и сложных домашних заданий и выпускного проекта
- Также курс будет полезен специалистам DataOps и Data Scientist'ам. Первые познакомятся с промышленным использованием Spark, а вторые с применением Spark в машинном обучении.
Необходимые знания
- Базовое знание Java и Scala
- Знание SQL
Подходит ли эта программа именно вам?
Пройдите тест, чтобы определить свой уровень знанийЧто даст вам этот курс?
Научитесь интегрировать Spark с различными источниками данных: SparkML, работу с графами, Spark в Hadoop, Spark в Kubernetes, Hive.
И изучите разработку собственных коннекторов и потоковую обработку данных: Scala, Spark API (RDD, DataFrame, Dataset), Apache Arrow и Pandas API, форматы данных.
После прохождения курса вы сможете:
- Разрабатывать приложения Spark
- Разрабатывать модели ML на Spark и выводить их в Production
- Запускать Spark в Hadoop и Kubernetes
- Писать тесты для Spark-приложений
- Использовать Spark для обработки табличных, потоковых, гео-данных и графов
- Настраивать мониторинг Spark-приложений
Авторская программа
Программу составлял Вадим Заигрин - автор курсов Data Engineer, Apache Kafka. Все материалы актуализируются исходя из тенденций рынка труда и обратной связи от студентов. Что нового в запуске Spark-2023-12? Обновили лекции и практику о тестировании, оптимизации, мониторинге Spark и собственных источниках данных.
Процесс обучения
Вебинары проводятся 2 раза в неделю по 2 ак. часа и сохраняются в записи в личном кабинете. Вы можете посмотреть их в любое удобное для вас время.
В ходе обучения вы будете выполнять домашние задания. Каждое из них посвящено одному из компонентов вашего выпускного проекта.
После выполнения всех домашних заданий вы получите готовый выпускной проект.
Портфолио
Индивидуальная разработка проектной работы.Оптимальная нагрузка
Возможность совмещать учебу с работой.Перспективы
Получите знания, которые помогут повысить вашу востребованность и доход.Партнеры
- Получите помощь с оформлением резюме, портфолио и сопроводительного письма
- Получите рекомендации, как искать работу, и советы по прохождению собеседования
Data Engineer
Работодатели курса
Формат обучения
Интерактивные вебинары
2 занятия по 2 ак.часа в неделю.
Доступ к записям и материалам остается навсегда.
Обратная связь
Домашние задания с поддержкой и обратной связью наших преподавателей помогут освоить изучаемые технологии.
Активное комьюнити
Общайтесь с преподавателями голосом на вебинарах и в закрытой Telegram группе.
Программа
Введение
Вводный модуль, в котором мы познакомимся со Spark, рассмотрим архитектуру Spark-приложений и научимся писать код на Scala.
Тема 1: Что такое Spark
Тема 2: Первые шаги в Scala
Тема 3: Дальнейшие шаги в Scala
Тема 4: Hadoop, HDFS
Тема 5: Практика работы со Scala
Большие данные
В этом модуле мы познакомимся с Большими Данными. Изучим Hadoop, рассмотрим, как запускать в Hadoop приложения Spark, изучим Hive и узнаем особенности HiveQL, узнаем, как запускать Spark в Kubernetes.
Тема 1: Обзор Hive
Тема 2: HiveQL
Тема 3: Spark в Hadoop, YARN
Тема 4: Spark в Kubernetes
API
В этом модуле изучим Spark API: RDD, DataFrame, Dataset и Spark SQL, узнаем, как использовать Arrow и Pandas API, сможем выбирать правильный API для реализации своей задачи и узнаем, как разрабатывать UDF и UDAF.
Тема 1: RDD
Тема 2: DataFrame
Тема 3: Dataset, SparkSQL
Тема 4: UDF и UDAF
Тема 5: Apache Arrow в PySpark
Тема 6: Pandas API
Источники данных
В этом модуле изучим взаимодействие Spark с различными источниками данных: файлы в различных форматах, подключение к различным СУБД, как разработать свой коннектор и как обрабатывать потоковые данные.
Тема 1: Файлы и их форматы
Тема 2: Базы данных, Hive
Тема 3: Собственный источник данных
Тема 4: Kafka
Тема 5: Structured Streaming
Дополнительные возможности
Этот модуль посвящён дополнительным возможностям Spark, которые иногда напрасно игнорируются. Узнаем, как разрабатывать модели ML на Spark, как работать с графами и как тестировать приложения Spark.
Тема 1: Spark ML
Тема 2: Работа с графами
Тема 3: Тестирование приложений Spark
Тема 4: Консультация по домашним заданиям
Промышленное использование
Этот модуль посвящён промышленному использованию Spark: как запускать задания Spark по расписанию, как осуществлять мониторинг приложений Spark и как оптимизировать приложения Spark.
Тема 1: Оркестрация процессов обработки данных
Тема 2: Мониторинг Spark приложений
Тема 3: Методы оптимизации приложений Spark
Проектная работа
По результатам модуля вы у вас будет готовый проект, который позволит применить полученные в ходе курса знания на практике и в дальнейшем может быть включен в резюме при собеседовании на вакансии Data Engineer или Spark Developer.
Тема 1: Выбор темы и организация проектной работы
Тема 2: Консультация по проектам и домашним заданиям
Тема 3: Защита проектных работ
Также вы можете получить полную программу, чтобы убедиться, что обучение вам подходит
Выпускной проект
В качестве выпускного проекта будет построена ETL-система на основе Hadoop, включающая в себя:- Загрузку данных из источников
- Простой Data Lake на основе этих данных с использованием Hive
- Лямбда-архитектуру для реалтайм-аналитики на основе Spark
Преподаватели
Эксперты-практики делятся опытом, разбирают кейсы студентов и дают развернутый фидбэк на домашние задания
Ближайшие мероприятия
Открытый вебинар — это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.
- Введение в обработку графов с помощью Apache Spark: Обзор ключевых понятий, включая структуру графов, операции с вершинами и рёбрами, а также алгоритмы, доступные в библиотеках GraphX и GraphFrames.
- Основные функции: Демонстрация создания и манипуляции графами, использование популярных алгоритмов (например, PageRank, Connected Components) для анализа данных.
- Практическое применение: Разбор примеров построение графов из данных и их анализ с помощью Spark.
Кому будет полезен?
- Начинающим разработчикам, желающим изучить Spark с нуля.
- Data-инженерам и аналитикам, работающим с большими объемами данных.
- Программистам, переходящим с других технологий обработки данных на Spark.
Что в результате вебинара узнают пользователи? Как/где смогут применить полученные навыки?
- Создание и обработка графов с использованием Apache Spark. Участники смогут научиться строить графы на основе различных типов данных и эффективно работать с большими графами.
- Применение алгоритмов для анализа графов, таких как PageRank и Connected Components. Пользователи будут знать, как применять эти алгоритмы для решения задач в таких областях, как социальные сети, анализ связей и рекомендации.
- Интеграция обработки графов в проекты с использованием Spark. Полученные навыки помогут улучшить текущие проекты, добавив анализ графовых структур и связей, например, для анализа сетевых данных, выявления сообществ в социальных сетях или оптимизации маршрутов.
- Обзор обработки геопространственных данных в Apache Spark: Введение в возможности работы с географическими данными, включая использование библиотек для обработки координат, карт и пространственных запросов.
- Работа с временными данными в Spark: Обзор подходов к анализу временных рядов, использование встроенных функций Spark для работы с временными метками и временными окнами.
- Практическое применение: Демонстрация реальных примеров — анализ геопространственных данных (например, обработка GPS-координат, анализ точек на карте) и временных данных (например, анализ трендов с временными метками).
Кому будет полезен?
- Начинающим разработчикам, желающим изучить Spark с нуля.
- Data-инженерам и аналитикам, работающим с большими объемами данных.
- Программистам, переходящим с других технологий обработки данных на Spark.
Что в результате вебинара узнают пользователи? Как/где смогут применить полученные навыки?
- Обработка и анализ геопространственных данных с использованием Spark. Участники узнают, как работать с пространственными данными, такими как координаты GPS, и смогут решать задачи, связанные с картографией, анализом маршрутов и географическим поиском.
- Работа с временными данными в Spark для анализа трендов и прогнозирования. Пользователи смогут эффективно работать с временными рядами, используя Spark для анализа трендов, сезонности, предсказаний и прогнозов на основе временных меток.
- Применение Spark для анализа и обработки геопространственных и временных данных в реальных проектах. Полученные навыки помогут пользователям решать задачи в реальных приложениях, таких как анализ движения транспорта, отслеживание изменения климата, обработка данных с сенсоров в Интернете вещей (IoT) и другие области, требующие работы с данными, привязанными ко времени и географическим координатам.
1. Введение в основные компоненты и архитектуру Apache Spark.
2. Работа с базовыми структурами данных Spark, такими как RDD, DataFrame и Dataset.
3. Практические примеры обработки данных и написания оптимизированных Spark приложений.
Кому будет полезен?
• Начинающим разработчикам, желающим изучить Spark с нуля.
• Data-инженерам и аналитикам, работающим с большими объемами данных.
• Программистам, переходящим с других технологий обработки данных на Spark.
Что в результате вебинара узнают пользователи? Как/где смогут применить полученные навыки?
1. Узнают, как эффективно загружать, обрабатывать и анализировать большие объемы данных.
2. Поймут, как использовать DataFrame API для решения задач ETL.
3. Научатся писать код для масштабируемой обработки данных в распределенной среде.
Прошедшие
мероприятия
Корпоративное обучение для ваших сотрудников
- Курсы OTUS верифицированы крупными игроками ИТ-рынка и предлагают инструменты и практики, актуальные на данный момент
- Студенты работают в группах, могут получить консультации не только преподавателей, но и профессионального сообщества
- OTUS проверяет знания студентов перед стартом обучения и после его завершения
- Простой и удобный личный кабинет компании, в котором можно видеть статистику по обучению сотрудников
- Сертификат нашего выпускника за 5 лет стал гарантом качества знаний в обществе
- OTUS создал в IT более 120 курсов по 7 направлениям, линейка которых расширяется по 40-50 курсов в год
Отзывы
Подтверждение знаний и навыков
OTUS осуществляет лицензированную образовательную деятельность. В конце прохождения курса вы получите сертификат OTUS.
После обучения вы:
- заберете с собой полный комплект обучающих материалов: видеозаписи всех вебинаров, презентации к занятиям и другие дополнительные материалы
- получите сертификат о прохождении курса
- пополните свое портфолио новыми работами для будущего работодателя
- получите все необходимые навыки для работы с Spark.
Spark Developer
Полная стоимость
Стоимость указана для оплаты физическими лицами
вычета до 13% стоимости обучения. Пройдите тестирование и менеджер вас проконсультирует
+7 499 938-92-02 бесплатно