Лучший базовый курс
Data Engineer
Получите структурированные знания о подходах и инструментах. Курс проходит с практикой в Yandex Cloud!
29 сентября
Basic
5 месяцев
Онлайн
Пн/Чт 20:00 Мск
Для кого этот курс?
- Для Junior Data-инженеров, которые уже знакомы с основами программирования (Python, SQL) и хотят специализироваться на инженерии данных.
- Для программистов, которые хотят перейти в Data Engineering, работающих с базами данных (DBA, аналитики), желающих расширить свои навыки.
- Для Backend-разработчиков, которые интересуются построением масштабируемых data-решений.
- Для аналитиков данных, которые хотят лучше понимать, как устроены data pipelines и инфраструктура.
- Для специалистов по Data Science, желающие научиться самостоятельно проектировать и поддерживать ETL-процессы.
- Для DevOps и системных администраторов, которые хотят освоить инструменты для работы с большими данными (Hadoop, Spark, Kafka и др.) и научиться настраивать data-инфраструктуру.
- Для архитекторов, желающих изучить современные подходы к проектированию data-платформ.
Необходимые знания
- Опыт разработки на Java/Python
- Основы работы с БД: SQL, индексы, агрегирующие функции
- Базовые знания ОС: работа с командной строкой, доступ по SSH
Будет плюсом
- Навыки работы с Docker
- Знакомство с компонентами экосистемы Hadoop
- Понимание основ машинного обучения с позиции Data Scienist-а или аналитика

Что даст вам этот курс?
- Понимание ценности данных для бизнеса и архитектуры
- Узнаете, как организовать хранение данных, познакомитесь с методами проектирования хранилищ
- Сможете разрабатывать ETL процессы для выгрузки данных из внешних источников
- Научитесь преобразовывать данные в пакетном и потоковом режимах
- Узнаете что такое качество данных и как работать с метаданными
- Изучите современные BI инструменты и научитесь создавать витрины данных
После обучения вы сможете
- Разворачивать, настраивать и оптимизировать инструменты обработки данных:
- Разрабатывать и оптимизировать пайплайны обработки данных
- Использовать Apache Airflow для оркестрации задач
- Обрабатывать большие данные с помощью Apache Spark
- Работать с базами данных и хранилищами данных:
- Строить ETL/ELT-процессы для загрузки и обработки данных
- Работать с распределёнными хранилищами (HDFS, S3) и DWH (ClickHouse) - Адаптировать датасеты для дальнейшей работы и аналитики
- Создадите сервисы, которые используют результаты обработки больших объемов данных
- Применять облачные технологии
- Решать реальные бизнес-задачи: cтроить отчётность и дашборды, обеспечивать Data Governance
Data Warehouse Analyst
Курс Python в подарок!
Бесплатно получите доступ к подготовительному курсу по Python, на котором сможете изучить основные возможности языка
Что нового в 2025?
Процесс обучения
Эффективные навыки
Целостная картина вызовов и задач современного бизнеса, и роли Инженера Данных в их решении
Эксперты
Программу ведут практикующие Инженеры Данных из разных сфер бизнесаПрактический опыт
В течении курса будем решать прикладные задачи, что является основой для создания работающего продукта
Карьерная поддержка
Многие студенты еще во время прохождения первой части программы находят или меняют работу, а к концу обучения могут претендовать на повышение в должности.
- Карьерные мероприятия в сообществе
Публичный разбор резюме
Публичное прохождение собеседования и воркшопы - Разместите свое резюме в базе OTUS и сможете получать приглашения на собеседования от партнеров
Data Engineer
Работодатели курса
Формат обучения
Интерактивные вебинары
2 онлайн-трансляции по 2 ак. часа в неделю. Доступ к записям и материалам остается навсегда
Практика
Домашние задания с поддержкой и обратной связью наших преподавателей помогут освоить изучаемые технологииАктивное комьюнити
Общение с преподавателями голосом на вебинарах и в закрытой Telegram группеПрограмма
Введение
Введение в профессию. Кто такой Инженер Данных. Какие задачи он решает. Архитектура систем.
Тема 1: Инженер данных. Задачи, навыки, инструменты, потребность на рынке
Тема 2: Архитектура систем обработки данных
Тема 3: Выбор технологий. Облачные технологии
Тема 4: Docker
DWH
Что это такое Хранилища Данных. Для чего используются. Как их проектировать и как с ними работать.
Тема 1: Что такое DWH
Тема 2: Модели данных в DWH
Тема 3: Проектирование DWH
Тема 4: Greenplum
Тема 5: ClickHouse
Тема 6: Разбор ДЗ по 2 модулю
Хранение данных
Озёра Данных. Распределённые файловые системы. Что это такое. Для чего используются. Как с ними работать.
Тема 1: Основы Hadoop
Тема 2: Знакомство с Data Lake
Тема 3: Распределенные файловые системы
Тема 4: NoSQL. Key-Value
Тема 5: NoSQL. Wide-column
Тема 6: ELK
Тема 7: ELK (практика)
Загрузка данных
Изучаем загрузку и обработку данных. Организация конвейеров обработки.
Тема 1: Загрузка данных
Тема 2: Apache Kafka
Тема 3: Apache Ni-Fi. Выгрузка данных из внешних систем
Тема 4: Apache Airflow. Введение в автоматизацию пайплайнов и оркестрацию
Тема 5: Apache Airflow. Сложные пайплайны
Запросы к данным и трансформация
Изучаем как формулировать запросу к данным, как проводить трансформации.
Тема 1: Аналитические запросы
Тема 2: Apache Hive. SQL доступ к Hadoop
Тема 3: Apache Spark. Архитектура приложения
Тема 4: Apache Spark. API
Тема 5: Обработка потоковых данных
Предоставление данных для аналитики и машинного обучения
Управление данными. Качество данных. BI
Тема 1: Предоставление данных
Тема 2: Data Quality. Управление качеством данных
Тема 3: Управление метаданными
Тема 4: Основы Business Intelligence
Тема 5: Развертывание BI-решения
DataOps
Data + DevOps = DataOps
Тема 1: DevOps практики. CI + CD
Тема 2: Мониторинг
Тема 3: Разбор ДЗ по 3 и 4 модулю
Выпускной проект
Заключительный месяц курса посвящен проектной работе. Свой проект — это то, что интересно писать слушателю. То, что можно создать на основе знаний, полученных на курсе. При этом не обязательно закончить его за месяц. В процессе написания по проекту можно получить консультации преподавателей.
Тема 1: Выбор темы и организация проектной работы
Тема 2: Консультация по проектам и домашним заданиям
Тема 3: Защита проектных работ
Также вы можете получить полную программу, чтобы убедиться, что обучение вам подходит
Проектная работа
Реализация задачи по интересующей теме с применением комплекса знаний, полученных в рамках курса. В рамках подготовки проекта будут даны вводные и проведены консультации. Несколько примеров проектных работ студентов прошлых запусков
- Сбор и анализ скорости отдачи статики различными CDN на web страницах
- Загрузка данных о полетах из API аэропорта Schiphol в БД Elasticsearch
- Сбор, обработка и представление данных об играх и отзывов STEAM
- Разработка конвейера данных по мониторингу валютных пар
- Сбор и анализ потоковых данных криптовалют
Преподаватели
Эксперты-практики делятся опытом, разбирают кейсы студентов и дают развернутый фидбэк на домашние задания
Ближайшие мероприятия
Открытый вебинар — это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.
Почему тема важна?
Apache Iceberg — это открытая табличная структура для работы с большими данными, которая обеспечивает:
- Управление версиями данных (time travel, schema evolution)
- Высокую производительность запросов
- Поддержку транзакционности
В сочетании с S3-совместимыми хранилищами это дает надежное, масштабируемое и экономичное решение для построения Data Lakehouse.
📍 Программа вебинара
- Data Warehouse, Data Lake, Data Lakehouse: история развития, что и когда использовать?
- Обзор Apache Iceberg: архитектура, преимущества и кейсы использования.
- Хранение данных в S3: настройка бакетов, управление доступом, cost optimization.
- Примеры развертывания Iceberg на S3.
- Примеры работы с Iceberg на Spark и Trino.
👥 Для кого будет актуален?
- Data Engineers – научатся разворачивать и использовать Iceberg в продакшене.
- Analysts & Data Scientists – узнают, как эффективно работать с данными в Data Lakehouse.
- Architects & Tech Leads – получат insights по проектированию отказоустойчивых хранилищ.
- Все, кто работает с Big Data – поймут тренды в управлении данными.
✅ Что смогут по итогам вебинара?
- Понимать принципы работы Data Lakehouse на Iceberg и S3.
- Настраивать хранилище данных с поддержкой ACID-транзакций.
- Оптимизировать запросы и управлять метаданными.
- Избегать типичных ошибок при работе с Iceberg.
📍 Программа
- Data Warehouse (DWH)
Классическая архитектура и принципы
Плюсы и минусы: строгая схема, производительность, стоимость
- Data Lake
Хранение "сырых" данных любого формата
Проблемы управления и governance
- Data Lakehouse
Объединение лучших практик DWH и Data Lake
ACID-транзакции и поддержка BI-аналитики
- Сравнительный анализ
Критерии выбора для разных задач
Примеры реализаций (Snowflake, Databricks Delta Lake)
- Кейсы применения
Когда выбрать DWH, а когда — Lakehouse
Миграция между подходами
👥 Для кого?
- Data Engineers и архитекторы
- Аналитики и BI-специалисты
- Технические руководители
✅ Что получите
- Четкое понимание различий между подходами
- Критерии выбора архитектуры под свои задачи
- Примеры успешных реализаций
- Практические рекомендации по внедрению
Хотите узнать, как быстро и эффективно развернуть масштабируемый Spark кластер в облаке?
Присоединяйтесь к открытому уроку и освойте Infrastructure as Code для обработки больших данных!
📍 Программа вебинара:
- Разберем один из принципов развертывания Spark кластера в облачных провайдерах.
- Покажем Terraform конфигурации для автоматизированного развертывания кластера.
- Продемонстрируем подключение к кластеру для работы из IDE.
👥 Кому будет полезно?
- Data-инженерам, которые хотят автоматизировать развертывание инфраструктуры для обработки данных.
- DevOps-инженерам, работающим с Big Data платформами и облачными решениями.
- Архитекторам данных, проектирующим масштабируемые системы обработки информации.
✅ Что вы узнаете по итогам вебинара?
- Как создать Terraform репозиторий для развертывания Spark кластера в Yandex.Cloud;
- Как обеспечить безопасность и сетевую изоляцию кластера с помощью VPC и IAM;
- Как удобно подключиться к кластеру Spark для выполнения ETL задач.
⚡ Освойте Infrastructure as Code и развертывайте Spark кластеры одной командой, масштабируйте ресурсы и контролируйте затраты!
Прошедшие
мероприятия
Возможность пройти вступительное тестирование повторно появится только через 3 дня
Результаты тестирования будут отправлены вам на email, указанный при регистрации.
Тест рассчитан на 30 минут, после начала тестирования отложить тестирование не получится!
Корпоративное обучение для ваших сотрудников
- Курсы OTUS верифицированы крупными игроками ИТ-рынка и предлагают инструменты и практики, актуальные на данный момент
- Студенты работают в группах, могут получить консультации не только преподавателей, но и профессионального сообщества
- OTUS проверяет знания студентов перед стартом обучения и после его завершения
- Простой и удобный личный кабинет компании, в котором можно видеть статистику по обучению сотрудников
- Сертификат нашего выпускника за 5 лет стал гарантом качества знаний в обществе
- OTUS создал в IT более 120 курсов по 7 направлениям, линейка которых расширяется по 40-50 курсов в год
Отзывы
Подтверждение знаний и навыков
OTUS осуществляет лицензированную образовательную деятельность. Вы получите сертификат о прохождении обучения, а также можете получить удостоверение о повышении квалификации.
После обучения:
-
Удостоверение о повышении квалификации: если вы успешно защитили выпускной проект и готовы предоставить копию документа о высшем или среднем профессиональном образовании
-
Доступ к учебным материалам курса
-
Ваш личный проект, который поможет проходить собеседования
Data Engineer
Полная стоимость
Стоимость указана для оплаты физическими лицами
вычета до 13% стоимости обучения. Пройдите тестирование и менеджер вас проконсультирует
+7 499 938-92-02 бесплатно