Курс по Data Engineering. Запишитесь на курс по организации и предобработке данных
💥 Пока ты ждешь — другие качаются!
Мы создали лучшие условия, чтобы ты начал учиться прямо сейчас. Пиши в чат и получи скидку ➞
Написать в чат

Курсы

Программирование
Web-разработчик на Python
-20%
Разработчик Python
-20%
Разработчик на Spring Framework Разработчик Golang
-20%
iOS Разработчик. Продвинутый курс v 2.0.
-20%
PostgreSQL
-20%
Разработчик игр на Unity React.js разработчик Архитектура и шаблоны проектирования Fullstack разработчик JavaScript Android-разработчик. Продвинутый курс Разработчик Java Разработчик Node.js Scala-разработчик Backend-разработка на Kotlin Symfony Framework Framework Laravel Базы данных ReactJS/React Native-разработчик Cloud Solution Architecture CI/CD Интенсив «Оптимизация в Java»
Специализации Курсы в разработке Подготовительные курсы
+7 499 938-92-02
Специальная цена

Data Engineer

Лучшие практики по приготовлению данных. Загрузка, обработка, организация хранения и доступа к данным с использованием современных инструментов
Подойдет ли мне этот курс?

Длительность

4 месяца

Начало

28 мая

Занятия

Чт 20:00, Пн 20:00

Общая стоимость

80 000 ₽ 64 000 ₽

В месяц

22 500 ₽

Хочу дешевле
Общая стоимость
80 000 ₽ 64 000 ₽
В месяц: 22 500 ₽
Продолжительность
4 месяца, 4 академ. часа в неделю
Чт 20:00, Пн 20:00
Начало занятий
28 мая
Что даст вам этот курс

  • понимание ключевых способов интеграции, обработки, хранения больших данных

  • умение работать с компонентами экосистемы Hadoop, распределенными хранилищами и платформами

  • практические навыки разработки дата-сервисов, витрин и приложений

  • знание принципов организации мониторинга, оркестрации, тестирования


  • Курс адресован разработчикам, администраторам СУБД и всем, кто стремится повысить профессиональный уровень, освоить новые инструменты и заниматься интересными задачами в сфере работы с данными.


    После обучения Data Engineering вы станете востребованным специалистом, который:

    • разворачивает, налаживает и оптимизирует инструменты обработки данных

    • адаптирует датасеты для дальнейшей работы и аналитики

    • создает сервисы, которые используют результаты обработки больших объемов данных

    • отвечает за архитектуру данных в компании



    • Real Case Studies: примеры внедрений, использования инструментов, оптимизации производительности, проблемы, ошибки и прикладные результаты

      Высокая практическая направленность:


      В течение курса будем инкрементально создавать работающий продукт, решая прикладные задачи

      Целостная картина вызовов и задач современного бизнеса, и роли Инженера


      Данных в их решении

      Востребованность у работодателей


      32 работодателя уже готовы позвать на собеседование выпускников курса






        Инженер данных - почему это актуально и интересно:



      • Прежде чем попасть на стол CEO в виде квартального отчета или индивидуальной подборкой книг в email-рассылке, данные проделывают длительный и сложный, полный преобразований и трансформаций, путь, требующий непрерывного мониторинга и оркестрации.

      • В этом ключе команда инженеров, которая готова обеспечить непрерывную поставку достоверной информации для всех бизнес-потребителей и функций играет важнейшую роль в принятии тактических и стратегических решений всей компании.

      • Работа инженеров данных, внешне незаметная, удивительно сложна и интересна по своей специфике. Невероятное количество закономерностей и связей, инструментов и подходов, параметров и настроек не оставят равнодушным ни один пытливый ум в поисках оптимальных и элегантных решений.
Преподаватели
Егор Матешук
Senior Data Engineer, MaximaTelecom
Артемий Козырь
Senior Data Engineer, Wheely
Владимир Дроздецкий
Разработчик инфраструктуры exposcan.ru, crispmessenger.com
Дмитрий Музалевский
Lead Data Scientist в Koerber Digital
Последние 4 года работает с большими данными: строит системы для обработки больших данных, консультирует по вопросам построения инфраструктуры для аналитики. В основном проекты связаны с решениями на базе Hadoop и Vertica. В последнее время активно исследует облачные хранилища данных. Ранее также проводил исследования потребительской активности для банков и сетевых магазинов.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Сейчас занимает аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Преподаватель
Более 5-ти лет опыта работы с Хранилищами Данных, построении ETL/ELT, Аналитике данных и Визуализации.
Опыт работы над продуктами в компаниях PwC, Московская Биржа, Сбербанк, СИБУР, Wheely.
Сферы интересов: KPIs and Scorecards / Budgeting and Planning / Retail Scoring / Next Best Offer / Reporting.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Образование: НИУ ВШЭ, факультет бизнес-информатики.

Преподаватель
Занимается поддержкой и траблшутингом серверов MySQL, приложений, написанных на PHP, etc. Активно внедряет и использует докер со всей его инфраструктурой. Придерживается мнения, что всё должно быть декларативно описано, поэтому использует Ansible.

Разрабатывает и настраивает инфраструктуру для таких стартапов, как exposcan.ru, crispmessenger.com. Занимается мониторингом при помощи Zabbix и Prometheus, создаёт графики в Grafana.

Чтобы легко подстраиваться под требования бизнеса, деплоит и описывает процессы в Gitlab, собирает и обрабатывает логи в ELK и Graylog2. Любит и умеет пользоваться активным сетевым оборудованием вендора MikroTik.

Более 7 лет опыта в области анализа данных и машинного обучения. Опыт работы и проектов в различных индустриях: телеком, онлайн-ритейл, банковская сфера, финтех и медтех.

В настоящий момент работает в компании Koerber Digital GmbH, Берлин. Занимает позицию Lead Data Scientist и ведет работу команды, занимающейся аналитикой больших объемов данных и машинным обучением для производственных предприятий и B2B-компаний.

Образование: бакалавриат МГТУ им.Баумана "Компьютерный анализ и интерпретация данных"; магистратура НИУ МАИ "Математические методы в экономике и маркетинге".

Преподаватель
Егор
Матешук
Артемий
Козырь
Владимир
Дроздецкий
Дмитрий
Музалевский
Преподаватели
Егор Матешук
Senior Data Engineer, MaximaTelecom
Последние 4 года работает с большими данными: строит системы для обработки больших данных, консультирует по вопросам построения инфраструктуры для аналитики. В основном проекты связаны с решениями на базе Hadoop и Vertica. В последнее время активно исследует облачные хранилища данных. Ранее также проводил исследования потребительской активности для банков и сетевых магазинов.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Сейчас занимает аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Преподаватель
Артемий Козырь
Senior Data Engineer, Wheely
Более 5-ти лет опыта работы с Хранилищами Данных, построении ETL/ELT, Аналитике данных и Визуализации.
Опыт работы над продуктами в компаниях PwC, Московская Биржа, Сбербанк, СИБУР, Wheely.
Сферы интересов: KPIs and Scorecards / Budgeting and Planning / Retail Scoring / Next Best Offer / Reporting.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Образование: НИУ ВШЭ, факультет бизнес-информатики.

Преподаватель
Владимир Дроздецкий
Разработчик инфраструктуры exposcan.ru, crispmessenger.com
Занимается поддержкой и траблшутингом серверов MySQL, приложений, написанных на PHP, etc. Активно внедряет и использует докер со всей его инфраструктурой. Придерживается мнения, что всё должно быть декларативно описано, поэтому использует Ansible.

Разрабатывает и настраивает инфраструктуру для таких стартапов, как exposcan.ru, crispmessenger.com. Занимается мониторингом при помощи Zabbix и Prometheus, создаёт графики в Grafana.

Чтобы легко подстраиваться под требования бизнеса, деплоит и описывает процессы в Gitlab, собирает и обрабатывает логи в ELK и Graylog2. Любит и умеет пользоваться активным сетевым оборудованием вендора MikroTik.

Дмитрий Музалевский
Lead Data Scientist в Koerber Digital
Более 7 лет опыта в области анализа данных и машинного обучения. Опыт работы и проектов в различных индустриях: телеком, онлайн-ритейл, банковская сфера, финтех и медтех.

В настоящий момент работает в компании Koerber Digital GmbH, Берлин. Занимает позицию Lead Data Scientist и ведет работу команды, занимающейся аналитикой больших объемов данных и машинным обучением для производственных предприятий и B2B-компаний.

Образование: бакалавриат МГТУ им.Баумана "Компьютерный анализ и интерпретация данных"; магистратура НИУ МАИ "Математические методы в экономике и маркетинге".

Преподаватель
Отзывы
10
Сергей
Баранов
Курс более, чем понравился и удачно оказался "стопроцентно в руку".

- Курс значительно отодвинул наметившиеся ограничения в области архитектурных решений по работе с данными для нашей компании.
- Практически каждый (ровно каждый) вебинар курса дал мне варианты решений различных реальных проблем в реальных кейзах по работе.
- Корпус приобретённых практических навыков позволил реализовать эти решения как минимум на уровне работающих прототипов.
- Хочу отметить также серьёзный уровень владения и подачи теории, и погружённости в реальную практику преподавателей курса.

Рекомендую всем как для расширения архитектурного горизонта, так и для приобретения практических навыков работы с заявленным в программе инструментарием.
Читать целиком
Вадим
Заигрин
Очень полезный курс для инженеров данных. Широкий охват тем, глубокая проработка материала. Даже по темам, с которыми ты работаешь пару лет, узнаешь что-то новое.
Из недостатков можно отметить некоторую несогласованность между преподавателями. Например, один говорит, что системы визуального проектирования неудобны, а второй, что с их помощью можно делать то, что нужно.
Ещё хорошо бы оптимизировать последовательность тем. Теорию потоковой обработки лучше давать до практической работы со Spark Streaming.
Читать целиком
Андрей
Гореликов
1 До обучения я работал веб разработчиком джава и до поступления на курс поступил на должность разработчика хранилища, но на работе была маленькая команда и чтоб лучше освоить профессию поступил на курсы дата инженера в Отус.
2 Выбрал курс Дата инженера так как интересна эта специализация
3 В обучении понравлся актуальный материал и как преподователи вели обучение- много рабочих кейсов, быстрая проверка домашних работ и рекомендации как улучшить и тд. У меня как и многих были сложности с докером.
4 Обучение мне дало более широкие и глубокие знания по специальности с которыми я нашел новую работу, на собеседованиях уже мог обсуждать детали специальности, используемые технологии и тд. Касаемо работы я получил несколько оферов и одним из них воспользовался, можно сказать в ведущий банк и офис мечты ))
Понравился выпускной проект, было много консультаций и после во время защиты было много рекомендаций!!
Читать целиком
Юрий
Шилин
Всем привет!
Очень крутой курс,  но входной уровень знаний (linux, db, sql) нужно уже иметь.
А лучше с этим ежедневно работать, тогда данный курс будет не просто курсом, а открытие новых возможностей в профессиональной деятельности.
Читать целиком
Анатолий
Клюса
Хороший курс, несмотря на то, что молодой)
Хорошо подобран материал и домашние задания, хорошие преподаватели, нормально все организовано.
Самое главное, что, как я понял, и курс и Отус постоянно развиваются и усовершенствуются.
Мне лично было очень интересно учиться в Отусе на этом курсе, узнать много новых для меня инструментов и технологий, которые сейчас на потоке и в тренде, и попробовать их в деле.
Однозначно курс рекомендую тем, кто любит работать с данными и хочет приобщиться к современной цифровой нефти - к большим данным.
Читать целиком
Игорь
Бричко
Курс достаточно обширный по изучаемым технологиям, много практической части и реальных примеров. Хочу отметить высокую квалификацию преподавателей и уровень владения и преподавания метериалов.

Что можно улучшить.
- скорость отклика на личные сообщения и проверку ДЗ
- добавить разбор ДЗ на примере лучшей работы
- больше внимания уделить streaming процессам( этотлично мое пожелание ?)
- больше ссылок на мануалы и кейсы по технологиям

Спасибо большое за курс, продолжайте в том же направлении!
Читать целиком
Алексей
Стариков
Хороший курс.

Дает общее представление об инструментах и подходах, которые используются в работе с данными.

Курс будет очень полезен начинающим инженерам данных и тем, кто хочет начать работать по данной специальности. Те, кто уже имеет некоторый опыт, смогут сконцентрироваться на интересных для них кейсах в рамках дз и финального проекта и получить более широкое представление о сфере деятельности.

Что получилось хорошо:
- отличные преподаватели
- полезные интересные лекции

Что можно улучшить:
- лекции по devops получились слишком обзорными без конкретных кейсов и практики (стоит добавить конкретные примеры и дз)
- долгий фидбек по домашкам и быстрая их приемка в конце курса (стоит ускорить проверку дз и делать, ревью более требовательным с учетом предоставление времени на исправление замечаний, конечно)
Читать целиком
Сергей
Бордя
До обучения в Otus я закончил мастерат по Data Science и год проработал как Junior Data Engineer.
Я хотел расширить свои знания в сфере Data Engineering.
Мне нравится большое количество технологий, обсуждаемых в курсе. Некоторые уроки показались сложными, в домашних заданиях выскакивали ошибки. Без определённого бэкграунда тяжело разобраться с проблемами и качественно сделать домашнее задание. Было бы хорошо иметь какой-то майндмэп, где было бы показано какую технологию стоит выбрать в зависимости от определённых задач с плюсами и минусами.
Обучение расширило мои теоретические знания в данной области и понимания, какие технологии больше подходят для решения определённых задач.
Читать целиком
Владимир
Крокодилов
Понравилось количество обозримых инструментов (может даже перебор). Сами преподаватели были прекрасны. Возможно Андрею стоит чуть больше показывать что-то руками (обычно на его лекциях были слайды с рассказами, без "тыкания" в приложения), но даже там всё, что было сказано, было по делу. Возможно стоит добавить блок по работе с докером (как делать docker-compose), т.к. это предлагается делать в проектной работе, но подразумевается, что мы умеем или научимся самостоятельно. В блоке devops тоже хотелось бы больше материала (там было больше обсуждения концепций, чем конкретных инструментов и как с ними работать).
Проверка домашек была очень долгая. Нет, я не говорю о самих ответах (почти все комментарии были по делу). Но сроки, за которые делались проверки не лезут не в какие рамки. Люди платят деньги, а ответа можно ждать неделями. По-моему, это неуважительно по отношению к заказчику. Если говорить о самих домашках, то всё было довольно интересно. Часть сам тыкаешь, пересматриваешь лекции, часть в инструкциях. Прикольно
Это не первый мой курс и я понимал, что меня ждёт качественный продукт. Ожидания оправдались. Спасибо!
Читать целиком
Дмитрий
Андреев
На курс Data Engineering пошёл уже после прохождения курса Data Science (тоже в ОТУСе) т.к. в момент прохождения DS поймал себя на мысли, что какие бы модели ты ни выбрал и как бы ни тюнил модель - очень многое зависит от правильного сбора и предобработки данных. Курс DE дал мне всю необходимую базу по современным программам и подходам, необходимым для сбора, обработки и хранения данных. В общем и целом курс оставил крайне положительные впечатления! Было интересно и слушать лекции, и выполнять ДЗ. Они были вполне по силам, но при этом не возникало частых мыслей, что всё дается слишком легко - на мой взгляд идеальный баланс. А благодаря выполненному последнему ДЗ так и вовсе получилось сменить работу на +40% к ЗП. Работа правда не связана напрямую с DE, но эта ситуация для меня в очередной раз доказала, что под лежачий камень водичка не течёт и учиться в нашей сфере необходимо всегда, хуже от этого ещё никому не становилось!

Из минусов могу отметить периодические задержки с проверкой ДЗ и ответами в слаке. Не сказать, что эти моменты сильно помешали, просто это могло бы быть чуточку лучше ;)

Коллеги писали или говорили, что по DevOps'у мало информации - не могу с эти согласиться т.к. DevOps - это отдельная песня, по ней даже курс на несколько месяцев имеется. А вот добавить в самое начало курса занятие по Docker, вокруг которого крутится половина ДЗ и примеров, было бы абсолютно не лишним.

По итогу могу с полной уверенностью сказать, что курс стоит и своих денег, и затраченного времени!
Читать целиком
Сергей
Баранов
Курс более, чем понравился и удачно оказался "стопроцентно в руку".

- Курс значительно отодвинул наметившиеся ограничения в области архитектурных решений по работе с данными для нашей компании.
- Практически каждый (ровно каждый) вебинар курса дал мне варианты решений различных реальных проблем в реальных кейзах по работе.
- Корпус приобретённых практических навыков позволил реализовать эти решения как минимум на уровне работающих прототипов.
- Хочу отметить также серьёзный уровень владения и подачи теории, и погружённости в реальную практику преподавателей курса.

Рекомендую всем как для расширения архитектурного горизонта, так и для приобретения практических навыков работы с заявленным в программе инструментарием.
Читать целиком
Вадим
Заигрин
Очень полезный курс для инженеров данных. Широкий охват тем, глубокая проработка материала. Даже по темам, с которыми ты работаешь пару лет, узнаешь что-то новое.
Из недостатков можно отметить некоторую несогласованность между преподавателями. Например, один говорит, что системы визуального проектирования неудобны, а второй, что с их помощью можно делать то, что нужно.
Ещё хорошо бы оптимизировать последовательность тем. Теорию потоковой обработки лучше давать до практической работы со Spark Streaming.
Читать целиком
Андрей
Гореликов
1 До обучения я работал веб разработчиком джава и до поступления на курс поступил на должность разработчика хранилища, но на работе была маленькая команда и чтоб лучше освоить профессию поступил на курсы дата инженера в Отус.
2 Выбрал курс Дата инженера так как интересна эта специализация
3 В обучении понравлся актуальный материал и как преподователи вели обучение- много рабочих кейсов, быстрая проверка домашних работ и рекомендации как улучшить и тд. У меня как и многих были сложности с докером.
4 Обучение мне дало более широкие и глубокие знания по специальности с которыми я нашел новую работу, на собеседованиях уже мог обсуждать детали специальности, используемые технологии и тд. Касаемо работы я получил несколько оферов и одним из них воспользовался, можно сказать в ведущий банк и офис мечты ))
Понравился выпускной проект, было много консультаций и после во время защиты было много рекомендаций!!
Читать целиком
Юрий
Шилин
Всем привет!
Очень крутой курс,  но входной уровень знаний (linux, db, sql) нужно уже иметь.
А лучше с этим ежедневно работать, тогда данный курс будет не просто курсом, а открытие новых возможностей в профессиональной деятельности.
Читать целиком
Анатолий
Клюса
Хороший курс, несмотря на то, что молодой)
Хорошо подобран материал и домашние задания, хорошие преподаватели, нормально все организовано.
Самое главное, что, как я понял, и курс и Отус постоянно развиваются и усовершенствуются.
Мне лично было очень интересно учиться в Отусе на этом курсе, узнать много новых для меня инструментов и технологий, которые сейчас на потоке и в тренде, и попробовать их в деле.
Однозначно курс рекомендую тем, кто любит работать с данными и хочет приобщиться к современной цифровой нефти - к большим данным.
Читать целиком
Игорь
Бричко
Курс достаточно обширный по изучаемым технологиям, много практической части и реальных примеров. Хочу отметить высокую квалификацию преподавателей и уровень владения и преподавания метериалов.

Что можно улучшить.
- скорость отклика на личные сообщения и проверку ДЗ
- добавить разбор ДЗ на примере лучшей работы
- больше внимания уделить streaming процессам( этотлично мое пожелание ?)
- больше ссылок на мануалы и кейсы по технологиям

Спасибо большое за курс, продолжайте в том же направлении!
Читать целиком
Алексей
Стариков
Хороший курс.

Дает общее представление об инструментах и подходах, которые используются в работе с данными.

Курс будет очень полезен начинающим инженерам данных и тем, кто хочет начать работать по данной специальности. Те, кто уже имеет некоторый опыт, смогут сконцентрироваться на интересных для них кейсах в рамках дз и финального проекта и получить более широкое представление о сфере деятельности.

Что получилось хорошо:
- отличные преподаватели
- полезные интересные лекции

Что можно улучшить:
- лекции по devops получились слишком обзорными без конкретных кейсов и практики (стоит добавить конкретные примеры и дз)
- долгий фидбек по домашкам и быстрая их приемка в конце курса (стоит ускорить проверку дз и делать, ревью более требовательным с учетом предоставление времени на исправление замечаний, конечно)
Читать целиком
Сергей
Бордя
До обучения в Otus я закончил мастерат по Data Science и год проработал как Junior Data Engineer.
Я хотел расширить свои знания в сфере Data Engineering.
Мне нравится большое количество технологий, обсуждаемых в курсе. Некоторые уроки показались сложными, в домашних заданиях выскакивали ошибки. Без определённого бэкграунда тяжело разобраться с проблемами и качественно сделать домашнее задание. Было бы хорошо иметь какой-то майндмэп, где было бы показано какую технологию стоит выбрать в зависимости от определённых задач с плюсами и минусами.
Обучение расширило мои теоретические знания в данной области и понимания, какие технологии больше подходят для решения определённых задач.
Читать целиком
Владимир
Крокодилов
Понравилось количество обозримых инструментов (может даже перебор). Сами преподаватели были прекрасны. Возможно Андрею стоит чуть больше показывать что-то руками (обычно на его лекциях были слайды с рассказами, без "тыкания" в приложения), но даже там всё, что было сказано, было по делу. Возможно стоит добавить блок по работе с докером (как делать docker-compose), т.к. это предлагается делать в проектной работе, но подразумевается, что мы умеем или научимся самостоятельно. В блоке devops тоже хотелось бы больше материала (там было больше обсуждения концепций, чем конкретных инструментов и как с ними работать).
Проверка домашек была очень долгая. Нет, я не говорю о самих ответах (почти все комментарии были по делу). Но сроки, за которые делались проверки не лезут не в какие рамки. Люди платят деньги, а ответа можно ждать неделями. По-моему, это неуважительно по отношению к заказчику. Если говорить о самих домашках, то всё было довольно интересно. Часть сам тыкаешь, пересматриваешь лекции, часть в инструкциях. Прикольно
Это не первый мой курс и я понимал, что меня ждёт качественный продукт. Ожидания оправдались. Спасибо!
Читать целиком
Дмитрий
Андреев
На курс Data Engineering пошёл уже после прохождения курса Data Science (тоже в ОТУСе) т.к. в момент прохождения DS поймал себя на мысли, что какие бы модели ты ни выбрал и как бы ни тюнил модель - очень многое зависит от правильного сбора и предобработки данных. Курс DE дал мне всю необходимую базу по современным программам и подходам, необходимым для сбора, обработки и хранения данных. В общем и целом курс оставил крайне положительные впечатления! Было интересно и слушать лекции, и выполнять ДЗ. Они были вполне по силам, но при этом не возникало частых мыслей, что всё дается слишком легко - на мой взгляд идеальный баланс. А благодаря выполненному последнему ДЗ так и вовсе получилось сменить работу на +40% к ЗП. Работа правда не связана напрямую с DE, но эта ситуация для меня в очередной раз доказала, что под лежачий камень водичка не течёт и учиться в нашей сфере необходимо всегда, хуже от этого ещё никому не становилось!

Из минусов могу отметить периодические задержки с проверкой ДЗ и ответами в слаке. Не сказать, что эти моменты сильно помешали, просто это могло бы быть чуточку лучше ;)

Коллеги писали или говорили, что по DevOps'у мало информации - не могу с эти согласиться т.к. DevOps - это отдельная песня, по ней даже курс на несколько месяцев имеется. А вот добавить в самое начало курса занятие по Docker, вокруг которого крутится половина ДЗ и примеров, было бы абсолютно не лишним.

По итогу могу с полной уверенностью сказать, что курс стоит и своих денег, и затраченного времени!
Читать целиком
Необходимые знания
Необходимое:

  • Опыт разработки на Java/Python
  • Основы работы с БД: SQL, индексы, агрегирующие функции
  • Базовые знания ОС: работа с командной строкой, доступ по SSH
  • Будет плюсом:

  • Навыки программирования на Scala
  • Знакомство с компонентами экосистемы Hadoop
  • Понимание основ машинного обучения с позиции Data Scienist-а или аналитика
Подготовительный курс
Курс рассчитан для программистов и администраторов, которые хотят освоить ОС Linux с нуля.

На курсе мы:

  • детально разберем основные команды в Linux и научимся работать в консоли

  • познакомимся с зомби, сиротами и демонами

  • выясним, что такое ядро операционной системы и системные вызовы

  • научимся работать со стандартными потоками ввода/вывода

  • разберем некоторые особенности файловой системы ext4

Записаться
Процесс обучения
Обучение проходит в формате онлайн-вебинаров на русском языке.
Регулярность занятий: 2 раза в неделю по 2 академических часа (1.5 астрономических часа).

Каждые 2 недели предполагается выполнение 1 домашнего задания (время на выполнение: 2-4 академических часа). По всем практическим заданиям команда преподавателей дает развернутый фидбек.

Для прохождения курса потребуется компьютер с доступом в интернет и аккаунт на облаке (Google Cloud) с неиспользованной Free Trial версией.
Программа обучения
Модуль 1
Инженер Данных: задачи, инструменты, платформы
Модуль 2
Процессинг. Доступ к данным. ML
Модуль 3
Загрузка и форматы данных (Data Ingestion)
Модуль 4
Очереди сообщений. Хранилища данных. SQL-доступ.
Модуль 5
Обеспечивающие системы. Оркестрация, тестирование, мониторинг
Модуль 6
Проектная работа
Инженер Данных: задачи, инструменты, платформы
По результатам модуля:
- имеем представление о задачах и инструментах
- знаем, умеем объяснить, сравнить, применять
- умеем развернуть кластер в облаке
Тема 1: Инженер Данных. Задачи, навыки, инструменты, потребности на рынке
познакомиться;
обсудить правила работы и общения;
объяснить, кто такой Инженер Данных и какие перед ним стоят задачи.
Домашние задания: 1
1 Домашнее задание: анализ рынка Инженер Данных: РФ, USA, EU
Цель: Изучить рынок Data Engineering и его особенности в РФ, EU, USA Проанализировать требования к языкам, стеку инструментов и опыту Поставить цели и акценты на обучение для себя
Тема 2: Эволюция подходов работы с данными. Базовые принципы и понятия
проследить эволюцию подходов работы с данными;
получить представление о технологиях и инструментах;
рассмотреть принципы построения архитектуры аналитического приложения.
4 июня, 20:00 — 21:30
Лектор: Артемий Козырь
Тема 3: Облачные платформы. Дистрибутивы Cloudera и Hortonworks
объяснить, чем отличаются облака и on-premise;
выяснить, какие платформы есть для каждого из вариантов;
объяснить, чем определяется выбор конкретной платформы;
провести обзор инструментов для обработки данных: Cloudera, GCP, AWS.
8 июня, 20:00 — 21:30
Лектор: Егор Матешук
Домашние задания: 1
1 Развернуть дистрибутив Cloudera
Цель: Цель этого ДЗ - научиться выполнять базовые операции на кластере Hadoop. В его ходе нужно будет развернуть свой мини-кластер в Google Cloud Platform и создать таблицу в Hive.
Тема 4: Форматы данных и их особенности
определить факторы выбора формата хранения данных;
объяснить разницу между Row-based и Column-based форматами;
провести обзор наиболее распространенных форматов.
11 июня, 20:00 — 21:30
Лектор: Артемий Козырь
Процессинг. Доступ к данным. ML
По результатам модуля:
- делаем вычисления, преобразования, агрегации данных (ETL)
- формируем конечные витрины (для ML / BI)
- обучаем простенькую модель
Тема 1: Scala, введение в Spark
изучить основы языка Scala;
научиться собирать простейшее Scala-приложение.
15 июня, 20:00 — 21:30
Домашние задания: 1
1 Введение в Scala
Цель: Написать распределенное приложение для чтения JSON-файлов.
Тема 2: Apache Spark - 1 часть
- Spark - что это и зачем он нужен
- API - RDD, Dataset, Dataframe, операции над распределенными коллекциями
- Процесс вычисления в Spark - task, stage, оптимизатор запросов
18 июня, 20:00 — 21:30
Тема 3: Apache Spark - 2 часть
- Spark - что это и зачем он нужен
- API - RDD, Dataset, Dataframe, операции над распределенными коллекциями
- Процесс вычисления в Spark - task, stage, оптимизатор запросов
22 июня, 20:00 — 21:30
Домашние задания: 1
1 Введение в Spark + Гид по безопасному Бостону
Цель: В этом задании предлагается собрать статистику по криминогенной обстановке в разных районах Бостона, используя Apache Spark.
Тема 4: Очереди сообщений, Kafka, Confluent platform
- Kafka, RabbitMQ
- Потоковая обработка (виды обработки, описание Producer–consumer problem, пример архитектурного решения через Kafka, RabbitMQ, NATS)
- Google Dataflow paper (Event time vs processing time и так далее).
- Паттерны stream processing Joins, enricher, router. Event-sourcing.
25 июня, 20:00 — 21:30
Тема 5: Spark Streaming
- Micro-batch обработка данных
- Классический Spark Streaming
- Structured Streaming
- Continuous processing
29 июня, 20:00 — 21:30
Тема 6: Доступ к данным, ноутбуки. Explore and visualize
- Инструменты интерактивной аналитики
- Google Cloud Datalab
- Jupyter - интеграция с Apache Spark
2 июля, 20:00 — 21:30
Тема 7: Обучение моделей. ML
Пример построения модели
6 июля, 20:00 — 21:30
Домашние задания: 1
1 Задание: обучаем собственную модель.
Цель: В результате данного ДЗ вы научитесь обучаю свою собственную простейшую модель на Apache Spark и применять ее к стриминговым данным.
Загрузка и форматы данных (Data Ingestion)
По результатам модуля:
- грузим в файловую систему
- смотрим форматы
- сравниваем сжатия
- настраиваем репликацию
Тема 1: Распределенные файловые системы
- Принципы работы распределенных файловых систем
- Структура кластера HDFS
- Тонкости настройки HDFS - конфигурация, защита, обеспечение отказоустойчивости
9 июля, 20:00 — 21:30
Тема 2: Инструменты выгрузки данных из сторонних систем - 1 часть
- Типы систем-источников. Структурированные, полу- и неструктурированные данные. Логи, выгрузки из АС, Clickstream
- Инструменты для извлечения и загрузки данных - Flume, Sqoop, StreamSets, Fluentd, Debezium, logstash
- Практические примеры загрузки данных из сервисных баз данных
13 июля, 20:00 — 21:30
Тема 3: Инструменты выгрузки данных из сторонних систем - 2 часть
- Типы систем-источников. Структурированные, полу- и неструктурированные данные. Логи, выгрузки из АС, Clickstream
- Инструменты для извлечения и загрузки данных - Flume, Sqoop, StreamSets, Fluentd
- Практические примеры загрузки данных из сервисных баз данных
16 июля, 20:00 — 21:30
Домашние задания: 1
1 Создать снепшот аналитической таблицы из операционного хранилища
Цель: Зачастую в Data Lake не требуется хранить всех сырых данных, например в ситуации когда наиболее интересными для пользователя являются какие-либо аналитические выгрузки. В нашем домашнем задании мы напишем пример такого приложения, которое позволяет писать в Data Lake текущий аналитический срез.
Очереди сообщений. Хранилища данных. SQL-доступ.
По результатам модуля:
- добавляем stream-источник
- создаем схему в хранилище
- создаем дизайн
- оптимизируем под задачу
Тема 1: DWH. Хранилища данных - 1 часть
- Семейство MPP баз - назначение и особенности
- Логический и физический дизайн
- Vertica
27 июля, 20:00 — 21:30
Тема 2: DWH. Хранилища данных - 2 часть
- Семейство MPP баз - назначение и особенности
- Логический и физический дизайн
- Google BigQuery
30 июля, 20:00 — 21:30
Домашние задания: 1
1 Домашнее задание: проектирование витрины в Vertica (BigQuery).
Цель: Спроектировать схему данных + Построить витрину Использовать Vertica (Docker) или BigQuery • Датасет: Захват данных из divolte (или GCP Public Datasets) Definition of Done: • DDL объектов • DML шагов преобразований • Опционально: Тестирование на наличие ошибок в данных
Тема 3: Хранилища NoSQL. Назначение и особенности
- NoSQL Databases. HBase, Cassandra, Elasticsearch, Aerospike
- Key-value
- Cache
3 августа, 20:00 — 21:30
Тема 4: SQL-доступ к данным. Apache Hive.
6 августа, 20:00 — 21:30
Домашние задания: 1
1 HiveQL
Цель: Практика с Hive на CDH
Тема 5: ElasticSearch
- Знакомство с компонентами ELK-стэка
- Классы задач, для которых подходит ELK
10 августа, 20:00 — 21:30
Обеспечивающие системы. Оркестрация, тестирование, мониторинг
По результатам модуля:
- настроили мониторинг
- выстроили DevOps pipeline
- настроили метрики качества данных
Тема 1: Оркестрация
- Как организовать многоэтапные процессы обработки данных
- Инструменты оркестрации - Oozie, Airflow
13 августа, 20:00 — 21:30
Тема 2: Интеграция, тестирование, развертывание. CI / CD. DevOps
- Культура DevOps
- Работа в команде
- CI / CD
- Auto tests
17 августа, 20:00 — 21:30
Тема 3: Мониторинг
- Инструменты мониторинга - Prometheus, Zabbix, Graphite, Grafana
- Специфика мониторинга процессов обработки данных
20 августа, 20:00 — 21:30
Тема 4: Data Quality. Контроль качества данных, мастер-данные, Troubleshooting
- Data Quality and Consistency. Качество данных. MDM
- Ошибки в коде, логике, виды, последствия, как найти и устранить корневую причину
- Вопросы поддержки. Support
- Network, integration, data quality, system faults, disk space, executor out of memory, grants, access rights, security
- Метрики качества. Контроль качества. Data Fix - как исправлять найденные ошибки
- MDM: управление мастер-данными
24 августа, 20:00 — 21:30
Тема 5: Case studies. Кейсы компаний.
Углубленные вопросы оптимизации. Фишки. Примеры, разбор
27 августа, 20:00 — 21:30
Тема 6: Бонус. Дальнейшее развитие Hard skills + Soft skills
- Где искать ответы на вопросы. Ресурсы. Как быстро разбираться и решать проблемы.
- Benchmarking - умеем сравнивать инструменты для решения конкретных задач
- Как грамотно составить резюме (CV) + proof-read резюме участников курса
- Как развиваться в плане Soft skills, Hard skills. Contribution.
31 августа, 20:00 — 21:30
Проектная работа
Выпускной проект: реализация задачи по выбранной тематике в реальном времени с применением парадигмы Map-Reduce кластере в виде pipeline (Kafka, Spark, Hadoop экосистема) и визуализация результатов.

Список возможных тем проектов будет предложен. Также можно взять задачу "с работы" или близкого себе проекта.
Тема 1: Выбор темы и организация проектной работы
выбрать и обсудить тему проектной работы;
спланировать работу над проектом;
ознакомиться с регламентом работы над проектом.
3 сентября, 20:00 — 21:30
Домашние задания: 1
1 Проектная работа
Тема 2: Консультация по проектам и домашним заданиям
получить ответы на вопросы по проекту, ДЗ и по курсу.
7 сентября, 20:00 — 21:30
Тема 3: Защита проектных работ
защитить проект и получить рекомендации экспертов.
10 сентября, 20:00 — 21:30
Выпускной проект
Выпускной проект: реализация задачи по выбранной тематике в реальном времени с применением парадигмы Map-Reduce кластере в виде pipeline (Kafka, Spark, Hadoop экосистема) и визуализация результатов.

Список возможных тем проектов будет предложен. Также можно взять задачу "с работы" или близкого себе проекта.
Прошедшие открытые вебинары по курсу
Открытый вебинар — это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.
Знакомство с Greenplum
Егор Матешук
День открытых дверей
21 мая в 20:00
Для доступа к прошедшим мероприятиям необходимо пройти входное тестирование
Возможность пройти вступительное тестирование повторно появится только через 2 недели
Результаты тестирования будут отправлены вам на e-mail, указанный при регистрации.
Тест рассчитан на 30 минут, после начала тестирования отложить тестирование не получится!
Пройти вступительное тестирование
После обучения вы
Заберете с собой:
  • основные и дополнительные материалы, и видеозаписи занятий;

  • образцы кода;

  • собственный проект, который можно будет показывать при трудоустройстве;

  • сертификат о прохождении обучения.

  • В результате обучения вы:
  • будете иметь представление об основных классах задач Инженера Данных, инструментах, предназначенных для их решения, а также их преимуществах и особенностях;

  • научитесь выстраивать пайплайны пакетной и потоковой обработки данных;

  • сможете проектировать хранилища данных и организовывать оптимальный доступ для потребителей;

  • получите ряд полезных навыков: умение грамотно составлять CV, проходить интервью, выстраивать совместную работу с коллегами
Дата выдачи сертификата: 26 октября 2020 года
Ваш сертификат

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Data Engineer»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018 года.

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Data Engineer»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018 года.
Общая стоимость
80 000 ₽ 64 000 ₽
В месяц: 22 500 ₽
Продолжительность
4 месяца
Начало занятий
28 мая
🎁 Дарим сертификаты на скидку!
Запишитесь на июньскую трансляцию интересного вам дня открытых дверей и получите скидочный сертификат ➞