Промышленный ML на больших данных | OTUS
⚡ Открываем подписку на курсы!
Проходите параллельно 3 онлайн-курса в месяц по цене одного.
Подробнее

Курсы

Программирование
Flutter Mobile Developer Подготовка к сертификации Oracle Java Programmer (OCAJP)
-8%
Алгоритмы и структуры данных
-12%
Web-разработчик на Python
-11%
Архитектура и шаблоны проектирования
-14%
JavaScript Developer. Basic Супер-интенсив «СУБД в высоконагруженных системах»
-18%
iOS-разработчик. Базовый курс
-23%
Разработчик на Spring Framework
-23%
Python Developer. Basic
-16%
C# ASP.NET Core разработчик
-18%
Разработчик программных роботов (RPA) на базе UiPath и PIX
-6%
JavaScript Developer. Professional
-9%
Android Developer. Basic
-10%
Java Developer. Professional Разработчик C# AWS для разработчиков Highload Architect Reverse-Engineering. Professional CI/CD Vue.js разработчик Agile Project Manager Нереляционные базы данных Супер - интенсив по паттернам проектирования Супер - интенсив по Kubernetes Advanced Fullstack JavaScript developer
Инфраструктура
PostgreSQL
-10%
IoT-разработчик
-12%
Administrator Linux. Professional
-11%
Базы данных
-19%
Administrator Linux.Basic
-18%
Супер-интенсив «СУБД в высоконагруженных системах»
-18%
Супер-интенсив "SQL для анализа данных"
-16%
Software Architect
-12%
Сетевой инженер AWS для разработчиков Highload Architect Разработчик голосовых ассистентов и чат-ботов Внедрение и работа в DevSecOps Администратор Linux. Виртуализация и кластеризация Нереляционные базы данных Супер-практикум по использованию и настройке GIT
Специализации Курсы в разработке Подготовительные курсы
+7 499 938-92-02
Специальная цена
Специальная цена

Промышленный ML на больших данных

Единственный в России практический курс по инструментам и технологиям работы с большими данными.

Длительность обучения:

Формат:

Начало занятий:

Дни занятий:

5 месяцев

4 ак. часа в нед.

Online

30 октября

Вт 20:00, Пт 20:00

Что даст вам этот курс

Вы освоите все необходимые навыки машинного обучения для потоковых данных и распределенной среды. В программу включены необходимые знания из областей Data Science и Data Engineering, которые позволят вам обрабатывать большие данные и писать распределенные алгоритмы на Spark.

Каждый модуль вы будете закреплять на практике, выполняя домашнее задание. В конце обучения вас ждет финальный проект, который позволит обобщить все полученные знания и пополнить портфолио. Он может быть выполнен в рамках рабочих задач на вашем датасете или быть учебным проектом, основанным на данных, предоставляемых OTUS.

Для кого этот курс?


  • Для специалистов по Машинному обучению или Software инженеров, которые хотят научиться работать с большими данными. Обычно такие задачи имеются в крупных IT-компаниях с масштабным цифровым продуктом.

  • Для Data Scientist, которые хотят усилить свой скиллсет инженерными навыками. Благодаря курсу вы будете уметь обрабатывать данные и самостоятельно выводить результаты ML-решений в продакшн.

Для обучения вам понадобятся базовые навыки работы с данными. Предлагаем посмотреть Карту курсов направления Data Science в OTUS, чтобы сориентироваться в необходимом уровне подготовки.

Вы научитесь:


  • Использовать стандартные инструменты ML-конвейеров в распределенной среде;

  • Разрабатывать собственные блоки для ML-конвейеров;

  • Адаптировать ML-алгоритмы к распределенной среде и инструментам big data;

  • Использовать Spark, SparkML, Spark Streaming;

  • Разрабатывать алгоритмы потоковой подготовки данных для машинного обучения;

  • Обеспечивать контроль качества на всех этапах движения ML-решений в промышленную эксплуатацию.


Востребованность специалистов


Навыки, которые вы освоите, максимально прикладные и перспективные. На рынке появляется все больше цифровых продуктов, для развития которых необходима работа с большими данными и потоковую обработку. Уже сейчас специалисты с таким пулом навыков и некоторым опытом работы могут претендовать на зарплату от 270 тыс. рублей.

Другой тренд — автоматизация процессов обучения и валидации, напротив, в некотором роде обесценивает работу классического Data Scientist. Все движется к тому, что даже неспециалист сможет сделать fit-predict. Поэтому уже сейчас в цене те, кто имеют хотя бы поверхностные инженерные навыки.

Особенности курса


Много практики работы с данными

Широкий спектр навыков от распределенного ML и потоковой обработки данных до вывода в продакшн

Актуальные инструменты и технологии: Scala, Spark, Python, Docker

Живое общение с экспертами на вебинарах и в чате Slack

Преподаватели

Дмитрий Бугайченко
Управляющий директор в Сбербанке
Андрей Кузнецов
Machine Learning Engineer, Mail.ru Group
Михаил Марюфич
Machine Learning Engineer в Mail.Ru Group
Кирилл Султанов
Егор Матешук
CDO AdTech-компании Квант
Дмитрий Музалевский
Lead Data Scientist, Берлин
Артемий Козырь
Senior Data Engineer, Wheely
Специалист по работе с большими данными и машинному обучению. В течение 8 лет работал в «Одноклассники.ru». Руководил командой OK Data Lab (лаборатория для исследователей в области big data и machine learning).

Анализ больших данных в Одноклассниках стал уникальным шансом совместить теоретическую подготовку и научный фундамент с разработкой реальных, востребованных продуктов. С 2019 года работает в Сбербанке на должности управляющего директора. Выступает в роли лидера кластера разработки платформы рекомендательных систем дивизиона массовой персонализации.

Окончил Санкт-Петербургский государственный университет в 2004 году, там же защитил кандидатскую по формально-логическим методам в 2007. Почти 9 лет проработал в аутсорсинге, не теряя контакта с университетом и научной средой.

Преподаватель
В настоящий момент работает в компании Mail.ru Group на позиции Machine Learning Engineer, разрабатывает рекомендательные системы. Ранее 7 лет преподавал ИТ, ИБ и статистику. Кандидат технических наук.

Основной стек технологий и фреймворков:
- Programming Languages: Scala, SQL, Bash, Python;
- BigData: Spark, Hadoop.

Руководитель программы
Machine Learning Engineer в Mail.Ru Group, в последнее время специализация — Deep Learning. Занимается машинным обучением более 4-х лет, решает задачи end2end, от формулировки проблемы до выкатки в промышленную эксплуатацию и дальнейшей поддержки системы. В профессиональной деятельности превыше всего ценит воспроизводимость результатов и хорошие процессы разработки.

Образование: Математико-Механический факультет СПбГУ, направления “Data Science” и “Software Engineering” в Computer Science Center

Преподаватель
Технический руководитель / архитектор в области BigData с более чем 11-летним опытом работы в сфере информационных технологий. Имею опыт работы с различными платформами с акцентом на бэкэндах / больших данных / IoT / облаках (в настоящее время специализируюсь на Azure). Непрерывный стаж работы с BigData 9+ лет. Опыт создания традиционных облачных хранилищ данных, Data Lakes, Lake Houses. На предыдущих проектах плотно работал с системами управления контейнерами и ресурсами: Kubernetes, Docker, Yarn.
Основной стек технологий и фреймворков:
- Programming Languages: Java, Scala, SQL, Bash, Python;
- BigData: Spark, Kafka, Hadoop, Yarn, HDFS, MapReduce, Hive, Spark, Tez, Flume, Sqoop, Zookeeper;
- NoSQL: Cassandra, HBase (Phoenix/Tephra, Kylin);
- Streaming and ETL: Spark, Kafka/Streams, Storm, Flume, StreamSets, NiFi;
- Search: Elasticsearch/ELK;
- Frameworks and Libraries: Netty, Play Framework, Akka, KAA, Tensorflow, Mahout, Sparkling Water (H2O), Mondrian;
- RDBMS: MySQL/MariaDB, Infobright, Microsoft SQL.

Преподаватель
Последние 6 лет работает с большими данными: строит системы для обработки данных, консультирует по вопросам построения аналитических решений.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Затем занимал аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы). На данный момент является CDO AdTech-компании Квант.
Большой опыт работы с сервисами Hadoop (HDFS, Hive, Impala), оркестраторами (Airflow, Oozie), MPP-базами (Vertica, Kudu, Greenplum) и различными фреймворками для обработки данных (Spark, Flink).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Преподаватель
Более 8 лет опыта в области анализа данных и машинного обучения в различных индустриях: телеком, онлайн-ритейл, банковская сфера, финтех и медтех.

В настоящий момент работает в медицинской сфере, занимаясь проблемами обработки звуковых сигналов и улучшением слуховых аппаратов. На позиции Lead Data Scientist ведет работу команды по аналитике больших объемов данных, машинным и глубоким обучением полного цикла.

Образование: бакалавриат МГТУ им.Баумана «Компьютерный анализ и интерпретация данных»; магистратура НИУ МАИ «Математические методы в экономике и маркетинге».

Преподаватель
Более 5-ти лет опыта работы с Хранилищами Данных, построении ETL/ELT, Аналитике данных и Визуализации.
Опыт работы над продуктами в компаниях PwC, Московская Биржа, Сбербанк, СИБУР, Wheely.
Сферы интересов: KPIs and Scorecards / Budgeting and Planning / Retail Scoring / Next Best Offer / Reporting.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Образование: НИУ ВШЭ, факультет бизнес-информатики.

Преподаватель
Дмитрий
Бугайченко
Андрей
Кузнецов
Михаил
Марюфич
Кирилл
Султанов
Егор
Матешук
Дмитрий
Музалевский
Артемий
Козырь

Преподаватели

Дмитрий Бугайченко
Управляющий директор в Сбербанке
Специалист по работе с большими данными и машинному обучению. В течение 8 лет работал в «Одноклассники.ru». Руководил командой OK Data Lab (лаборатория для исследователей в области big data и machine learning).

Анализ больших данных в Одноклассниках стал уникальным шансом совместить теоретическую подготовку и научный фундамент с разработкой реальных, востребованных продуктов. С 2019 года работает в Сбербанке на должности управляющего директора. Выступает в роли лидера кластера разработки платформы рекомендательных систем дивизиона массовой персонализации.

Окончил Санкт-Петербургский государственный университет в 2004 году, там же защитил кандидатскую по формально-логическим методам в 2007. Почти 9 лет проработал в аутсорсинге, не теряя контакта с университетом и научной средой.

Преподаватель
Андрей Кузнецов
Machine Learning Engineer, Mail.ru Group
В настоящий момент работает в компании Mail.ru Group на позиции Machine Learning Engineer, разрабатывает рекомендательные системы. Ранее 7 лет преподавал ИТ, ИБ и статистику. Кандидат технических наук.

Основной стек технологий и фреймворков:
- Programming Languages: Scala, SQL, Bash, Python;
- BigData: Spark, Hadoop.

Руководитель программы
Михаил Марюфич
Machine Learning Engineer в Mail.Ru Group
Machine Learning Engineer в Mail.Ru Group, в последнее время специализация — Deep Learning. Занимается машинным обучением более 4-х лет, решает задачи end2end, от формулировки проблемы до выкатки в промышленную эксплуатацию и дальнейшей поддержки системы. В профессиональной деятельности превыше всего ценит воспроизводимость результатов и хорошие процессы разработки.

Образование: Математико-Механический факультет СПбГУ, направления “Data Science” и “Software Engineering” в Computer Science Center

Преподаватель
Кирилл Султанов
Технический руководитель / архитектор в области BigData с более чем 11-летним опытом работы в сфере информационных технологий. Имею опыт работы с различными платформами с акцентом на бэкэндах / больших данных / IoT / облаках (в настоящее время специализируюсь на Azure). Непрерывный стаж работы с BigData 9+ лет. Опыт создания традиционных облачных хранилищ данных, Data Lakes, Lake Houses. На предыдущих проектах плотно работал с системами управления контейнерами и ресурсами: Kubernetes, Docker, Yarn.
Основной стек технологий и фреймворков:
- Programming Languages: Java, Scala, SQL, Bash, Python;
- BigData: Spark, Kafka, Hadoop, Yarn, HDFS, MapReduce, Hive, Spark, Tez, Flume, Sqoop, Zookeeper;
- NoSQL: Cassandra, HBase (Phoenix/Tephra, Kylin);
- Streaming and ETL: Spark, Kafka/Streams, Storm, Flume, StreamSets, NiFi;
- Search: Elasticsearch/ELK;
- Frameworks and Libraries: Netty, Play Framework, Akka, KAA, Tensorflow, Mahout, Sparkling Water (H2O), Mondrian;
- RDBMS: MySQL/MariaDB, Infobright, Microsoft SQL.

Преподаватель
Егор Матешук
CDO AdTech-компании Квант
Последние 6 лет работает с большими данными: строит системы для обработки данных, консультирует по вопросам построения аналитических решений.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Затем занимал аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы). На данный момент является CDO AdTech-компании Квант.
Большой опыт работы с сервисами Hadoop (HDFS, Hive, Impala), оркестраторами (Airflow, Oozie), MPP-базами (Vertica, Kudu, Greenplum) и различными фреймворками для обработки данных (Spark, Flink).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Преподаватель
Дмитрий Музалевский
Lead Data Scientist, Берлин
Более 8 лет опыта в области анализа данных и машинного обучения в различных индустриях: телеком, онлайн-ритейл, банковская сфера, финтех и медтех.

В настоящий момент работает в медицинской сфере, занимаясь проблемами обработки звуковых сигналов и улучшением слуховых аппаратов. На позиции Lead Data Scientist ведет работу команды по аналитике больших объемов данных, машинным и глубоким обучением полного цикла.

Образование: бакалавриат МГТУ им.Баумана «Компьютерный анализ и интерпретация данных»; магистратура НИУ МАИ «Математические методы в экономике и маркетинге».

Преподаватель
Артемий Козырь
Senior Data Engineer, Wheely
Более 5-ти лет опыта работы с Хранилищами Данных, построении ETL/ELT, Аналитике данных и Визуализации.
Опыт работы над продуктами в компаниях PwC, Московская Биржа, Сбербанк, СИБУР, Wheely.
Сферы интересов: KPIs and Scorecards / Budgeting and Planning / Retail Scoring / Next Best Offer / Reporting.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Образование: НИУ ВШЭ, факультет бизнес-информатики.

Преподаватель
Необходимые знания
Базовые навыки программирования:
  • управляющие конструкции, циклы, рекурсия;
  • основные структуры данных: массивы, списки, словари, деревья;
  • базовые принципы ООП;
  • знакомство с одним из языков: Python, Java, Scala, C++.
Математика:
  • линейная алгебра: вектора, матрицы и их произведения;
  • матан: производная простых и композитных функций;
  • вычметоды: градиентный спуск, Ньютоновские итерации;
  • теория вероятности: случайные события и величины, математическое ожидание, дисперсия.
Технологии:
  • понимание основ работы вычислительной техники в рамках архитектуры фон Неймана (процессор, память, кэш, подключаемое хранилище);
  • понимание общих принципов реляционных СУБД, знание SQL.
Будет плюсом: знакомство с классическими алгоритмами машинного обучения.
Программа обучения
В процессе обучения вы получите комплексные знания и навыки.
C 30 октября
Тема 1. Градиентный спуск и линейные модели
Тема 2. Обзор основных методов и метрик машинного обучения
Тема 3. Основы программирования на Scala
C 13 ноября
Тема 4. Распределенные хранилища
Тема 5. Эволюция параллельных алгоритмов 1
Тема 6. Эволюция параллельных алгоритмов 2
Тема 7. Менеджеры ресурсов в распределенных системах
Тема 8. Основы Apache Spark 1
Тема 9. Основы Apache Spark 2
C 4 декабря
Тема 10. Перенос МЛ-алгоритмов в распределенную среду
Тема 11. ML в Apache Spark
Тема 12. Разработка собственных блоков для SparkML
Тема 13. Сторонние библиотеки для использования со Spark
Тема 14. Оптимизация гиперпараметров и AutoML
C 22 декабря
Тема 15. Потоковая обработка данных
Тема 16. Spark Streaming
Тема 17. Структурный и непрерывный стриминг в Spark
Тема 18. Альтернативные потоковые фреймворки
C 15 января
Тема 19. Определение цели МЛ-проекта и предварительный анализ
Тема 20. Долгосрочные ML-цели на примере задачи уменьшения оттока
Тема 21. А/Б тестирование
Тема 22. Дополнительные темы
C 29 января
Тема 23. Подходы к выводу ML-решений в продакшн
Тема 24. Версионирование, воспроизводимость и мониторинг
Тема 25. Онлайн-сервинг моделей
Тема 26. Паттерны асинхронного потокового ML и ETL
Тема 27. Если надо Python
Тема 28. Альтернативные фреймворки с поддержкой Python и область применимости Dusk, KubeFlow, Seldon Core, H2O. Особенности эксплуатации гетерогенных систем в проме
C 26 февраля
Тема 29. Production Code на Python. Организация и Packaging кода
Тема 30. REST-архитектура: Flask API
Тема 31. Docker: Структура, применение, деплой
Тема 32. Amazon Sagemaker
Тема 33. AWS ML Service
C 16 марта
Тема 34. Нейросети
Тема 35. Распределенное обучение и инференс нейросетей
Тема 36. Градиентный бустинг на деревьях
Тема 37. Обучение с подкреплением
C 30 марта
Тема 38. Выбор темы и организация проектной работы
Тема 39. Консультация по проектам и домашним заданиям
Тема 40. Защита проектных работ
Скачать подробную программу
Выпускной проект
Выпускной проект — возможность закрепить навыки, наработанные в процессе обучения. Вам на выбор будет предоставлено 2 варианта:
  • взять свою задачу и свои данные;

  • разработать и развернуть на Spark рекомендательную систему.
Процесс обучения
Всё обучение проходит онлайн: вебинары, общение с преподавателями и вашей группой в Слаке курса, сдача домашних работ и получение обратной связи от преподавателя.

Вебинары идут дважды в неделю по 2 академических часа (то есть астрономических 1,5 часа). Все вебинары сохраняются и в записи в вашем личном кабинете.

Домашнее задание выдается в среднем по 1 на модуль.
Получить консультацию
Наш специалист свяжется с вами в ближайшее время. Если у вас возникли трудности в выборе курса или проблемы технического плана, то мы с радостью поможем вам.
Спасибо!
Мы получили Вашу заявку, в ближайшее время с Вами свяжется наш менеджер.
После обучения вы

  • получите материалы по всем занятиям (видеозаписи занятий, презентации, примеры кодов);

  • научитесь работать с большими данными в продакшне;

  • сможете использовать Spark, SparkML, Spark Streaming;

  • научитесь адаптировать ML-алгоритмы к распределенной среде и инструментам big data;

  • получите сертификат об окончании курса;

  • получите приглашение пройти собеседование в компаниях-партнерах (в случае успешного обучения на курсе).

Дата выдачи сертификата: 4 мая 2021 года
Ваш сертификат

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Промышленный ML на больших данных»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018 года.

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Промышленный ML на больших данных»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018 года.
Прошедшие открытые вебинары по курсу
Открытый вебинар — это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.
Вывод ML моделей в промышленную среду на примере онлайн-рекомендаций
Дмитрий Бугайченко
День открытых дверей
1 октября в 20:00
Для доступа к прошедшим мероприятиям необходимо пройти входное тестирование
Возможность пройти вступительное тестирование повторно появится только через 2 недели
Результаты тестирования будут отправлены вам на e-mail, указанный при регистрации.
Тест рассчитан на 30 минут, после начала тестирования отложить тестирование не получится!
Пройти вступительное тестирование
Партнеры ждут выпускников этого курса
Стоимость обучения
55 000 ₽
60 000 ₽
Продолжительность
5 месяцев
Начало занятий
30 октября