Промышленный ML на больших данных | OTUS
⚡ Открываем подписку на курсы!
Проходите параллельно 3 онлайн-курса в месяц по цене одного.
Подробнее

Курсы

Программирование
iOS Разработчик. Продвинутый курс Программист 1С Реверс-инжиниринг. Продвинутый курс
-16%
Java Developer. Professional
-17%
JavaScript Developer. Professional
-18%
Flutter Mobile Developer
-15%
MS SQL Server Developer
-14%
Unity Game Developer. Basic
-19%
Супер-практикум по использованию и настройке GIT
-18%
Супер-интенсив "СУБД в высоконагруженных системах"
-18%
Web-разработчик на Python
-11%
Backend-разработчик на PHP
-8%
PostgreSQL
-10%
Базы данных
-19%
Android-разработчик. Базовый курс Разработчик Python. Продвинутый курс Разработчик на Spring Framework AWS для разработчиков Cloud Solution Architecture CI/CD Vue.js разработчик Разработчик Node.js Scala-разработчик Супер - интенсив по Kubernetes Symfony Framework Advanced Fullstack JavaScript developer
Специализации Курсы в разработке Подготовительные курсы
+7 499 938-92-02
Специальная цена

Промышленный ML на больших данных

Длительность обучения:

Формат:

Начало занятий:

Дни занятий:

5 месяцев

4 ак. часа в нед.

Online

30 октября

Пт 20:00, Вт 20:00

Что даст вам этот курс

Курс рассчитан на Data Engineer-ов или специалистов в машинном обучении.

Вы научитесь:
  • использовать стандартные инструменты ML-конвейеров в распределенной среде;

  • разрабатывать собственные блоки для ML-конвейеров;

  • адаптировать ML-алгоритмы к распределенной среде и инструментам big data;

  • использовать Spark, SparkML, Spark Streaming;

  • организовывать промышленные конвейеры сбора данных;

  • разрабатывать алгоритмы потоковой подготовки данных для машинного обучения;

  • обеспечивать контроль качества на всех этапах движения ML-решений в промышленную эксплуатацию.

Преподаватели

Дмитрий Бугайченко
Управляющий директор в Сбербанке
Андрей Кузнецов
Machine Learning Engineer, Mail.ru Group
Михаил Марюфич
Machine Learning Engineer в Mail.Ru Group
Кирилл Султанов
Егор Матешук
CDO AdTech-компании Квант
Дмитрий Музалевский
Lead Data Scientist, Берлин
Артемий Козырь
Senior Data Engineer, Wheely
Специалист по работе с большими данными и машинному обучению. В течение 8 лет работал в «Одноклассники.ru». Руководил командой OK Data Lab (лаборатория для исследователей в области big data и machine learning).

Анализ больших данных в Одноклассниках стал уникальным шансом совместить теоретическую подготовку и научный фундамент с разработкой реальных, востребованных продуктов. С 2019 года работает в Сбербанке на должности управляющего директора. Выступает в роли лидера кластера разработки платформы рекомендательных систем дивизиона массовой персонализации.

Окончил Санкт-Петербургский государственный университет в 2004 году, там же защитил кандидатскую по формально-логическим методам в 2007. Почти 9 лет проработал в аутсорсинге, не теряя контакта с университетом и научной средой.

Преподаватель
В настоящий момент работает в компании Mail.ru Group на позиции Machine Learning Engineer, разрабатывает рекомендательные системы. Ранее 7 лет преподавал ИТ, ИБ и статистику. Кандидат технических наук.

Основной стек технологий и фреймворков:
- Programming Languages: Scala, SQL, Bash, Python;
- BigData: Spark, Hadoop.

Руководитель программы
Machine Learning Engineer в Mail.Ru Group, в последнее время специализация — Deep Learning. Занимается машинным обучением более 4-х лет, решает задачи end2end, от формулировки проблемы до выкатки в промышленную эксплуатацию и дальнейшей поддержки системы. В профессиональной деятельности превыше всего ценит воспроизводимость результатов и хорошие процессы разработки.

Образование: Математико-Механический факультет СПбГУ, направления “Data Science” и “Software Engineering” в Computer Science Center

Преподаватель
Технический руководитель / архитектор в области BigData с более чем 11-летним опытом работы в сфере информационных технологий. Имею опыт работы с различными платформами с акцентом на бэкэндах / больших данных / IoT / облаках (в настоящее время специализируюсь на Azure). Непрерывный стаж работы с BigData 9+ лет. Опыт создания традиционных облачных хранилищ данных, Data Lakes, Lake Houses. На предыдущих проектах плотно работал с системами управления контейнерами и ресурсами: Kubernetes, Docker, Yarn.
Основной стек технологий и фреймворков:
- Programming Languages: Java, Scala, SQL, Bash, Python;
- BigData: Spark, Kafka, Hadoop, Yarn, HDFS, MapReduce, Hive, Spark, Tez, Flume, Sqoop, Zookeeper;
- NoSQL: Cassandra, HBase (Phoenix/Tephra, Kylin);
- Streaming and ETL: Spark, Kafka/Streams, Storm, Flume, StreamSets, NiFi;
- Search: Elasticsearch/ELK;
- Frameworks and Libraries: Netty, Play Framework, Akka, KAA, Tensorflow, Mahout, Sparkling Water (H2O), Mondrian;
- RDBMS: MySQL/MariaDB, Infobright, Microsoft SQL.

Преподаватель
Последние 6 лет работает с большими данными: строит системы для обработки данных, консультирует по вопросам построения аналитических решений.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Затем занимал аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы). На данный момент является CDO AdTech-компании Квант.
Большой опыт работы с сервисами Hadoop (HDFS, Hive, Impala), оркестраторами (Airflow, Oozie), MPP-базами (Vertica, Kudu, Greenplum) и различными фреймворками для обработки данных (Spark, Flink).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Преподаватель
Более 8 лет опыта в области анализа данных и машинного обучения в различных индустриях: телеком, онлайн-ритейл, банковская сфера, финтех и медтех.

В настоящий момент работает в медицинской сфере, занимаясь проблемами обработки звуковых сигналов и улучшением слуховых аппаратов. На позиции Lead Data Scientist ведет работу команды по аналитике больших объемов данных, машинным и глубоким обучением полного цикла.

Образование: бакалавриат МГТУ им.Баумана «Компьютерный анализ и интерпретация данных»; магистратура НИУ МАИ «Математические методы в экономике и маркетинге».

Преподаватель
Более 5-ти лет опыта работы с Хранилищами Данных, построении ETL/ELT, Аналитике данных и Визуализации.
Опыт работы над продуктами в компаниях PwC, Московская Биржа, Сбербанк, СИБУР, Wheely.
Сферы интересов: KPIs and Scorecards / Budgeting and Planning / Retail Scoring / Next Best Offer / Reporting.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Образование: НИУ ВШЭ, факультет бизнес-информатики.

Преподаватель
Дмитрий
Бугайченко
Андрей
Кузнецов
Михаил
Марюфич
Кирилл
Султанов
Егор
Матешук
Дмитрий
Музалевский
Артемий
Козырь

Преподаватели

Дмитрий Бугайченко
Управляющий директор в Сбербанке
Специалист по работе с большими данными и машинному обучению. В течение 8 лет работал в «Одноклассники.ru». Руководил командой OK Data Lab (лаборатория для исследователей в области big data и machine learning).

Анализ больших данных в Одноклассниках стал уникальным шансом совместить теоретическую подготовку и научный фундамент с разработкой реальных, востребованных продуктов. С 2019 года работает в Сбербанке на должности управляющего директора. Выступает в роли лидера кластера разработки платформы рекомендательных систем дивизиона массовой персонализации.

Окончил Санкт-Петербургский государственный университет в 2004 году, там же защитил кандидатскую по формально-логическим методам в 2007. Почти 9 лет проработал в аутсорсинге, не теряя контакта с университетом и научной средой.

Преподаватель
Андрей Кузнецов
Machine Learning Engineer, Mail.ru Group
В настоящий момент работает в компании Mail.ru Group на позиции Machine Learning Engineer, разрабатывает рекомендательные системы. Ранее 7 лет преподавал ИТ, ИБ и статистику. Кандидат технических наук.

Основной стек технологий и фреймворков:
- Programming Languages: Scala, SQL, Bash, Python;
- BigData: Spark, Hadoop.

Руководитель программы
Михаил Марюфич
Machine Learning Engineer в Mail.Ru Group
Machine Learning Engineer в Mail.Ru Group, в последнее время специализация — Deep Learning. Занимается машинным обучением более 4-х лет, решает задачи end2end, от формулировки проблемы до выкатки в промышленную эксплуатацию и дальнейшей поддержки системы. В профессиональной деятельности превыше всего ценит воспроизводимость результатов и хорошие процессы разработки.

Образование: Математико-Механический факультет СПбГУ, направления “Data Science” и “Software Engineering” в Computer Science Center

Преподаватель
Кирилл Султанов
Технический руководитель / архитектор в области BigData с более чем 11-летним опытом работы в сфере информационных технологий. Имею опыт работы с различными платформами с акцентом на бэкэндах / больших данных / IoT / облаках (в настоящее время специализируюсь на Azure). Непрерывный стаж работы с BigData 9+ лет. Опыт создания традиционных облачных хранилищ данных, Data Lakes, Lake Houses. На предыдущих проектах плотно работал с системами управления контейнерами и ресурсами: Kubernetes, Docker, Yarn.
Основной стек технологий и фреймворков:
- Programming Languages: Java, Scala, SQL, Bash, Python;
- BigData: Spark, Kafka, Hadoop, Yarn, HDFS, MapReduce, Hive, Spark, Tez, Flume, Sqoop, Zookeeper;
- NoSQL: Cassandra, HBase (Phoenix/Tephra, Kylin);
- Streaming and ETL: Spark, Kafka/Streams, Storm, Flume, StreamSets, NiFi;
- Search: Elasticsearch/ELK;
- Frameworks and Libraries: Netty, Play Framework, Akka, KAA, Tensorflow, Mahout, Sparkling Water (H2O), Mondrian;
- RDBMS: MySQL/MariaDB, Infobright, Microsoft SQL.

Преподаватель
Егор Матешук
CDO AdTech-компании Квант
Последние 6 лет работает с большими данными: строит системы для обработки данных, консультирует по вопросам построения аналитических решений.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Затем занимал аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы). На данный момент является CDO AdTech-компании Квант.
Большой опыт работы с сервисами Hadoop (HDFS, Hive, Impala), оркестраторами (Airflow, Oozie), MPP-базами (Vertica, Kudu, Greenplum) и различными фреймворками для обработки данных (Spark, Flink).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Преподаватель
Дмитрий Музалевский
Lead Data Scientist, Берлин
Более 8 лет опыта в области анализа данных и машинного обучения в различных индустриях: телеком, онлайн-ритейл, банковская сфера, финтех и медтех.

В настоящий момент работает в медицинской сфере, занимаясь проблемами обработки звуковых сигналов и улучшением слуховых аппаратов. На позиции Lead Data Scientist ведет работу команды по аналитике больших объемов данных, машинным и глубоким обучением полного цикла.

Образование: бакалавриат МГТУ им.Баумана «Компьютерный анализ и интерпретация данных»; магистратура НИУ МАИ «Математические методы в экономике и маркетинге».

Преподаватель
Артемий Козырь
Senior Data Engineer, Wheely
Более 5-ти лет опыта работы с Хранилищами Данных, построении ETL/ELT, Аналитике данных и Визуализации.
Опыт работы над продуктами в компаниях PwC, Московская Биржа, Сбербанк, СИБУР, Wheely.
Сферы интересов: KPIs and Scorecards / Budgeting and Planning / Retail Scoring / Next Best Offer / Reporting.

Верю в то, что данные – это ключевой элемент в принятии обоснованных и разумных бизнес-решений. Люблю находить простые решения для сложных задач. Не люблю повторять одни и те же ошибки, но с удовольствием приветствую новый опыт.

Образование: НИУ ВШЭ, факультет бизнес-информатики.

Преподаватель
Необходимые знания
Базовые навыки программирования:
  • управляющие конструкции, циклы, рекурсия;
  • основные структуры данных: массивы, списки, словари, деревья;
  • базовые принципы ООП;
  • знакомство с одним из языков: Python, Java, Scala, C++.
Математика:
  • линейная алгебра: вектора, матрицы и их произведения;
  • матан: производная простых и композитных функций;
  • вычметоды: градиентный спуск, Ньютоновские итерации;
  • теория вероятности: случайные события и величины, математическое ожидание, дисперсия.
Технологии:
  • понимание основ работы вычислительной техники в рамках архитектуры фон Неймана (процессор, память, кэш, подключаемое хранилище);
  • понимание общих принципов реляционных СУБД, знание SQL.
Будет плюсом: знакомство с классическими алгоритмами машинного обучения.
Программа обучения
В процессе обучения вы получите комплексные знания и навыки.
C 30 октября
Тема 1. Градиентный спуск и линейные модели
Тема 2. Обзор основных методов и метрик машинного обучения
Тема 3. Основы программирования на Scala
C 13 ноября
Тема 4. Распределенные хранилища
Тема 5. Эволюция параллельных алгоритмов
Тема 6. Менеджеры ресурсов в распределенных системах
Тема 7. Основы Apache Spark
Тема 8. Эволюция параллельных алгоритмов №2
C 1 декабря
Тема 9. Перенос МЛ-алгоритмов в распределенную среду
Тема 10. ML в Apache Spark
Тема 11. Разработка собственных блоков для SparkML
Тема 12. Сторонние библиотеки для использования со Spark
Тема 13. Оптимизация гиперпараметров и AutoML
C 18 декабря
Тема 14. Потоковая обработка данных
Тема 15. Spark Streaming
Тема 16. Структурный и непрерывный стриминг в Spark
Тема 17. Альтернативные потоковые фреймворки
C 12 января
Тема 18. Определение цели МЛ-проекта и предварительный анализ
Тема 19. Долгосрочные ML-цели на примере задачи уменьшения оттока
Тема 20. А/Б тестирование
Тема 21. Дополнительные темы
C 26 января
Тема 22. Подходы к выводу ML-решений в продакшн
Тема 23. Версионирование, воспроизводимость и мониторинг
Тема 24. Онлайн-сервинг моделей
Тема 25. Паттерны асинхронного потокового ML и ETL
Тема 26. Если надо Python
Тема 27. Альтернативные фреймворки с поддержкой Python и область применимости Dusk, KubeFlow, Seldon Core, H2O. Особенности эксплуатации гетерогенных систем в проме
C 16 февраля
Тема 28. Production Code на Python. Организация и Packaging кода
Тема 29. REST-архитектура: Flask API
Тема 30. Docker: Структура, применение, деплой
Тема 31. Amazon Sagemaker
Тема 32. AWS ML Service
C 12 марта
Тема 33. Нейросети
Тема 34. Распределенное обучение и инференс нейросетей
Тема 35. Градиентный бустинг на деревьях
Тема 36. Обучение с подкреплением
C 26 марта
Тема 37. Выбор темы и организация проектной работы
Тема 38. Консультация по проектам и домашним заданиям
Тема 39. Защита проектных работ
Скачать подробную программу
Выпускной проект
Выпускной проект — возможность закрепить навыки, наработанные в процессе обучения. Вам на выбор будет предоставлено 2 варианта:
  • взять свою задачу и свои данные;

  • разработать и развернуть на Spark рекомендательную систему.
Процесс обучения
Всё обучение проходит онлайн: вебинары, общение с преподавателями и вашей группой в слаке курса, сдача домашних работ и получение обратной связи от преподавателя.

Вебинары идут дважды в неделю по 2 академических часа (то есть астрономических 1,5 часа). Все вебинары сохраняются и в записи в вашем личном кабинете.

Домашнее задание выдается в среднем по 1 на модуль.
Получить консультацию
Наш специалист свяжется с вами в ближайшее время. Если у вас возникли трудности в выборе курса или проблемы технического плана, то мы с радостью поможем вам.
Спасибо!
Мы получили Вашу заявку, в ближайшее время с Вами свяжется наш менеджер.
После обучения вы

  • получите материалы по всем занятиям (видеозаписи занятий, презентации, примеры кодов);

  • научитесь работать с большими данными в продакшне;

  • сможете использовать Spark, SparkML, Spark Streaming;

  • научитесь адаптировать ML-алгоритмы к распределенной среде и инструментам big data;

  • получите сертификат об окончании курса;

  • получите приглашение пройти собеседование в компаниях-партнерах (в случае успешного обучения на курсе).

Дата выдачи сертификата: 4 мая 2021 года
Ваш сертификат

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Промышленный ML на больших данных»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018 года.

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Промышленный ML на больших данных»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018 года.
Прошедшие открытые вебинары по курсу
Открытый вебинар — это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.
Вывод ML моделей в промышленную среду на примере онлайн-рекомендаций
Дмитрий Бугайченко
День открытых дверей
1 июля в 20:00
Для доступа к прошедшим мероприятиям необходимо пройти входное тестирование
Возможность пройти вступительное тестирование повторно появится только через 2 недели
Результаты тестирования будут отправлены вам на e-mail, указанный при регистрации.
Тест рассчитан на 30 минут, после начала тестирования отложить тестирование не получится!
Пройти вступительное тестирование
Партнеры ждут выпускников этого курса
Стоимость обучения
55 000 ₽
60 000 ₽
Продолжительность
5 месяцев
Начало занятий
30 октября