Промышленный ML на больших данных | OTUS
👋 Канал OTUS в Telegram!
Посты от приглашенных гостей из IT-тусовки, полезные статьи, подборки вакансий от партнеров ➞
Подробнее

Курсы

Программирование
Разработчик игр на Unity
-40%
Vue.js разработчик
-40%
React.js разработчик
-40%
Архитектор программного обеспечения
-40%
Архитектура и шаблоны проектирования
-40%
Разработчик C++
-40%
Разработчик Node.js
-40%
Scala-разработчик
-30%
Backend-разработка на Kotlin
-30%
Программист 1С
-30%
Symfony Framework
-30%
Разработчик на Spring Framework
-20%
Разработчик Golang
-25%
C# ASP.NET Core разработчик
-25%
iOS-разработчик. Базовый курс
-25%
VOIP инженер Базы данных AWS для разработчиков Cloud Solution Architecture Agile Project Manager в IT Супер - интенсив по паттернам проектирования Супер - интенсив по Kubernetes
Специализации Курсы в разработке Подготовительные курсы
+7 499 938-92-02
Специальная цена

Промышленный ML на больших данных

Длительность обучения:

Формат:

Начало занятий:

Дни занятий:

5 месяцев

4 ак. часа в нед.

Online

30 июля

Пн 20:00, Чт 20:00

Что даст вам этот курс

Курс рассчитан на Data Engineer-ов или специалистов в машинном обучении.

Вы научитесь:
  • использовать стандартные инструменты ML-конвейеров в распределенной среде;

  • разрабатывать собственные блоки для ML-конвейеров;

  • адаптировать ML-алгоритмы к распределенной среде и инструментам big data;

  • использовать Spark, SparkML, Spark Streaming;

  • организовывать промышленные конвейеры сбора данных;

  • разрабатывать алгоритмы потоковой подготовки данных для машинного обучения;

  • обеспечивать контроль качества на всех этапах движения ML-решений в промышленную эксплуатацию.
Вывод ML моделей в промышленную среду на примере онлайн-рекомендаций, 23 июля в 20:00
На уроке мы поговорим о том, как data science выходит из ноутбука дата сайнтиста, проходит через аналитическую платформу и среду исполнения в пром, чтобы попасть, наконец, к нашим горячо любимым пользователям.

На примере задачи построения рекомендаций рассмотрим какие трюки помогают масштабировать алгоритм, какие компоненты и технические решения позволяют вывести ML в промышленную среду, какие паттерны помогают ML работать в режиме онлайн. А также ненадолго вернемся к истокам, и посмотрим как важно при разработке и проектировании ML не забывать о базовых принципах работы вычислительной техники, классических алгоритмах и структурах данных.
Ведет
Дмитрий
Бугайченко
Предыдущий открытый вебинар

Преподаватели

Дмитрий Бугайченко
Управляющий директор в Сбербанке
Андрей Кузнецов
Machine Learning Engineer, Mail.ru Group
Кирилл Султанов
Егор Матешук
Senior Data Engineer, MaximaTelecom
Дмитрий Музалевский
Lead Data Scientist в Koerber Digital
Специалист по работе с большими данными и машинному обучению. В течение 8 лет работал в «Одноклассники.ru». Руководил командой OK Data Lab (лаборатория для исследователей в области big data и machine learning).

Анализ больших данных в Одноклассниках стал уникальным шансом совместить теоретическую подготовку и научный фундамент с разработкой реальных, востребованных продуктов. С 2019 года работает в Сбербанке на должности управляющего директора. Выступает в роли лидера кластера разработки платформы рекомендательных систем дивизиона массовой персонализации.

Окончил Санкт-Петербургский государственный университет в 2004 году, там же защитил кандидатскую по формально-логическим методам в 2007. Почти 9 лет проработал в аутсорсинге, не теряя контакта с университетом и научной средой.

Преподаватель
В настоящий момент работает в компании Mail.ru Group на позиции Machine Learning Engineer, разрабатывает рекомендательные системы. Ранее 7 лет преподавал ИТ, ИБ и статистику. Кандидат технических наук.
Основной стек технологий и фреймворков:
- Programming Languages: Scala, SQL, Bash, Python;
- BigData: Spark, Hadoop.

Руководитель программы
Технический руководитель / архитектор в области BigData с более чем 11-летним опытом работы в сфере информационных технологий. Имею опыт работы с различными платформами с акцентом на бэкэндах / больших данных / IoT / облаках (в настоящее время специализируюсь на Azure). Непрерывный стаж работы с BigData 9+ лет. Опыт создания традиционных облачных хранилищ данных, Data Lakes, Lake Houses. На предыдущих проектах плотно работал с системами управления контейнерами и ресурсами: Kubernetes, Docker, Yarn.
Основной стек технологий и фреймворков:
- Programming Languages: Java, Scala, SQL, Bash, Python;
- BigData: Spark, Kafka, Hadoop, Yarn, HDFS, MapReduce, Hive, Spark, Tez, Flume, Sqoop, Zookeeper;
- NoSQL: Cassandra, HBase (Phoenix/Tephra, Kylin);
- Streaming and ETL: Spark, Kafka/Streams, Storm, Flume, StreamSets, NiFi;
- Search: Elasticsearch/ELK;
- Frameworks and Libraries: Netty, Play Framework, Akka, KAA, Tensorflow, Mahout, Sparkling Water (H2O), Mondrian;
- RDBMS: MySQL/MariaDB, Infobright, Microsoft SQL.

Преподаватель
Последние 6 лет работает с большими данными: строит системы для обработки данных, консультирует по вопросам построения аналитических решений.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Затем занимал аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы). На данный момент является CDO AdTech-компании Квант.
Большой опыт работы с сервисами Hadoop (HDFS, Hive, Impala), оркестраторами (Airflow, Oozie), MPP-базами (Vertica, Kudu, Greenplum) и различными фреймворками для обработки данных (Spark, Flink).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Преподаватель
Более 7 лет опыта в области анализа данных и машинного обучения. Опыт работы и проектов в различных индустриях: телеком, онлайн-ритейл, банковская сфера, финтех и медтех.

В настоящий момент работает в компании Koerber Digital GmbH, Берлин. Занимает позицию Lead Data Scientist и ведет работу команды, занимающейся аналитикой больших объемов данных и машинным обучением для производственных предприятий и B2B-компаний.

Образование: бакалавриат МГТУ им.Баумана "Компьютерный анализ и интерпретация данных"; магистратура НИУ МАИ "Математические методы в экономике и маркетинге".

Преподаватель
Дмитрий
Бугайченко
Андрей
Кузнецов
Кирилл
Султанов
Егор
Матешук
Дмитрий
Музалевский

Преподаватели

Дмитрий Бугайченко
Управляющий директор в Сбербанке
Специалист по работе с большими данными и машинному обучению. В течение 8 лет работал в «Одноклассники.ru». Руководил командой OK Data Lab (лаборатория для исследователей в области big data и machine learning).

Анализ больших данных в Одноклассниках стал уникальным шансом совместить теоретическую подготовку и научный фундамент с разработкой реальных, востребованных продуктов. С 2019 года работает в Сбербанке на должности управляющего директора. Выступает в роли лидера кластера разработки платформы рекомендательных систем дивизиона массовой персонализации.

Окончил Санкт-Петербургский государственный университет в 2004 году, там же защитил кандидатскую по формально-логическим методам в 2007. Почти 9 лет проработал в аутсорсинге, не теряя контакта с университетом и научной средой.

Преподаватель
Андрей Кузнецов
Machine Learning Engineer, Mail.ru Group
В настоящий момент работает в компании Mail.ru Group на позиции Machine Learning Engineer, разрабатывает рекомендательные системы. Ранее 7 лет преподавал ИТ, ИБ и статистику. Кандидат технических наук.
Основной стек технологий и фреймворков:
- Programming Languages: Scala, SQL, Bash, Python;
- BigData: Spark, Hadoop.

Руководитель программы
Кирилл Султанов
Технический руководитель / архитектор в области BigData с более чем 11-летним опытом работы в сфере информационных технологий. Имею опыт работы с различными платформами с акцентом на бэкэндах / больших данных / IoT / облаках (в настоящее время специализируюсь на Azure). Непрерывный стаж работы с BigData 9+ лет. Опыт создания традиционных облачных хранилищ данных, Data Lakes, Lake Houses. На предыдущих проектах плотно работал с системами управления контейнерами и ресурсами: Kubernetes, Docker, Yarn.
Основной стек технологий и фреймворков:
- Programming Languages: Java, Scala, SQL, Bash, Python;
- BigData: Spark, Kafka, Hadoop, Yarn, HDFS, MapReduce, Hive, Spark, Tez, Flume, Sqoop, Zookeeper;
- NoSQL: Cassandra, HBase (Phoenix/Tephra, Kylin);
- Streaming and ETL: Spark, Kafka/Streams, Storm, Flume, StreamSets, NiFi;
- Search: Elasticsearch/ELK;
- Frameworks and Libraries: Netty, Play Framework, Akka, KAA, Tensorflow, Mahout, Sparkling Water (H2O), Mondrian;
- RDBMS: MySQL/MariaDB, Infobright, Microsoft SQL.

Преподаватель
Егор Матешук
Senior Data Engineer, MaximaTelecom
Последние 6 лет работает с большими данными: строит системы для обработки данных, консультирует по вопросам построения аналитических решений.

До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Затем занимал аналогичную позицию в MaximaTelecom (один из проектов компании - публичная сеть Wi-Fi в метро Москвы). На данный момент является CDO AdTech-компании Квант.
Большой опыт работы с сервисами Hadoop (HDFS, Hive, Impala), оркестраторами (Airflow, Oozie), MPP-базами (Vertica, Kudu, Greenplum) и различными фреймворками для обработки данных (Spark, Flink).

Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

Преподаватель
Дмитрий Музалевский
Lead Data Scientist в Koerber Digital
Более 7 лет опыта в области анализа данных и машинного обучения. Опыт работы и проектов в различных индустриях: телеком, онлайн-ритейл, банковская сфера, финтех и медтех.

В настоящий момент работает в компании Koerber Digital GmbH, Берлин. Занимает позицию Lead Data Scientist и ведет работу команды, занимающейся аналитикой больших объемов данных и машинным обучением для производственных предприятий и B2B-компаний.

Образование: бакалавриат МГТУ им.Баумана "Компьютерный анализ и интерпретация данных"; магистратура НИУ МАИ "Математические методы в экономике и маркетинге".

Преподаватель
Необходимые знания
Базовые навыки программирования:
  • управляющие конструкции, циклы, рекурсия;
  • основные структуры данных: массивы, списки, словари, деревья;
  • базовые принципы ООП;
  • знакомство с одним из языков: Python, Java, Scala, C++.
Математика:
  • линейная алгебра: вектора, матрицы и их произведения;
  • матан: производная простых и композитных функций;
  • вычметоды: градиентный спуск, Ньютоновские итерации;
  • теория вероятности: случайные события и величины, математическое ожидание, дисперсия.
Технологии:
  • понимание основ работы вычислительной техники в рамках архитектуры фон Неймана (процессор, память, кэш, подключаемое хранилище);
  • понимание общих принципов реляционных СУБД, знание SQL.
Будет плюсом: знакомство с классическими алгоритмами машинного обучения.
Программа обучения
В процессе обучения вы получите комплексные знания и навыки.
C 30 июля
Тема 1. Градиентный спуск и линейные модели
Тема 2. Обзор основных методов и метрик машинного обучения
Тема 3. Основы программирования на Scala
C 13 августа
Тема 4. Эволюция параллельных алгоритмов
Тема 5. Менеджеры ресурсов в распределенных системах
Тема 6. Распределенные хранилища
Тема 7. Основы Apache Spark
C 27 августа
Тема 8. Перенос МЛ-алгоритмов в распределенную среду
Тема 9. ML в Apache Spark
Тема 10. Разработка собственных блоков для SparkML
Тема 11. Сторонние библиотеки для использования со Spark
Тема 12. Оптимизация гиперпараметров и AutoML
C 14 сентября
Тема 13. Потоковая обработка данных
Тема 14. Spark Streaming
Тема 15. Структурный и непрерывный стриминг в Spark
Тема 16. Альтернативные потоковые фреймворки
C 5 октября
Тема 17. Определение цели МЛ-проекта и предварительный анализ
Тема 18. Долгосрочные ML-цели на примере задачи уменьшения оттока
Тема 19. А/Б тестирование
Тема 20. Дополнительные темы
C 19 октября
Тема 21. Подходы к выводу ML-решений в продакшн
Тема 22. Версионирование, воспроизводимость и мониторинг
Тема 23. Онлайн-сервинг моделей
Тема 24. Паттерны асинхронного потокового ML и ETL
Тема 25. Если надо Python
Тема 26. Альтернативные фреймворки с поддержкой Python и область применимости Dusk, KubeFlow, Seldon Core, H2O. Особенности эксплуатации гетерогенных систем в проме
C 16 ноября
Тема 27. Production Code на Python. Организация и Packaging кода
Тема 28. REST-архитектура: Flask API
Тема 29. Docker: Структура, применение, деплой
Тема 30. Amazon Sagemaker
Тема 31. AWS ML Service
C 3 декабря
Тема 32. Нейросети
Тема 33. Распределенное обучение и инференс нейросетей
Тема 34. Градиентный бустинг на деревьях
Тема 35. Обучение с подкреплением
C 17 декабря
Тема 36. Выбор темы и организация проектной работы
Тема 37. Консультация по проектам и домашним заданиям
Тема 38. Защита проектных работ
Скачать подробную программу
Выпускной проект
Выпускной проект — возможность закрепить навыки, наработанные в процессе обучения. Вам на выбор будет предоставлено 2 варианта:
  • взять свою задачу и свои данные;

  • разработать и развернуть на Spark рекомендательную систему.
Процесс обучения
Всё обучение проходит онлайн: вебинары, общение с преподавателями и вашей группой в слаке курса, сдача домашних работ и получение обратной связи от преподавателя.

Вебинары идут дважды в неделю по 2 академических часа (то есть астрономических 1,5 часа). Все вебинары сохраняются и в записи в вашем личном кабинете.

Домашнее задание выдается в среднем по 1 на модуль.
Получить консультацию
Наш специалист свяжется с вами в ближайшее время. Если у вас возникли трудности в выборе курса или проблемы технического плана, то мы с радостью поможем вам.
Спасибо!
Мы получили Вашу заявку, в ближайшее время с Вами свяжется наш менеджер.
После обучения вы

  • получите материалы по всем занятиям (видеозаписи занятий, презентации, примеры кодов);

  • научитесь работать с большими данными в продакшне;

  • сможете использовать Spark, SparkML, Spark Streaming;

  • научитесь адаптировать ML-алгоритмы к распределенной среде и инструментам big data;

  • получите сертификат об окончании курса;

  • получите приглашение пройти собеседование в компаниях-партнерах (в случае успешного обучения на курсе).

Дата выдачи сертификата: 3 февраля 2021 года
Ваш сертификат

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Промышленный ML на больших данных»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018 года.

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Промышленный ML на больших данных»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018 года.
Прошедшие открытые вебинары по курсу
Открытый вебинар — это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.
Вывод ML моделей в промышленную среду на примере онлайн-рекомендаций
Дмитрий Бугайченко
День открытых дверей
1 июля в 20:00
Для доступа к прошедшим мероприятиям необходимо пройти входное тестирование
Возможность пройти вступительное тестирование повторно появится только через 2 недели
Результаты тестирования будут отправлены вам на e-mail, указанный при регистрации.
Тест рассчитан на 30 минут, после начала тестирования отложить тестирование не получится!
Пройти вступительное тестирование
Общая стоимость
80 000 ₽ 56 000 ₽
В месяц: 20 000 ₽
Продолжительность
5 месяцев
Начало занятий
30 июля