Курсы

Курсы в разработке Подготовительные курсы
Работа в компаниях Компаниям Блог +7 499 110-61-65

Machine learning

Best Practice по работе с современными методами анализа данных и инструментам, необходимым для профессионального развития в качестве специалиста Data Science

Длительность

5 месяцев

Начало занятий

27 ноября

Продолжительность
5 месяцев, 4 академ. часа в неделю
Начало занятий
27 ноября
Что даст вам этот курс

За 5 месяцев мы последовательно познакомимся с современными методами анализа данных. Курс позволит не просто поверхностно изучить принципы работы алгоритмов машинного обучения, а на профессиональном уровне освоить и применять в работе все этапы работы с данными, понимая, как, когда и зачем они используются.

Проекты для портфолио
В процессе обучения студенты разработают несколько мощных проектов для портфолио, которые обязательно оценят потенциальные работодатели, и научатся грамотно презентовать результаты своих работ.

Дополнительные преимущества
В программу также входит изучение редких и важных тем, которые обычно упускаются из внимания других курсов, но очень ценятся работодателями:
— построение систем для автоматического поиска аномалий;
— Machine Learning для прогнозирования временных рядов;
— end-to-end pipelin’ы по работе с данными, готовые к внедрению в production

Для кого этот курс
Профессиональная программа разработана специально для разработчиков и аналитиков, которые хотят значительно расширить свои возможности и получить необходимый набор знаний и навыков для смены своей профессии.
Преподаватели
Дмитрий Сергеев
Senior Data Scientist в Oura
Дмитрий Музалевский
Lead Data Scientist в Koerber Digital
Антон Лоскутов
Data Scientist в Mail.Ru Group
Программирую и практикую анализ данных с 2012 года. Последние 3 года работал Data Scientist в компании ZeptoLab, где занимался всеми проектами, связанными с машинным обучением. В настоящий момент получаю степень магистра в университете Aalto в Финляндии.

Преподавал машинное обучение и анализ данных в Центре Математических Финансов МГУ, был приглашенным лектором на Факультете Компьютерных Наук НИУ ВШЭ и различных летних школах.

Образование: Эконом-мат РЭУ им. Плеханова, ЦМФ МГУ, ДПО ФКН ВШЭ “Практический анализ данных и машинное обучение”, MSc Aalto University

Стек/интересы: Python, Machine Learning, Time Series, Anomaly Detection

7+ лет опыта в области анализа данных и машинного обучения. Опыт работы и проектов в различных индустриях: телеком, онлайн-ритейл, банковская сфера, финтех и медтех.

В настоящий момент работает в компании Koerber Digital GmbH, Берлин. Занимает позицию Lead Data Scientist и ведет работу команды, занимающейся аналитикой больших объемов данных и машинным обучением для производственных предприятий и B2B компаний.

Образование: магистратура МГТУ им.Баумана "Компьютерный анализ и интерпретация данных"; бакалавриат НИУ МАИ "Математические методы в экономике и маркетинге".

Работает на позиции Data Scientist в Mail.Ru Group. Окончил образовательный проект «Техносфера» от Mail.Ru. Сейчас заканчивает обучение в МГУ имени М. В. Ломоносова на механико-математическом факультете.

Проводит лекции по машинному обучению в проекте Open Data Science. Считает, что машинное обучение — это не только fit-predict, но и математическое понимание происходящего.

Дмитрий
Сергеев
Дмитрий
Музалевский
Антон
Лоскутов
Преподаватели
Дмитрий Сергеев
Senior Data Scientist в Oura
Программирую и практикую анализ данных с 2012 года. Последние 3 года работал Data Scientist в компании ZeptoLab, где занимался всеми проектами, связанными с машинным обучением. В настоящий момент получаю степень магистра в университете Aalto в Финляндии.

Преподавал машинное обучение и анализ данных в Центре Математических Финансов МГУ, был приглашенным лектором на Факультете Компьютерных Наук НИУ ВШЭ и различных летних школах.

Образование: Эконом-мат РЭУ им. Плеханова, ЦМФ МГУ, ДПО ФКН ВШЭ “Практический анализ данных и машинное обучение”, MSc Aalto University

Стек/интересы: Python, Machine Learning, Time Series, Anomaly Detection

Дмитрий Музалевский
Lead Data Scientist в Koerber Digital
7+ лет опыта в области анализа данных и машинного обучения. Опыт работы и проектов в различных индустриях: телеком, онлайн-ритейл, банковская сфера, финтех и медтех.

В настоящий момент работает в компании Koerber Digital GmbH, Берлин. Занимает позицию Lead Data Scientist и ведет работу команды, занимающейся аналитикой больших объемов данных и машинным обучением для производственных предприятий и B2B компаний.

Образование: магистратура МГТУ им.Баумана "Компьютерный анализ и интерпретация данных"; бакалавриат НИУ МАИ "Математические методы в экономике и маркетинге".

Антон Лоскутов
Data Scientist в Mail.Ru Group
Работает на позиции Data Scientist в Mail.Ru Group. Окончил образовательный проект «Техносфера» от Mail.Ru. Сейчас заканчивает обучение в МГУ имени М. В. Ломоносова на механико-математическом факультете.

Проводит лекции по машинному обучению в проекте Open Data Science. Считает, что машинное обучение — это не только fit-predict, но и математическое понимание происходящего.

Необходимые знания
Для прохождения программы необходимы:
— навыки программирования на Python (опыт написания собственных функций),
— знания математического анализа (вычисление производных сложных функций),
— знания линейной алгебры (матричные операции и собственные вектора),
— знания теории вероятностей и мат. статистики (понимание дисперсии, мат. ожидания, нормального закона распределения).
Процесс обучения
Образовательный процесс происходит ONLINE в формате вебинаров (язык преподавания — русский). В рамках курса слушателям предлагаются к выполнению домашние задания, которые позволяют применить на практике знания, полученные на занятиях. По каждому домашнему заданию преподаватель дает развернутый фидбек. В течение всего учебного процесса преподаватель находится в едином коммуникационном пространстве с группой, т. е. при обучении слушатель может задавать преподавателю уточняющие вопросы по учебным материалам.
Программа обучения
Модуль 1
Введение
Модуль 2
Продвинутые методы машинного обучения
Модуль 3
Применение методов машинного обучения к разным типам данных (текст, рекомендации, графы, временные ряды)
Модуль 4
Дополнительные темы. Big Data
Модуль 5
Проектная работа
Введение
Тема 1: Введение в машинное обучение
обзор курса. Знакомство со стандартными задачами по
машинному обучению. Понимание общего подхода: Exploratory Data Analysis
and Preprocessing -> Models and experiments -> Production.
Тема 2: Базовые инструменты анализа данных в Python
рабочее окружение Python. Функционал базовых библиотек для
работы с данными: Numpy, Pandas, scikit-learn.
Тема 3: Exploratory Data Analysis and Preprocessing
основные принципы и методы разведочного анализа данных.
Преобразование данных в подходящий для моделей формат. Использование
статистического анализа и визуализации для знакомства с данными.
Домашние задания: 1
1 Практика EDA и препроцессинга. Очистка данных, построение визуализаций и формирование признаков
Цель: https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29 wdbc.data
Тема 4: Задача классификации. Метод ближайших соседей (kNN)
алгоритм kNN. Влияние нормализации данных в kNN. Структуры
данных для оптимизации kNN. Метрики оценки качества классификации. Кросс-
валидация.
Тема 5: Задача регрессии. Линейная регрессия
линейная регрессия - метод наименьших квадратов и
градиентный спуск. Вероятностная трактовка линейной регрессии.
Полиномиальная регрессия. Регуляризация в линейной регрессии. Метрики
оценки качества регрессии.
Домашние задания: 1
1 Построение модели линейной регрессии, настройка гиперпараметров на кросс-валидации, интерпретация коэффициентов.
Цель: В этом дз вы потренируетесь строить интерпретируемые модели линейной регрессии с регуляризацией и без. Снова пройдемся по основным этапам работы с данными и на выходе получим модели, способные предсказывать цены на жильё в AirBnb.
Тема 6: Логистическая регрессия
реализации логистической регрессии с помощью метода
с тохас тического градиентного спуска. Регуляризация и подбор
гиперпараметров.
Домашние задания: 1
1 Построение модели логистической регрессии, настройка гиперпараметров на кросс-валидации, интерпретация коэффициентов.
Тема 7: Feature engineering & advanced preprocessing
отбор признаков. Преобразование признаков для повышения
точности модели. Устранение несбалансированности выборки.
23 сентября, 20:00 — 21:30
Лектор: Дмитрий Музалевский
Домашние задания: 1
1 Применение статистических и model-based методов для отбора важных признаков. Работа со SMOTE для устранения дисбаланса классов.
Тема 8: Практическое занятие по темам, изученным в первом модуле
повторение – мать учения.
26 сентября, 20:00 — 21:30
Продвинутые методы машинного обучения
Тема 1: Метод опорных векторов
метод опорных векторов (SVM), интерпретация. Случай линейно
неразделимых данных. Kernel trick. Примеры SVM в sklearn.
30 сентября, 20:00 — 21:30
Домашние задания: 1
1 Построение SVM и выбор оптимального ядра.
Тема 2: Деревья решений
программа: Классификация и регрессия с помощью деревьев решений. Обзор
алгоритмов. Алгоритм CART. Выбор оптимального сплита, суррогатный сплит.
Обзор реализации в sklearn.
4 октября, 20:00 — 21:30
Тема 3: Ансамбли моделей
ансамблирование. Случайный лес. Бэггинг, стэкинг, блэндинг.
7 октября, 20:00 — 21:30
Домашние задания: 1
1 Построение и настройка модели случайного леса. Визуализация важности признаков.
Тема 4: Градиентный бустинг
теория градиентного бустинга. XGBoost, CatBoost, LightGBM.
Применение библиотеки ELI5 для интерпретации моделей.
11 октября, 20:00 — 21:30
Домашние задания: 1
1 Сравнение трех разобранных алгоритмов бустинга и подбор гиперпараметров для получения лучшего качества.
Тема 5: Обучение без учителя. K-means, EM алгоритм
обучение без учителя. Алгоритмы кластеризации, области
применения. K-means. Оценка качества обучения, ограничения и подбор
алгоритма для задачи. Алгоритмы с lower-bound. EM алгоритм.
14 октября, 20:00 — 21:30
Домашние задания: 1
1 Настройка числа кластеров в алгоритме K-Means. Elbow и Silhouette метод.
Тема 6: Обучение без учителя. Иерархическая кластеризация. DB-Scan
иерархическая кластеризация. DB-Scan. Спектральная
кластеризация.
18 октября, 20:00 — 21:30
Домашние задания: 1
1 Построение различных вариантов кластеризаций и интерпретация результатов.
Тема 7: Методы уменьшения размерности
метод главных компонент (Principle component analysis). Метод t-
SNE. Примеры визуализации с помощью метода t-SNE.
21 октября, 20:00 — 21:30
Тема 8: Поиск аномалий в данных
статистические методы нахождения выбросов. Вероятностные
методы. One-Class SVM, Isolation Forest.
25 октября, 20:00 — 21:30
Домашние задания: 1
1 Практический проект по построению системы поиска аномалий.
Применение методов машинного обучения к разным типам данных (текст, рекомендации, графы, временные ряды)
Тема 1: Сбор данных
открытые источники данных. Использование API. Парсинг и
создание своих датасетов.
28 октября, 20:00 — 21:30
Домашние задания: 1
1 Практический проект по написанию собственного парсера.
Тема 2: Анализ текстовых данных. Часть 1
задача обработки текста. Введение, обзор задач, токенизация,
лемматизация, TF-IDF. Обзор библиотек для работы с русским и английским языками.
8 ноября, 20:00 — 21:30
Домашние задания: 1
1 Практический проект по предсказанию рейтинга фильма.
Тема 3: Анализ текстовых данных. Часть 2
тематическое моделирование. Общая схема решения задач NLP.
11 ноября, 20:00 — 21:30
Домашние задания: 1
1 Тематическое моделирование на данных Вконтакте: использование модели LDA, визуализация топиков, построение тематических профилей.
Тема 4: Анализ текстовых данных. Часть 3. Практическое занятие
векторные представления слов, word2vec. Примеры задач NLP,
создание диалоговых систем.
15 ноября, 20:00 — 21:30
Тема 5: Рекомендательные системы. Часть 1
коллаборативная фильтрация. Проблема «холодного старта».
Метрики оценки качества рекомендательной системы.
18 ноября, 20:00 — 21:30
Тема 6: Рекомендательные системы. Часть 2
контентная фильтрация, гибридные подходы. Ассоциативные
правила.
22 ноября, 20:00 — 21:30
Домашние задания: 1
1 Практический проект по созданию рекомендательной системы.
Тема 7: Анализ временных рядов. Часть 1
постановка задачи. Простейшие методы. Экспоненциальное
сглаживание. Семейство ARIMA.
25 ноября, 20:00 — 21:30
Тема 8: Анализ временных рядов. Часть 2
извлечение признаков и применение моделей машинного
обучения. Автоматическое прогнозирование.
29 ноября, 20:00 — 21:30
Домашние задания: 1
1 Построение прогноза временного ряда с использованием изученных методов.
Тема 9: Алгоритмы на графах
анализ социальных сетей. Метрики на графах. Выделение
сообществ.
2 декабря, 20:00 — 21:30
Домашние задания: 1
1 Анализ графа друзей Вконтакте. Визуализация в NetworkX.
Тема 10: АБ тестирование
тестирование гипотез. Постановка задачи. Терминология,
мощность, статистическая значимость. Параметрические и непараметрические методы.
6 декабря, 20:00 — 21:30
Домашние задания: 1
1 Практика по проверке АБ-тестов.
Дополнительные темы. Big Data
Тема 1: Работа с Big Data. Часть 1
адаптация алгоритмов к batch-learning. SGD. Vowpal Wabbit.
16 декабря, 20:00 — 21:30
Домашние задания: 1
1 Настройка моделей машинного обучения в Vowpal Wabbit.
Тема 2: Работа с Big Data. Часть 2
облачные технологии для работы с Big Data: Amazon Web
Services, Google Cloud. Создание виртуальных машин, распределенные вычисления.
20 декабря, 20:00 — 21:30
Домашние задания: 1
1 Запуск собственной виртуальной машины и построение моделей в облаке.
Тема 3: Работа с Big Data. Часть 3
spark, принципы работы и архитектуры. Построение моделей
машинного обучения при помощи PySpark API.
23 декабря, 20:00 — 21:30
Тема 4: Нейронные сети и глубокое обучение
начальные сведения о нейронных сетях. Примеры использования
нейронных сетей.
27 декабря, 20:00 — 21:30
Тема 5: Бонус: поиск Data Science работы
примеры тестовых заданий и вопросов с собеседований.
30 декабря, 20:00 — 21:30
Проектная работа
Тема 1: Вводное занятие по проектной работе
проект включает в себя следующие этапы:
1. Постановка задачи. Предлагается самостоятельно найти предметную
область и обосновать применение в ней машинного обучения
2. Разработка данных. Одно из требований к проекту - использование
данных из открытых источников. Необходимо разработать процесс сбора
и очистки данных
3. Поиск алгоритма и модели для решения задачи. Необходимо выполнить
подготовку данных, выбрать алгоритм и подобрать параметры для
построения модели
4. Использование модели для достижения поставленной цели
5. Построение процесса. Решение задачи необходимо оформить в единый
процесс по обработке данных от источника до предсказания, не
требующий участия эксперта
6. Обоснование процесса.
13 января, 20:00 — 21:30
Домашние задания: 1
1 Проектная работа
Выпускной проект
Выпускной проект — возможность закрепить навыки, наработанные в процессе обучения. Это практическое применение изучения всех этапов работы с данными: начиная от сбора и очистки и заканчивая построением модели и презентацией результатов потенциальному заказчику.
Прошедшие открытые вебинары по курсу
Открытый вебинар — это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.
Анализ текстовых данных: тематическое моделирование комментариев ВКонтакте
Дмитрий Сергеев
День открытых дверей
23 августа в 20:00
После обучения вы

  • заберете с собой learn-материалы по всем занятиям (презентации, записи вебинаров, примеры практических задач);

  • получите сертификат на русском о прохождении курса;

  • научитесь использовать методы машинного обучения для решения реальных бизнес-задач;

  • улучшите навыки в технологиях Python, Pandas, Sklearn, Keras, нейросети, SQL, Natural language processing, Deep learning и других, связанных с Learn Data Science;

  • получите приглашение пройти собеседование в компаниях-партнерах OTUS в Москве (в случае успешного обучения на курсе).

Дата выдачи сертификата: 1 июня 2020 года
Ваш сертификат

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Machine learning»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018г.

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Machine learning»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018г.