Проходил 31 октября 2017 года в 20:00

День открытых дверей
Разработчик Big Data

День открытых дверей онлайн

Хотите узнать, почему OTUS – больше, чем просто образовательный портал?
Как OTUS дает возможность стать частью сообщества профессионалов и сделать новый шаг по карьерной лестнице?
Почему учиться – не обязанность, а удовольствие и почему тесное сплетение теории и практики в обучении дает эффект синергии?
Приходите к нам на День Открытых Дверей. Формат проведения – онлайн – подключиться можно из любой точки мира!

Запись

О курсе

Разработчик BigData
40 000 ₽
5 месяцев
Начало в августе
В настоящее время каждый сервис или устройство генерируют огромное количество данных. С помощью методов машинного обучения из данных стало возможным извлекать полезные знания. По этой причине данные становятся самым ценным ресурсом в бизнесе, а умение извлекать из данных информацию - одним из самых востребованных умений. Для того, чтобы внедрять использование данных в бизнесе, необходимо обладать набором специальных знаний и навыков. ...
Программа курса
Модуль 1
Модуль 2
Модуль 3
Модуль 4
Модуль 5
модуль
Для разработки в области анализа данных необходимо понимать, как устроены основные алгоритмы, какая у них сложность и скорость работы, сколько требуется ресурсов для их успешной работы, область применимости.В первом модуле программы разбираются все базовые алгоритмы машинного обучения. Изучение проходит на сгенерированных данных, не требующих времени на преобразование и доработку. Разъясняется значение и влияние параметров алгоритмов на результат. Каждый этап обучения сопровождается наглядной визуализацией.Будут рассмотрены алгоритмы: линейная регрессия, логистическая регрессия, деревья решений, knn, SVM, k-means, EM, иерархическая кластеризация, DBScanВ результате слушатели уверенно освоят базовые алгоритмы анализа данных и инструменты для базового анализа данных на Python
Базовые инструменты анализа данных в Python.
Базовые инструменты анализа данных в Python.Подготовка к курсу. Git, окружение Python. Обзор курса.Введение в Python, Numpy, Pandas, Sklearn. API Sklearn. Обзор других инструментов анализа данных - R, Octave.Что такое DS, ML, основная терминология, классы решаемых задач.
Домашние задания: 1
ДЗ
Реализация библиотеки. Реализация библиотеки для подсчета статистик и преобразования датасетов в формате csv. Отработка инструментов для преобразования данных в pandas и sklearn.
Вводная в математические операции.
Интеграл, производная, их свойства, вероятность, плотность вероятности, мат.ожидание, дисперсия, ковариация, матричные вычисления, определитель, обратная матрица и т.п.
Визуализация
Визуализация на matplotlib, seaborn, plotly, bokeh. Визуализация геоданных на карте мира. Приемы для визуализации плотных данных. Визуализация для поиска корреляций
Домашние задания: 1
ДЗ
Построение визуализаций по данным
Линейная регрессия
Постановка задачи регрессии. Линейная регрессия. Полиномиальная регрессия. Проблема многомерных пространств и переобучения на примере регрессии. Проблема разреженных данных. Регуляризация. Применение линейной регрессии из sklearn на простом датасете. Оценка качества регресcии.
Логистическая регрессия
Математика логистической регрессии. Мультиклассовая регрессия. Оценка качества логистической регрессии. Регуляризация. Обучение регрессии, градиентный спуск. . Применение логистической регрессии из sklearn на простом датасете.
Домашние задания: 1
ДЗ
Реализация алгоритма логистической регрессии. Реализация алгоритма логистической регрессии на простых данных. Оценка качества, подбор параметров модели.
KNN, наивный байес
Алгоритм kNN. Влияние нормализации данных в kNN. Структуры данных для оптимизации kNN.Алгоритм наивного байеса. Байесовский классификатор, Принцип Maximum A-Posteriori
kMeans, EM
Обучение без учителя. Алгоритмы кластеризации, области применения. k-means. Оценка качества обучения, ограничения и подбор алгоритма для задачи.Байесов подход к вероятности. Алгоритмы с lower-bound. Em алгоритм.
Домашние задания: 1
ДЗ
Реализация EM-алгоритма. Реализация EM-алгоритма на простых данных. Оценка качества кластеризации.
Иерархическая кластеризация, DB-Scan
Иерархическая кластеризация, DB-Scan. Optics. Спектральная кластеризация.
модуль
От сгенерированных данных переходим к данным в табличном виде. Такие данные встречаются в конкурсах по анализу данных, а также могут быть собраны, например, напрямую из баз данных. Для применения алгоритмов машинного обучения обычно такие данные требуют дополнительных преобразований.Во втором модуле рассматриваются задачи преобразования и отбора признаков, вопросы подготовки данных для использования в машинном обучении.Также будут рассмотрены более сложные алгоритмы в анализе данных - понижение размерности, определение выбросов в данных, построение ансамблей моделей.
Feature engineering
Отбор признаков. Преобразование исходных данных в подходящий для модели формат. Преобразование признаков для повышения точности модели. Выбор части признаков.
Домашние задания: 1
ДЗ
Преобразование набора данных и подбор фич.
Поиск выбросов в данных
Уменьшение размерности
Principle component analysis, t-sne.
Домашние задания: 1
ДЗ
Применение снижения размерности для использования в модели.
Методы оптимизации
SGD, модификации SGD
5 июня, 20:00 — 21:30
Деревья решений
Классификация и регрессия с помощью деревьев решений. Алгоритм CART. Обзор алгоритмов. Выбор оптимального сплита, суррогатный сплит. Обзор реализации в sklearn.
Домашние задания: 1
ДЗ
Реализация алгоритма дерева решений на простых данных. Реализация некоторых эвристик в деревьях решений..
Ансамбли моделей
Случайный лес. Бустинг, бэггинг, стекинг, блендинг.
Бустинг
Xgboost, catboost, lightgbm, Стекинг, блендинг
29 мая, 20:00 — 21:30
Домашние задания: 1
ДЗ
Применение бустинга для построения лучшей модели.
SVM, Support vector machine
Разделяющая поверхность с максимальным зазором. Формулировка задачи оптимизации для случаев линейно-разделимых и линейно-неразделимых классов. Сопряженная задача. Опорные векторы. SVM для задач классификации и регрессии. Kernel trick. Теорема Мерсера. Примеры функций ядра.
31 мая, 20:00 — 21:30
Модуль
Чаще всего в окружении, в котором приходится работать, данные не готовы для анализа, у них произвольный формат и много ошибок. Например, это данные из баз знаний, открытых API, данные из различных информационных систем партнеров.В третьем модуле рассматриваются вопросы сбора и очистки данных, разбираются типичные задачи бизнеса. Например, это предсказание ctr, ltv. Дополнительно рассмотрим специальные алгоритмы анализа данных - это работа с временными рядами, рекомендательными системами, текстами, графами.
Анализ текстовых данных
Сбор данных из открытых источников. Очистка данных, подготовка данных для анализа. Задача обработки текста. Введение, обзор задач, токенизация, лемматизация. Обзор библиотек для Python для работы с русским и английским языками. TF-IDF.
7 июня, 20:00 — 21:30
Домашние задания: 1
ДЗ
Реализация процесса сбора данных через API. Преобразование текста, подготовка текста для анализа. Применение машинного обучения для предсказания характеристики в собранных данных
Анализ текстовых данных
Выделение объектов в тексте. Word2vec. Анализ тональности. Автоматическое реферирование и тэгирование, классификация текстов.
12 июня, 20:00 — 21:30
Рекомендательные системы
Коллаборативная фильтрация, контентная фильтрация, гибридные подходы. Метрики оценки качества рекомендации.
14 июня, 20:00 — 21:30
Домашние задания: 1
ДЗ
Применение алгоритма рекомендаций для датасета фильмов.
Временные ряды
Постановка задачи. Экспоненциальное сглаживание. Стационарность. SARIMA. Выбор признаков во временных рядах. Применение моделей машинного обучения
19 июня, 20:00 — 21:30
Latent Dirichlet Allocation
21 июня, 20:00 — 21:30
Домашние задания: 1
ДЗ
Применение LDA для категоризации текстов.
Алгоритмы на графах
Социальные сети, выделение сообществ.
26 июня, 20:00 — 21:30
Нейронные сети, обучение нейронных сетей
Перцептрон. Линейный и нелинейный случай. Алгоритм обратного распространения ошибки. Регуляризация в нейронных сетях. Обзор библиотеки tensorflow. Сверточные сети и обработка изображений.
28 июня, 20:00 — 21:30
Домашние задания: 1
ДЗ
Реализация алгоритма обратного распространения ошибки и применение простой сети на mnist.
Сверточный слои, каскады, визуализация признаков
Обзор задач и архитектур нейронных сетей в анализе изображений, текста. Использование готовых сетей на практике.
3 июля, 20:00 — 21:30
Модуль
Большую часть времени любого разработчика процессов анализа данных занимает разработка самого процесса по преобразованию данных на разных этапах. Предполагаются этапы сбора, очистки, агрегации данных, построения модели и предсказания характеристик. В четвертом модуле рассматриваются возможности построения надежных процессов преобразования данных.В более крупных компаниях данные превышают возможности одной типичной разработческой машины. Появляется потребность работы с алгоритмами, обрабатывающими данные в потоке, а также с кластером. В четвертом модуле разбираются процессы преобразования данных, слои данных, потоки данных и различные способы хранения и преобразования таких данных на кластере. Разберем возможности построения моделей на кластере. К концу модуля слушатели смогут уверенно использовать стек технологий Hadoop: писать задачи на MapReduce с использованием Java или Hadoop Streaming, использовать Hive и Spark для быстрого преобразования данных, расчета статистик, построения моделей на кластере.
Процесс CRISP-DM. Выбор хранилища, запросы к базе (Реляционная, нереляционная). Большие данные и параллельные вычисления.
Кластер, hdfs, запросы к hdfs. Map Reduce, Java, Python, Необходимость в кластерных вычислениях. Парадигма MapReduce. Инструменты работы с большими данными. Hadoop, Spark, обзор других компонентов экосистемы. Развертывание кластера Hadoop локально для выполнения учебных примеров. Выполнение учебных примеров на кластере.
5 июля, 20:00 — 21:30
Домашние задания: 1
ДЗ
Настройка окружения для локальной работы с кластером. Выполнение на локальном кластере набора учебных задач..
Vowpal Wabbit для обучения линейных моделей на одной машине
10 июля, 20:00 — 21:30
MapReduce на Java, Hadoop Streaming - MapReduce на Python, bash
12 июля, 20:00 — 21:30
Домашние задания: 1
ДЗ
Реализация алгоритма с использованием MapReduce.
Пайплайны. Способы выстроить поток задач, обеспечить выполнение. Отказоустойчивость, мониторинг.
17 июля, 20:00 — 21:30
Слои данных для оптимизации процессов использования данных. Hive.
19 июля, 20:00 — 21:30
Домашние задания: 1
ДЗ
Реализация алгоритма с использованием Hive.
Организация хранения данных для решения задач машинного обучения
24 июля, 20:00 — 21:30
Spark
Spark как инструмент быстрого доступа к данным. Spark как инструмент для машинного обучения.
26 июля, 20:00 — 21:30
Домашние задания: 1
ДЗ
Реализация алгоритма с использованием Spark.
Обзор решений для аналитики больших данных
Vertica, Clickhouse. Основные преимущества и недостатки, для хранения и обработки данных.
Агрегация, управление, эксперименты, анализ, визуализация и BI
31 июля, 20:00 — 21:30
Проект
В рамках курса предусмотрена защита проекта. Проект представляет из себя программный комплекс, решающий задачу извлечения и использования знаний из реальных данных с использованием машинного обучения. Проект готовится в течение месяца и включает в себя следующие этапы:- Постановка задачи. Предлагается самостоятельно найти предметную область и обосновать применение в ней машинного обучения- Разработка данных. Одно из требований к проекту - Использование данных из открытых источников. Необходимо разработать процесс сбора и очистки данных- Поиск алгоритма и модели для решения задачи. Необходимо выполнить подготовку данных, выбрать алгоритм и подобрать параметры для построения модели- Использование модели для достижения поставленной цели. Необходимо реализовать применение разработанной модели- Построение процесса. Решение задачи необходимо оформить в единый процесс по обработке данных от источника до предсказания, не требующий участия эксперта- Обоснование процесса

F.A.Q.: Наиболее часто задаваемые вопросы:

Могу ли я принять участие в розыгрыше, если я уже оплатил обучение?
В розыгрыше принимают участие все пользователи, успешно прошедшие вступительное тестирование. Если вы уже оплатили обучение и выиграли в розыгрыше, то мы компенсируем вам затраты.
Нужно ли оплачивать обучение до Дня открытых дверей, если я хочу гарантированно попасть в группу?
Да, мы рекомендуем заранее оплатить обучение, чтобы гарантированно попасть в группу. В период проведения Дня открытых дверей резко возрастает количество желающих обучаться, поэтому может случиться так, что к окончанию Дня открытых дверей мест в группе не останется
Кто будет проводить День открытых дверей?
Проводить День открытых дверей будет преподаватель курса.
Как принять участие в Дне открытых дверей?
Для того, чтобы принять участие в Дне открытых дверей, оставьте свой e-mail в поле регистрации на мероприятие. Перед началом Дня открытых дверей мы пришлем вам ссылку, пройдя по которой, вы сможете присоединиться к вебинару. Если вы хотите принять участие в розыгрыше бесплатных мест – до начала мероприятия необходимо зарегистрироваться на сайте и успешно пройти вступительное тестирование
Какие вопросы будем обсуждать на Дне открытых дверей?
На дне открытых дверей мы поговорим о проекте OTUS (о программе курса, почему мы не принимаем в группы новичков, почему учиться у нас интересно, но сложно), карьерных перспективах выпускников (почему вероятность карьерного роста у лучших студентов стремится к 100%), учебном процессе (оплатах, оценке знаний, сертификатах и прочих аспектах). Также ведущий мероприятия с радостью ответит на все ваши вопросы