Прикладная аналитика на R: освойте язык R для задач анализа и визуализации данных

Курсы

Курсы в разработке Подготовительные курсы
Работа в компаниях Компаниям Блог +7 499 110-61-65

Прикладная аналитика на R

Best Practice по работе с данными с помощью языка R

Длительность

4 месяца

Продолжительность
4 месяца, 4 академ. часа в неделю
Что даст вам этот курс

Чтобы использовать статистические критерии и модели не требуется сложных навыков программирования. Поэтому мы разработали профессиональную онлайн-программу «Прикладная аналитика на R», которая позволит повысить ваш уровень в сфере аналитики и получить дополнительные компетенции, востребованные в крупных IT-компаниях.

Язык R содержит огромное число инструментов для загрузки, преобразования и анализа данных, средств визуализации, создания статистических отчетов и приложений. R позволяет производить все действия в одной среде, минуя прямое взаимодействие с базами данных, сайтами и другими инструментами.

Цель курса: обучить профессиональным навыкам работы с богатыми возможностями языка R для анализа и визуализации данных.

Программа разработана специально для:

— маркетологов, которые хотят перейти от Excel/ SPSS/ Statistica к более продвинутым средствам анализа;
— финансовых аналитиков, риск-менеджеров, кредитных аналитиков, которым необходимо искать закономерности в данных, визуализировать и строить статистически обоснованные выводы;
— начинающих изучать машинное обучение, которые хотят войти в аналитику, в том числе изучить машинное обучение
— тех, кто используют сервисы веб-аналитики и делают отчеты о своей работе в системах BI посредством API, чтобы средствами языка создавать информативные отчеты
— SEO, чтобы эффективнее делать отчеты
— контекстологам, которые работают с рекламными сетями и разными сервисами ,тем самым делая много рутинных операций
— начинающих изучение R в анализе данных;


Актуальность:


в ходе занятий изучаются методы,

востребованные на рынке

Top-down approach:


сначала объясняем "как делать", потом все остальные важные аспекты

Ориентация на практику:


каждое ДЗ — реальный мини-кейс из опыта преподавателей или ваша задача с работы

Долгосрочный вклад:


материалы будут вам полезны, как reference point, в будущих задачах (+cheat-sheets по темам)


Вы научитесь:

✓ решать ваши рабочие задачи эффективным и воспроизводимым способом;
✓ писать код для повторного использования, автоматизирующий рутинные задачи (e.g. создание отчетов);
✓ пользоваться основными пакетами R для работы с данными, создания графиков и выполнения статистического анализа.
Преподаватели
Михаил Смуров
Алексей Катин
PhD в North Carolina State University
Артем Кондрашов
Руслан Бикмаев
Оксана Лапуцкая
Занимается разработкой под алго- и высокочастотный трейдинг (HFT) на языке R более 5 лет.
За это время с другими командами из разных стран мира реализовал более 32 проектов, как в области high-frequency trading, так и риск-менеджмента, финансового инжиниринга (ABS, MBS, structured products, interest rates modeling (LIBOR, SABR, ARIMA, GARCH)), разработки торговых десков для проп.трейдинговых компаний из Нью-Йорка, Чикаго, Арканзаса, Флориды, Австралии, ОАЭ и т.д
Сотрудничает с несколькими хедж-фондами из Нью-Йорка и Лос-Анджелеса, а также финансовыми институтами из Лондона и Центральной Европы занимающимися quant development и AI в области инвестиций и торговли на фондовых биржах.
В настоящий момент совместно с коллегой ведет несколько пилотов по разработке библиотеки и аналитического модуля для крупного поставщика софта для торговли на финансовых рынках.
Также в разработке находится система Collateral mgm для крупного заказчика из США.

Стек используемый в разработке достаточно богат и широк: R, Python, Java, C++, C#, Matlab, AWS, Microsoft Azure, Oracle DB, Cassandra, Kubernetes, Apache Spark, Kafka.
Модули и библиотеки: Pandas, Pytorch, SciPy, NumPy, scikit-learn, Caffe, Bokeh, Theano, Lasagne, Quantlib, Quanmod, Tensorflow, Keras, quanttrade, Quantconnect, Quantiacs, wbdata, IQFeed, Bloomberg API, etc/

PhD (аспирант 3 года) в North Carolina State University, USA.
Область профессиональных интересов: анализ полевых и лабораторных данных качества водной среды для последующего построения прогнозных моделей. R является основным инструментом, в работе применяются регрессионный анализ и байесовый подход.

Образование: магистратура Dresden University of Technology по специальности гидролог, бакалавриат: МИСиС по специальности инженером-эколог.

Опыт преподавания: 2 года в роли ассистента профессора в North Carolina State University.

Участник международных конференций: 15th Estuarine and Coastal Modeling Conference (ECM15) в 2018 и North Carolina's Coastal Conference в 2017.

Занимается программированием на R более 3 лет.
Имеет опыт работы с широким спектром инструментов анализа и программирования - регрессия, анализ временных рядов и построение прогнозных моделей (forecast), байесовские методы, сетевой анализ, визуализация данных (ggplot2, plotly, ggmap), парсинг сайтов (xml2), Rmarkdown отчеты, интеграция C++ в R (Rcpp), чистка и обработка данных.

Любит узнавать новое и делиться знаниями.

Ведет проекты анализа данных в сфере психологии групп.

В основом работал в сфере анализа текстовых данных.

Как инструменты использовались библиотеки tm, NLP, UDPipe, igraph, statnet, rvest, XML, DBI, RPostgreSQL базы данных Postgres, memcached и набор ставших стандартом функций и пакетов предобработки данных.

Одна из проблем психометрии - искажение полученных данных ментальным представлением человека о себе. Этих искажений лишен анализ неструктурированных данных, который может давать доступ в процессы психики, неискаженные искусственными, наигранными проявлениями.
В сфере взаимоотношений людей часто встречается фраза: "Счастье - это когда тебя понимают".
Счастье исследователя - получать доступ в ранее закрытые, неведомые процессы.

Аналитик со стажем работы в крупных телекоммуникационных компаниях, таких как МТС, Ростелеком.

Уверена, что посчитать и измерить можно все на свете - главное найти правильную шкалу и метрику.

Обожает задавать себе и другим сложные провокационные вопросы и найти на них ответ в данных.

Михаил
Смуров
Алексей
Катин
Артем
Кондрашов
Руслан
Бикмаев
Оксана
Лапуцкая
Преподаватели
Михаил Смуров
Занимается разработкой под алго- и высокочастотный трейдинг (HFT) на языке R более 5 лет.
За это время с другими командами из разных стран мира реализовал более 32 проектов, как в области high-frequency trading, так и риск-менеджмента, финансового инжиниринга (ABS, MBS, structured products, interest rates modeling (LIBOR, SABR, ARIMA, GARCH)), разработки торговых десков для проп.трейдинговых компаний из Нью-Йорка, Чикаго, Арканзаса, Флориды, Австралии, ОАЭ и т.д
Сотрудничает с несколькими хедж-фондами из Нью-Йорка и Лос-Анджелеса, а также финансовыми институтами из Лондона и Центральной Европы занимающимися quant development и AI в области инвестиций и торговли на фондовых биржах.
В настоящий момент совместно с коллегой ведет несколько пилотов по разработке библиотеки и аналитического модуля для крупного поставщика софта для торговли на финансовых рынках.
Также в разработке находится система Collateral mgm для крупного заказчика из США.

Стек используемый в разработке достаточно богат и широк: R, Python, Java, C++, C#, Matlab, AWS, Microsoft Azure, Oracle DB, Cassandra, Kubernetes, Apache Spark, Kafka.
Модули и библиотеки: Pandas, Pytorch, SciPy, NumPy, scikit-learn, Caffe, Bokeh, Theano, Lasagne, Quantlib, Quanmod, Tensorflow, Keras, quanttrade, Quantconnect, Quantiacs, wbdata, IQFeed, Bloomberg API, etc/

Алексей Катин
PhD в North Carolina State University
PhD (аспирант 3 года) в North Carolina State University, USA.
Область профессиональных интересов: анализ полевых и лабораторных данных качества водной среды для последующего построения прогнозных моделей. R является основным инструментом, в работе применяются регрессионный анализ и байесовый подход.

Образование: магистратура Dresden University of Technology по специальности гидролог, бакалавриат: МИСиС по специальности инженером-эколог.

Опыт преподавания: 2 года в роли ассистента профессора в North Carolina State University.

Участник международных конференций: 15th Estuarine and Coastal Modeling Conference (ECM15) в 2018 и North Carolina's Coastal Conference в 2017.

Артем Кондрашов
Занимается программированием на R более 3 лет.
Имеет опыт работы с широким спектром инструментов анализа и программирования - регрессия, анализ временных рядов и построение прогнозных моделей (forecast), байесовские методы, сетевой анализ, визуализация данных (ggplot2, plotly, ggmap), парсинг сайтов (xml2), Rmarkdown отчеты, интеграция C++ в R (Rcpp), чистка и обработка данных.

Любит узнавать новое и делиться знаниями.

Руслан Бикмаев
Ведет проекты анализа данных в сфере психологии групп.

В основом работал в сфере анализа текстовых данных.

Как инструменты использовались библиотеки tm, NLP, UDPipe, igraph, statnet, rvest, XML, DBI, RPostgreSQL базы данных Postgres, memcached и набор ставших стандартом функций и пакетов предобработки данных.

Одна из проблем психометрии - искажение полученных данных ментальным представлением человека о себе. Этих искажений лишен анализ неструктурированных данных, который может давать доступ в процессы психики, неискаженные искусственными, наигранными проявлениями.
В сфере взаимоотношений людей часто встречается фраза: "Счастье - это когда тебя понимают".
Счастье исследователя - получать доступ в ранее закрытые, неведомые процессы.

Оксана Лапуцкая
Аналитик со стажем работы в крупных телекоммуникационных компаниях, таких как МТС, Ростелеком.

Уверена, что посчитать и измерить можно все на свете - главное найти правильную шкалу и метрику.

Обожает задавать себе и другим сложные провокационные вопросы и найти на них ответ в данных.

Процесс обучения
Обучение проходит в формате онлайн-вебинаров на русском языке.
Регулярность занятий: 2 раза в неделю по 2 академических часа (1.5 астрономических часа).

Каждую неделю предполагается выполнение 1 домашнего задания (время на выполнение: 2-4 академических часа). По всем практическим заданиям команда преподавателей дает развернутый фидбек.

Для прохождения курса потребуется только компьютер с доступом в интернет, софт (RStudio и т.д.) настроим в самом начале курса совместно.
Программа обучения
Модуль 1
Программирование на языке R
Модуль 2
Загрузка и выгрузка данных.
Модуль 3
Преобразования данных. Пакет data.table. Tidyverse.
Модуль 4
Визуализация данных. Пакеты ggplot2 и plotly
Модуль 5
Введение в машинное обучение на языке R. Обзор методов глубокого обучения.
Модуль 6
Основы планирования экспериментов. А/B тесты.
Модуль 7
Проектная работа
Программирование на языке R
Материал первого модуля охватывает две тесно взаимосвязанные темы: программирование на языке R и обеспечение воспроизводимости выполненного с использованием R анализа. Изучение синтаксиса языка, векторизации, функций и реализаций ООП в R послужит основой для освоения всех последующих тем.

Также рассматриваются возможности IDE RStudio, значительно ускоряющие и облегчающие написание кода, и контроль версий с использованием git.
Тема 1: Знакомство с языком R. Установка рабочего окружения.
Рассматривается история создания языка R, сфера его использования, преимущества и недостатки.
Участники научатся настраивать рабочее окружения под основными ОС (Windows/Linux/macOS), устанавливать пакеты и пользоваться встроенной справкой, а также познакомятся с возможностями IDE RStudio.
Домашние задания: 1
1 ДЗ №1.1. Эссе о целях и задачах
Цель: Слушатели получат понимание экосистемы языка, разберутся в базовом синтаксисе, научаться устанавливать пакеты и пользоваться встроенной справкой, а также установят на свои ОС (Mac, Windows, Linux) IDE RStudio и разберутся с ее функционалом
Тема 2: Базовый синтаксис языка. Типы и структуры данных.
Слушатели освоят интерактивное использование R, изучат основные типы и структуры данных, а также получат вводную информацию об организации кода в свои проектах.
Домашние задания: 1
1 ДЗ №1.2. Практика по синтаксису и структурам данных
Цель: Целью данного урока является подготовка и объяснение слушателям необходимой информации для того чтобы разобраться в типах и структурах данных, основных библиотеках языка, пользоваться поиском для установки проблемных библиотек и находить пути решения проблем. Студенты увидят как парсить текстовый документ и в дальнейшем научаться верстать документы в красивые презентации в формате HTML и PDF
Тема 3: Управляющие конструкции. Векторизация.
Слушатели изучат управляющие конструкции языка R и научатся использовать векторизованные вычисления.
Домашние задания: 1
1 ДЗ №1.3. Практика по управляющим конструкциям
Цель: Целью урока является показать и рассказать почему привычные управляющие конструкции языка такие как циклы и условные блоки не подходят для анализа данных, т.к слишком медлительны. Поэтому целью урока будет написание и создание векторов для эффективного решения задач и использование функций.
Тема 4: Написание и использование функций.
Слушатели научатся использовать функции из сторонних пакетов и писать свои собственные функции для автоматизации повторяющихся операций, а также получат базовые сведения об обработке исключений.
Домашние задания: 1
1 ДЗ №1.4. Практика по функциям
Цель: Слушатель научиться писать массивы кода в функции для более лаконичного и читабельного представления данных, также студенты разберутся со встроенными функциями без использования сторонних пакетов
Тема 5: Объектно-ориентированное программирование в R.
Участники изучат основные объектные системы языка R и особенности диспетчеризации для S3/S4-классов (генерические функции вместо методов, определяемых внутри класса).
Домашние задания: 1
1 ДЗ №1.5. Практика по ООП
Цель: В данной домашней работе студент разрабатывает класс S3 (в качестве бонуса и доп. практики - любой другой), пишет методы для реализованного класса. Целью задания является получение опыта ООП в R, а также понимания, как работают классы в R. Последнее очень пригодится при работе с объектами S3/S4, написанными другими программистами R.
Тема 6: Окружения и области видимости. Основы функционального программирования.
Слушатели ознакомятся с иерархией окружений и узнают, как в R происходит поиск объектов по именам; освоят такие элементы функционального программирования, как создание функций-замыканий и использование функций высшего порядка, применяющих заданную функцию к элементам списков.
Домашние задания: 1
1 ДЗ №1.6. Практика по функциональному программированию
Цель: В данной работе студенты учатся работать с областями видимости функций, применяют подход функционального программирования для решения задач. Полученные умения и знания пригодятся для улучшения структуры, читабельности и эффективности кода, призванного выполнять повторяющиеся задачи.
Тема 7: Контроль версий и воспроизводимые исследования (literate programming).
Участники изучат концепцию literate programming и ее реализацию в виде пакета knitr, освоят автоматическую генерацию отчетов в html/docx, научатся применять систему контроля версий git.
Домашние задания: 1
1 ДЗ №1.7. Практика по github
Оформите результаты предыдущих домашних работ в виде репозитория на github. Напишите информативный файл README.
Тема 8: Что делать, если ничего не работает. Обзор экосистемы R.
Слушатели изучат эффективные методики поиска ответов на возникающие при изучении R вопросы, научатся задавать корректные вопросы на Stack Overflow, узнают о сообществах R-пользователей и ознакомятся с экосистемой языка R.
Домашние задания: 1
1 ДЗ №1.8. Практика по нахождению и освоению специализированных пакетов
В ходе этого творческого задания вам предстоит самостоятельно найти и освоить пакет для решения какой-то нетривиальной для вас задачи (в контексте работы с R). Хорошим вариантом может быть работа с изображениями, например, последовательность действий от загрузки .jpeg до сохранения уменьшенного и обрезанного изображения с наложенным на него текстом. Результатом работы должен быть .Rmd-файл, иллюстрирующий решение поставленной задачи.
Загрузка и выгрузка данных.
Любой анализ данных прежде всего требует их корректной и эффективной загрузки. В этом модуле рассматриваются основные источники данных, включая файлы Excel, чтение из и запись в базы данных SQL, получение информации в пригодном для анализа виде из текстовых файлов, а также работа с некоторыми популярными API для получения данных.

Освоение материала этого модуля позволит использовать в работе наиболее простые средства импорта данных, исключающие необходимость промежуточных преобразований и не требующие применения дополнительных инструментов помимо пакетов для языка R.
Тема 1: Источники данных.
участники изучат основные источники данных, научатся загружать данные и выбирать оптимальный способ и формат данных для различных ситуаций.
Домашние задания: 1
1 ДЗ №2.1. Практика по источникам данных
Выполните задания из файла hw_2_1.Rmd, который находится в разделе Материалы этого занятия.
При работе используйте гайд по стилю оформления кода https://google.github.io/styleguide/Rguide.xml, в именах переменных используйте нижнее подчеркивание вместо точки (variable_name вместо variable.name). Домашнее задание должно быть выполнено в r markdown и без ошибок рендериться в html. Расширение файла markdown-скрипта - .Rmd.
Тема 2: Работа с базами данных.
участники научатся загружать данные в R из популярных СУБД при помощи пакета dbi и сохранять данные в БД при помощи пакета RSQLite.
Домашние задания: 1
1 ДЗ №2.2. Практика по базам данных
Выполните задания из файла hw_2_2.Rmd, который находится в разделе Материалы этого занятия.
При работе используйте гайд по стилю оформления кода https://google.github.io/styleguide/Rguide.xml, в именах переменных используйте нижнее подчеркивание вместо точки (variable_name вместо variable.name). Домашнее задание должно быть выполнено в r markdown и без ошибок рендериться в html. Расширение файла markdown-скрипта - .Rmd.
Тема 3: data.table - основы.
Участники изучат основы синтаксиса data.table, научаться считывать и сохранять табличные данные, выполнять отбор наблюдений и столбцов, а также использовать группировки.
Домашние задания: 1
1 ДЗ №3.1. Практика по основам data.table
Выполните задания из файла hw_3_1.Rmd, который находится в разделе Материалы этого занятия.
При работе используйте гайд по стилю оформления кода https://google.github.io/styleguide/Rguide.xml, в именах переменных используйте нижнее подчеркивание вместо точки (variable_name вместо variable.name). Домашнее задание должно быть выполнено в r markdown и без ошибок рендериться в html. Расширение файла markdown-скрипта - .Rmd.
Тема 4: Текстовые и неструктурированные данные.
Участники изучат базовые приемы работы с текстовыми данными, начнут изучать регулярные выражения, познакомятся с форматом JSON и научаться парсить XML и HTML при помощи пакетов rvest и xml2.
Домашние задания: 1
1 ДЗ №2.4. Практика по неструктурированным и текстовым данным
Выполните задания из файла hw_2_4.Rmd, который находится в разделе Материалы этого занятия.
При работе используйте гайд по стилю оформления кода https://google.github.io/styleguide/Rguide.xml, в именах переменных используйте нижнее подчеркивание вместо точки (variable_name вместо variable.name). Домашнее задание должно быть выполнено в r markdown и без ошибок рендериться в html. Расширение файла markdown-скрипта - .Rmd.
Преобразования данных. Пакет data.table. Tidyverse.
Подлежащие анализу данные довольно редко попадают в руки аналитика в виде единственной прямоугольной таблички, в которой столбцы соответствуют переменным, а строки - наблюдениям. Гораздо чаще требуется выполнять предварительную обработку, включающую в себя объединение таблиц, изменение типов данных, вычисление производных и агрегированных показателей.

Выполнение этих процедур будет рассмотрено с акцентом на обеспечение максимальной скорости работы (как самого аналитика, так и его ПК).
Тема 1: Работа с API для получения данных.
студенты научатся загружать данные с веб-сайтов с использованием API, таких как FRED, Quandl, quantmod (финансовые и экономические данные) и Вконтакте (соц сети)
Домашние задания: 1
1 ДЗ №2.3. Практика по работе с API
Выполните задания из файла hw_2_3.Rmd, который находится в разделе Материалы этого занятия.
При работе используйте гайд по стилю оформления кода https://google.github.io/styleguide/Rguide.xml, в именах переменных используйте нижнее подчеркивание вместо точки (variable_name вместо variable.name). Домашнее задание должно быть выполнено в r markdown и без ошибок рендериться в html. Расширение файла markdown-скрипта - .Rmd.
Тема 2: data.table - ключи и модификация по ссылке.
участники научатся повышать скорость работы с данными в пакете data.table при помощи создания индексов, а также изучат оператор :=, позволяющий модифицировать таблицы без создания их копий.
Домашние задания: 1
1 ДЗ №3.2. Практика по ключам и модификации по ссылке
Выполните задания из файла hw_3_2.Rmd, который находится в разделе Материалы этого занятия.
При работе используйте гайд по стилю оформления кода https://google.github.io/styleguide/Rguide.xml, в именах переменных используйте нижнее подчеркивание вместо точки (variable_name вместо variable.name). Домашнее задание должно быть выполнено в r markdown и без ошибок рендериться в html. Расширение файла markdown-скрипта - .Rmd.
Тема 3: data.table - переформатирование и объединение таблиц.
Слушатели изучат концепцию "опрятных данных" (tidy data), научаться выполнять преобразования в "широкий" формат из "длинного" и наоборот.
Домашние задания: 1
1 ДЗ №3.3. Практика по переформатированию и объединению таблиц
Выполните задания из файла hw_3_3.Rmd, который находится в разделе Материалы этого занятия.
При работе используйте гайд по стилю оформления кода https://google.github.io/styleguide/Rguide.xml, в именах переменных используйте нижнее подчеркивание вместо точки (variable_name вместо variable.name). Домашнее задание должно быть выполнено в r markdown и без ошибок рендериться в html. Расширение файла markdown-скрипта - .Rmd.
Тема 4: Программирование с использованием data.table.
участники научатся использовать возможности data.table внутри написанных ими функций.
Домашние задания: 1
1 ДЗ №3.4. Практика по программированию с использованием data.table
Выполните задания из файла hw_3_4.Rmd, который находится в разделе Материалы этого занятия.
При работе используйте гайд по стилю оформления кода https://google.github.io/styleguide/Rguide.xml, в именах переменных используйте нижнее подчеркивание вместо точки (variable_name вместо variable.name). Домашнее задание должно быть выполнено в r markdown и без ошибок рендериться в html. Расширение файла markdown-скрипта - .Rmd.
Тема 5: Концепция tidyverse. Манипуляции данными с помощью dplyr.
знакомство с tidyverse. 6 типов join-ов в dplyr. Пайплайны.
Визуализация данных. Пакеты ggplot2 и plotly
Визуализация данных - ключевой навык аналитика, полезный как на этапе предварительного знакомства с данными, так и при создании отчетов и презентаций для внутренних заказчиков и внешних потребителей результатов анализа.

Зависимости, выявленные путем создания подходящих графиков, помогут сформулировать гипотезы для дальнейшей проверки формальными методами и подскажут направления дальнейшего анализа.

Рассматриваемая библиотека ggplot2 и дополняющие ее пакеты позволяют создавать графики произвольной сложности, а пакет plotly добавит в арсенал аналитика возможности создавать привлекательные интерактивные графики с повышенной плотностью представления информации.
Тема 1: Грамматика графики. Основы ggplot2.
Участники узнают, что такое грамматика графики, как устроено послойное создание графиков в ggplot2, а также научаться создавать наиболее часто используемые графики при помощи данной библиотеки.
Домашние задания: 1
1 ДЗ №4.1. Практика по основам ggplot2
Выполните задания из файла hw_4_1.Rmd, который находится в разделе Материалы этого занятия.
При работе используйте гайд по стилю оформления кода https://google.github.io/styleguide/Rguide.xml, в именах переменных используйте нижнее подчеркивание вместо точки (variable_name вместо variable.name). Домашнее задание должно быть выполнено в r markdown и без ошибок рендериться в html. Расширение файла markdown-скрипта - .Rmd.
Тема 2: Сложные графики с использованием ggplot2.
Слушатели научатся создавать сложные типы графиков, включая "фасеточные", и освоят использование дополнительных цветовых палитр и тем.
24 октября, 20:00 — 21:30
Лектор: Алексей Катин
Домашние задания: 1
1 ДЗ №4.2. Практика по сложным графикам
Выполните задания из файла hw_4_2.Rmd, который находится в разделе Материалы этого занятия.
При работе используйте гайд по стилю оформления кода https://google.github.io/styleguide/Rguide.xml, в именах переменных используйте нижнее подчеркивание вместо точки (variable_name вместо variable.name). Домашнее задание должно быть выполнено в r markdown и без ошибок рендериться в html. Расширение файла markdown-скрипта - .Rmd.
Тема 3: Пакеты, расширяющие возможности ggplot2.
Участники изучат создание специализированных графиков, используя возможности пакетов GGally owplot и patchwork. Также будет рассмотрено создание анимированных графиков при помощи gganimate.
29 октября, 20:00 — 21:30
Лектор: Руслан Бикмаев
Домашние задания: 1
1 ДЗ №4.3. Практика по пакетам, расширяющим возможности ggplot2
Выполните задания из файла hw_4_3.Rmd, который находится в разделе Материалы этого занятия.
При работе используйте гайд по стилю оформления кода https://google.github.io/styleguide/Rguide.xml, в именах переменных используйте нижнее подчеркивание вместо точки (variable_name вместо variable.name). Домашнее задание должно быть выполнено в r markdown и без ошибок рендериться в html. Расширение файла markdown-скрипта - .Rmd.
Тема 4: Интерактивная визуализация с plotly.
Участники познакомятся с основами интерактивной визуализации при помощи plotly и узнают, когда уместно использовать интерактивные графики.
31 октября, 20:00 — 21:30
Лектор: Руслан Бикмаев
Домашние задания: 1
1 ДЗ №4.4. Практика по интерактивной визуализации
Выполните задания из файла hw_4_4.Rmd, который находится в разделе Материалы этого занятия.
При работе используйте гайд по стилю оформления кода https://google.github.io/styleguide/Rguide.xml, в именах переменных используйте нижнее подчеркивание вместо точки (variable_name вместо variable.name). Домашнее задание должно быть выполнено в r markdown и без ошибок рендериться в html. Расширение файла markdown-скрипта - .Rmd.
Тема 5: Фреймворк Shiny. Интерактивные дашборды.
знакомство с Shiny и пакетами, расширяющими его функционал. Построение интерактивного дашборда, визуализация сырых данных, позволяющая рассказать историю с помощью данных
5 ноября, 20:00 — 21:30
Лектор: Оксана Лапуцкая
Введение в машинное обучение на языке R. Обзор методов глубокого обучения.
В «Метафизике» Аристотеля утверждается, что "всякая наука исследует то, что существует всегда или большей частью, между тем случайное не принадлежит ни к тому, ни к другому". К счастью, сейчас у нас на вооружении есть развитый инструментарий планирования экспериментов и проверки гипотез. Он не совершенен, но позволяет исследовать явления, имеющие вероятностную природу, такие как поведение посетителей веб-сайтов или игроков в онлайн-играх, динамика цен на нефть и финансовые инструменты, курсы валют и многое другое.

В последнем модуле данного курса рассмотрены основные подходы, используемые при планировании экспериментов и статистическом анализе из результатов. Статистика будет рассмотрена в прикладном аспекте - как наука о принятии решений в условиях неопределенности.
Тема 1: О чем говорят ваши данные и что с ними делать.
участники узнают что такое статистические выводы, машинное обучение и какие инструменты можно использовать.
7 ноября, 20:00 — 21:30
Лектор: Оксана Лапуцкая
Домашние задания: 1
1 ДЗ №5.1. Практика по постановке и формализации бизнес-задач
Выполните задания из файла hw_5_1.Rmd, который находится в разделе Материалы этого занятия.
При работе используйте гайд по стилю оформления кода https://google.github.io/styleguide/Rguide.xml, в именах переменных используйте нижнее подчеркивание вместо точки (variable_name вместо variable.name). Домашнее задание должно быть выполнено в r markdown и без ошибок рендериться в html. Расширение файла markdown-скрипта - .Rmd.
Тема 2: Алгоритмы машинного обучения ( наивный Байес, деревья решений, k-means, логистическая регрессия). Рекомендательные системы и специальные задачи ML.
формулировать задачи анализа данных на языке R, относящиеся к разным классам машинного обучения.
12 ноября, 20:00 — 21:30
Лектор: Оксана Лапуцкая
Домашние задания: 1
1 ДЗ №5.2. Практика по статистике и теории вероятностей
Выполните задания из файла hw_5_2.Rmd, который находится в разделе Материалы этого занятия.
При работе используйте гайд по стилю оформления кода https://google.github.io/styleguide/Rguide.xml, в именах переменных используйте нижнее подчеркивание вместо точки (variable_name вместо variable.name). Домашнее задание должно быть выполнено в r markdown и без ошибок рендериться в html. Расширение файла markdown-скрипта - .Rmd.
Тема 3: Применение машинного обучения на реальных задачах
участники познакомятся с реальными кейсами ML применяемыми в различных индустриях ( Oil&Gas, retail, healthcare, finance, risk mgm, trading)
14 ноября, 20:00 — 21:30
Лектор: Михаил Смуров
Домашние задания: 1
1 ДЗ №5.3. Практика по статистическим критериям
Выполните задания из файла hw_5_3.Rmd, который находится в разделе Материалы этого занятия.
При работе используйте гайд по стилю оформления кода https://google.github.io/styleguide/Rguide.xml, в именах переменных используйте нижнее подчеркивание вместо точки (variable_name вместо variable.name). Домашнее задание должно быть выполнено в r markdown и без ошибок рендериться в html. Расширение файла markdown-скрипта - .Rmd.
Основы планирования экспериментов. А/B тесты.
Тема 1: «Постановка и формализация бизнес-задачи».
участники узнают о важности выбора корректных метрик качества в аналитических задач, а также о важности предварительной оценки целесообразности применения методов аналитики или машинного обучения.
19 ноября, 20:00 — 21:30
Лектор: Михаил Смуров
Домашние задания: 1
1 Проектная работа
Порядок выполнения работы:

1. Выбрать тему и обосновать ее актуальность, сформулировать цели и задачи исследования. Сформулировать гипотезы, подлежащие проверке на этапе статистического анализа.

2. Выбрать источник данных, задокументировать версию набора данных и/или дату выгрузки, осуществить выгрузку данных для локального использования. Поиск данных можно начать с https://www.google.com/publicdata/directory. Представленные по этому адресу наборы данных доступны для скачивания в CSV на сайтах https://data.worldbank.org/ и https://ec.europa.eu/eurostat/en/web/government-finance-statistics/statistics-illustrated. Задача со звездочкой: загрузить данные с использованием API при помощи https://cran.r-project.org/web/packages/RSocrata/index.html Данные по России можно найти, например, на сайте ВШЭ http://sophist.hse.ru/data_access.shtml.

3. Сохранить выгруженные данные для дальнейшего локального использования в двух вариантах: в CSV и в БД MonetDBLite или другую по собственному выбору таким образом, чтобы их было удобно повторно загружать в R. Убедиться, что при сохранении и повторной загрузке целостность данных не нарушается. Задача со звездочкой: освоить сохранение в бинарный формат .fst и загрузку из него.

4. Описать таблицу или таблицы данных (количество строк и столбцов, описание и типы переменных). Вывести основные описательные статистики: для количественных переменных - среднее, стандартное отклонение, медиана, минимум и максимум; для категориальных - частота и доля в процентах.

5. Выполнить предварительную обработку данных (при необходимости объединить таблицы, выполнить агрегирование и другие преобразования). Сохранить обработанные данные в отдельный CSV и/или путем добавления новой таблицы к созданной в пункте 3 БД.

6. Выполнить визуализацию данных с двумя целями: понять структуру данных для дальнейшего анализа и рассказать при помощи графиков определенную историю, адресатом которой может быть как (воображаемый) руководитель проекта, так и просто заинтересованный читатель.

7. Статистический анализ. Выполнить проверку сформулированных ранее гипотез с использованием подходящих статистических методов.

8. Выводы. Если на некоторые из поставленных вопросов ответить в ходе исследования не удалось, следует постараться объяснить, почему.
Тема 2: «Предиктивная аналитика и статистические выводы.»
участники повторят основные понятия теории вероятностей, такие как уровень значимости и мощность. Будет рассмотрено точечное и интервальное оценивание параметров в контексте типичных аналитических задач.
21 ноября, 20:00 — 21:30
Лектор: Алексей Катин
Тема 3: «Проверка гипотез.»
участники познакомятся с основами A/B-тестирования, со статистическими критериями для сравнения долей и средних, с общей линейной моделью и с бутстрепом.
26 ноября, 20:00 — 21:30
Лектор: Оксана Лапуцкая
Тема 4: « Рандомизация. Расчет размера выборки. »
участники изучат виды рандомизации и причины, делающие использование рандомизации крайне желательным способом формирования выборок; научаться рассчитывать размеры выборок для типичных дизайнов экспериментов.
28 ноября, 20:00 — 21:30
Лектор: Артем Кондрашов
Проектная работа
В рамках курса предусмотрена защита проекта на выбранную учащимся тему с использованием открытых данных.

Проект следует оформлять в виде github-репозитория с информативным README, основным .Rmd-файлом, содержащим код для всех выполненных этапов анализа, и итоговым отчетом в .html/docx.

Исследование должно быть оформлено таким образом, чтобы любой желающий мог его повторить и воспроизвести все полученные результаты. На подготовку проекта отводится 3 недели, в течение последней недели курса проводится проверка и выставляются оценки.

Основные элементы работы:

1. Обоснование выбора темы (актуальность), формулировка цели и задач анализа.

2. Выбор источника данных и документирование способа выгрузки данных (всего набора или выборки) для локального использования.

3. Сохранение данных для дальнейшего локального использования.

4. Описание таблицы или таблиц данных (количество строк и столбцов, описание и типы переменных).

5. Предварительная обработка данных (объединение таблиц, агрегирование и другие преобразования).
6. Визуализация данных.

7. Статистический анализ.

8. Выводы.
Тема 1: «Вводное занятие по проектной работе.»
это занятие поможет определиться с темой проекта, его объемом и используемыми данными, а также с форматом представления результатов работы.
3 декабря, 20:00 — 21:30
Лектор: Оксана Лапуцкая
Домашние задания: 1
1 Поект
Цель: Утверждение темы проекта, его задач и результатов
Тема 2: «Консультация по проектной работе.»
слушатели курса получат комментарии относительно прогресса проектной работы, ответы на вопросы, рекомендации по реализации.
5 декабря, 20:00 — 21:30
Лектор: Оксана Лапуцкая
Тема 3: «Оценка проектных работ»
разбор проектов, комментарии и выставление оценок.
10 декабря, 20:00 — 21:30
Лектор: Оксана Лапуцкая
Прошедшие открытые вебинары по курсу
Открытый вебинар — это настоящее занятие в режиме он-лайн с преподавателем курса, которое позволяет посмотреть, как проходит процесс обучения. В ходе занятия слушатели имеют возможность задать вопросы и получить знания по реальным практическим кейсам.
Применение R в финансах на примере их различий c Python
Алексей Катин
День открытых дверей
17 июля в 20:00
Ваш сертификат

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Прикладная аналитика на R»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018г.

онлайн-образование

Сертификат №0001

Константин Константинопольский

Успешно закончил курс «Прикладная аналитика на R»
Выполнено практических заданий: 16 из 16

Общество с ограниченной ответственностью “Отус Онлайн-Образование”

Город:
Москва

Генеральный директор ООО “Отус Онлайн-Образование”
Виталий Чибриков

Лицензия на осуществление образовательной деятельности
№ 039825 от 28 декабря 2018г.
Партнеры ждут выпускников этого курса