Конструирование признаков

Новая программа «Конструирование признаков»
Мастер-классы «Конструирование признаков»
4
0

Мастер-класс будет интереен специалистам по Data Science, маркетологам, бизнес-аналитикам и всем кому интересны вопросы "Конструирования признаков".

Цель мастер-класса
Научить конструировать новые признаки и осознанно настраивать гиперпараметры для улучшения качества моделей.

Кейсы примеров:
конкурсная задача ОТП Банка, Tinkoff DataScience Challenge, задача Росбанка.

Длительность: 2 часа.

Программа
Мастер-класс
Во время занятия мы разберем что такое:
- Описание методов случайного леса и градиентного бустинга;
- Количество деревьев в ансамбле;
- Темп обучения;
- Глубина и минимальное количество наблюдений в терминальном узле;
- Гиперпараметры для дополнительной рандомизации;
- Типы гистограммирования.

Вы узнаете как:
- Оценивать качество модели;
- Настраивать гиперпараметры случайного леса и градиентного бустинга;
- Определять количество случайно отбираемых предикторов.

А также мы расскажем о том, что такое:
- Feature engineering;
- Получение информации о ценности переменной для feature engineering;
- Недостатках метрик важности и способы коррекции;
- Биннинг категориальных предикторов;
- Способ кодировки категориальных предикторов;
- Преобразование категориальных предикторов в количественные для улучшения качества модели.

Вы узнаете о важности:
- предиктора на основе усредненного уменьшения неоднородности,
- предиктора на основе усредненного уменьшения качества прогнозирования.

И, в заключение:
- Feature engineering с помощью агрегации правил разбиения (подходы, реализованные в пакетах R inTrees и RandomForestExplainer);
- Feature engineering с помощью кластерного анализа;
- Feature engineering с помощью изолирующего леса;
- Особенности обработки редких категорий. Подход Хоторна-Цайляйса.

- Биннинг количественных предикторов;
- Работа с несбалансированными наборами данных;
- Два подхода к решению проблемы дисбаланса классов: присвоение весов и семплинг;
- Присвоение весов и семплинг в современных реализациях случайного леса для R и Python;
- Схемы настройки гиперпаметров случайного леса и градиентного бустинга «кольцо» и «спираль».
Оценить занятие
1
0
Минимальные требования для прохождения курса

Навыки программирования на R и Python

Преподаватели
Артем Груздев
Директор ИЦ «Гевисста». Исследовательский центр «Гевисста» с 2009 г. осуществляет разработку, валидацию, внедрение и мониторинг риск-моделей, моделей оттока, моделей отклика на базе IBM SPSS Statistics, IBM SPSS Modeler, SAS Enterprise Miner, SAS Enterprise Guide, R, Python. Осуществляет подготовку специалистов в сфере прогнозного моделирования и анализа данных. Основное направление – разработка новых высокоточных и одновременно интерпретируемых алгоритмов машинного обучения. Клиентами являются Citibank N.A., TransUnion, DBS Bank и Banco Galicia.

Спикер семинаров и конференций:

Citibank New York. 21-22 сентября 2017 года. Improvement of black-box model transparency: treeinterpreter, LIME, xgboostExplainer and randomForestExplainer, Aysen Tatarinov's heuristics and partial dependency plots.

Wells Fargo New York. 16-17 августа 2017 года. Applying of regularized random forest, LightGBM and xgboost for credit scoring: comparative analysis.

CleverDATA & Harvard Business Review. 18 декабря 2015 года. Бизнес-завтрак на тему «Управление внешними данными. Легитимность использования и сбора внешних данных о клиенте».Спикер по теме "Источники модельного риска в банковском скоринге".
http://cleverdata.ru/data-hunt-hbr_event/

ИД "Регламент". 25 - 26 октября 2012 года. Практический семинар "Управление кредитным риском в коммерческом банке: практика построения рабочей модели".
Спикер по теме "Статистические методы кредитного скоринга: практика оценки кредитоспособности заемщика"
http://www.reglament.net/seminar_72.htm

Автор книг:

"Прогнозное моделирование в IBM SPSS Statistics, R и Python. Метод деревьев решений и случайного леса"
http://dmkpress.com/catalog/computer/data/978-5-97060-539-4/

В сентябре 2018 года планируется выход новой книги "Древовидные алгоритмы в R и Python".

Автор публикаций:

Груздев А.В. Способы улучшения интерпретабельности прогнозных моделей случайного леса // Риск-менеджмент в кредитной организации. 2017. №4.

Груздев А.В. Способы улучшения интерпретабельности прогнозных моделей случайного леса // Риск-менеджмент в кредитной организации. 2017. №3

Груздев А.В. Стратегии регрессионного моделирования // Риск-менеджмент в кредитной организации. 2017. №1

Груздев А.В. Предварительная подготовка данных перед построением модели логистической регрессии // Риск-менеджмент в кредитной организации. 2016. №4

Груздев А.В. Источники модельного риска в банковском скоринге // Риск-менеджмент в кредитной организации. 2016. №2

Груздев А.В. Источники модельного риска в банковском скоринге // Риск-менеджмент в кредитной организации. 2015. №4

Ведущий авторских курсов по прогнозному моделированию:

30-часовой курс «Прогнозное моделирование в R, Python и H2O»
30-часовой курс «Построение скоринговых моделей: от формирования выборки до внедрения и мониторинга»

Переводчик книг:

Майкл Хейдт. Изучаем pandas
http://dmkpress.com/catalog/computer/programming/python/978-5-97060-625-4/

Андреас Мюллер и Сара Гвидо. Введение в машинное обучение с помощью Python
https://www.ozon.ru/context/detail/id/140891479/

Райан Митчелл. Скрапинг веб-сайтов с помощью Python
http://dmkpress.com/catalog/computer/programming/python/978-5-97060-223-2/

Дуглас Люк. Анализ сетей (графов) в среде R. Руководство пользователя
http://dmkpress.com/catalog/computer/statistics/978-5-97060-428-1/

LinkedIn https://www.linkedin.com/in/artyom-gruzdev-1b5014146/
Facebook https://www.facebook.com/groups/gewissta
0 комментариев
Для комментирования необходимо авторизоваться