Повышение интерпретируемости моделей типа «черный ящик»

Новая программа «Способы повышения интерпретируемости моделей типа «черный ящик»»
Мастер-классы «Способы повышения интерпретируемости моделей типа «черный ящик»»
4
1

Мастер-класс будет интереен специалистам по Data Science, маркетологам, бизнес-аналитикам.

Вы научитесь:
- объяснять прогнозы моделей «черного ящика» (случайный лес и градиентный бустинг),
- с помощью информации моделей «черного ящика» улучшать модели «белого ящика».

О машинном обучении сейчас не говорит только ленивый. Однако почему до сих пор довольно мало успешных историй внедрений, почему стала расхожа фраза «ML – это хайп»? Ответ – недостаток доверия со стороны бизнеса.

Сейчас стали популярны ансамбли деревьев, нейронные сети, они дают более лучшее качество прогнозирования, но встает вопрос, как их интерпретировать, ведь бизнесу нужны понятные, интерпретируемые модели, если мы не можем чего-то понять, мы этому не доверяем.

Представьте: вы строите бизнес-модель. Ваша задача – спрогнозировать риск дефолта. Здесь стоимость неправильного решения довольно высока, кредит, выданный «плохому» заемщику, обратно не вернешь, и ушедшего клиента, который был неверно спрогнозирован как лояльный, возвратить трудно, поэтому требуется высокая интерпретабельность модели, чтобы понять, какова взаимосвязь между анализируемыми характеристиками клиента и событием (оттоком, дефолтом, откликом), почему прогнозируется именно такая вероятность события.

Мы построили логистическую регрессию или дерево CHAID. С точки зрения интерпретации здесь все прекрасно. В логистической регрессии взаимосвязь между характеристикой клиента и дефолтом показывает знак соответствующего коэффициента, в деревьях решений CHAID мы смотрим на правила разбиения, использующие ту или иную характеристику, и вероятности «плохих» и «хороших» заемщиков в узлах, полученных с помощью этих правил.

Однако нам хочется достичь более высокой предсказательной способность модели. Строим случайный лес или нейронную сеть. Получаем прекрасное качество прогнозирования, но как объяснить эти прогнозы, как восстановить взаимосвязи между характеристиками и предсказываемым событием в модели «черного ящика».

Способы есть. Об этом и поговорим на мастер-классе.

Особенности
Реальные кейсы, подробное освещение работы с пакетами, treeinterpreter, xgboostExplainer, randomForestExplainer, inTrees, LIME.

Ваши материалы после занятия
Презентация + R скрипты + Jupiter ноутбуки.

Длительность: 2 часа.

Программа
Мастер-класс
Вы научитесь:
- осознанно (а не по принципу «если долго мучится, что-нибудь получится») конструировать новые переменные,
- настраивать гиперпараметры для улучшения моделей на основе ансамблей деревьев
Оценить занятие
2
0
Минимальные требования для прохождения курса

Навыки программирования на R и Python

Преподаватели
Артем Груздев
Директор ИЦ «Гевисста». Исследовательский центр «Гевисста» с 2009 г. осуществляет разработку, валидацию, внедрение и мониторинг риск-моделей, моделей оттока, моделей отклика на базе IBM SPSS Statistics, IBM SPSS Modeler, SAS Enterprise Miner, SAS Enterprise Guide, R, Python. Осуществляет подготовку специалистов в сфере прогнозного моделирования и анализа данных. Основное направление – разработка новых высокоточных и одновременно интерпретируемых алгоритмов машинного обучения. Клиентами являются Citibank N.A., TransUnion, DBS Bank и Banco Galicia.

Спикер семинаров и конференций:

Citibank New York. 21-22 сентября 2017 года. Improvement of black-box model transparency: treeinterpreter, LIME, xgboostExplainer and randomForestExplainer, Aysen Tatarinov's heuristics and partial dependency plots.

Wells Fargo New York. 16-17 августа 2017 года. Applying of regularized random forest, LightGBM and xgboost for credit scoring: comparative analysis.

CleverDATA & Harvard Business Review. 18 декабря 2015 года. Бизнес-завтрак на тему «Управление внешними данными. Легитимность использования и сбора внешних данных о клиенте».Спикер по теме "Источники модельного риска в банковском скоринге".
http://cleverdata.ru/data-hunt-hbr_event/

ИД "Регламент". 25 - 26 октября 2012 года. Практический семинар "Управление кредитным риском в коммерческом банке: практика построения рабочей модели".
Спикер по теме "Статистические методы кредитного скоринга: практика оценки кредитоспособности заемщика"
http://www.reglament.net/seminar_72.htm

Автор книг:

"Прогнозное моделирование в IBM SPSS Statistics, R и Python. Метод деревьев решений и случайного леса"
http://dmkpress.com/catalog/computer/data/978-5-97060-539-4/

В сентябре 2018 года планируется выход новой книги "Древовидные алгоритмы в R и Python".

Автор публикаций:

Груздев А.В. Способы улучшения интерпретабельности прогнозных моделей случайного леса // Риск-менеджмент в кредитной организации. 2017. №4.

Груздев А.В. Способы улучшения интерпретабельности прогнозных моделей случайного леса // Риск-менеджмент в кредитной организации. 2017. №3

Груздев А.В. Стратегии регрессионного моделирования // Риск-менеджмент в кредитной организации. 2017. №1

Груздев А.В. Предварительная подготовка данных перед построением модели логистической регрессии // Риск-менеджмент в кредитной организации. 2016. №4

Груздев А.В. Источники модельного риска в банковском скоринге // Риск-менеджмент в кредитной организации. 2016. №2

Груздев А.В. Источники модельного риска в банковском скоринге // Риск-менеджмент в кредитной организации. 2015. №4

Ведущий авторских курсов по прогнозному моделированию:

30-часовой курс «Прогнозное моделирование в R, Python и H2O»
30-часовой курс «Построение скоринговых моделей: от формирования выборки до внедрения и мониторинга»

Переводчик книг:

Майкл Хейдт. Изучаем pandas
http://dmkpress.com/catalog/computer/programming/python/978-5-97060-625-4/

Андреас Мюллер и Сара Гвидо. Введение в машинное обучение с помощью Python
https://www.ozon.ru/context/detail/id/140891479/

Райан Митчелл. Скрапинг веб-сайтов с помощью Python
http://dmkpress.com/catalog/computer/programming/python/978-5-97060-223-2/

Дуглас Люк. Анализ сетей (графов) в среде R. Руководство пользователя
http://dmkpress.com/catalog/computer/statistics/978-5-97060-428-1/

LinkedIn https://www.linkedin.com/in/artyom-gruzdev-1b5014146/
Facebook https://www.facebook.com/groups/gewissta
0 комментариев
Для комментирования необходимо авторизоваться