Несколько дней новогоднего волшебства:
Успейте начать обучение в 2018-ом году со скидкой до 30%!
Выбрать курс

Ансамбли моделей

DataScientist_Deep_1.08_Site.png

Ансамблирование моделей – в машинном обучении техника для улучшения качества предсказаний. Основная идея заключается в том, что отдельно обучаются несколько моделей, а далее их предсказания усредняются. Давайте разберём, почему вообще это работает.

Представим, что решаем задачу регрессии, и мы обучили n-моделей, каждая из которых имеет ошибку ϵi. Будем считать, что все ошибки распределены по нормальному закону с нулевым средним: Снимок_экрана_2018_09_28_в_10-5020-81cc8b.33.45.pngдисперсией:Снимок_экрана_2018_09_28_в_10-5020-d8448e.33.51.pngи ковариацией:Снимок_экрана_2018_09_28_в_10-5020-df70f3.33.59.png

Средняя ошибка предсказаний ансамбля моделей равна следующему выражению: Снимок_экрана_2018_09_28_в_10-5020-e0fad2.35.49.pngРаспишем математическое ожидание квадрата этой ошибки и получим следующее равенство: Снимок_экрана_2018_09_28_в_10-5020-3b0b24.35.56.pngПравая часть формулы позволяет сделать интересные наблюдения: – если c=v, что означает – ошибки разных моделей идеально коррелированы, то мы получим, что квадрат ошибки никак не изменится, – если c=0, когда предсказания моделей не скоррелированы, то мы получим линейное уменьшение ошибки с ростом количества моделей в ансамбле, – в промежуточных значениях, мы получаем уменьшение ошибки.

Таким образом можно сделать выводы: – ансамблирование моделей с одинаковыми ошибками не уменьшает ошибку ансамбля, – чтобы получить значительное уменьшение ошибки мы должны ансамблировать модели, в которых предсказания, а следовательно и ошибки, сильно отличаются.

Приёмы, с помощью которых можно получить модели с некоррелированными предсказаниями: – обучить модели на разных поднаборах данных, – обучить модели на разных поднаборах признаках, – обучить модели с разной начальной инициализацией параметров, – обучить разные типы моделей модели.

Данные приёмы очень активно применяются в соревнованиях по анализу данных. Таким образом, мы рассмотрели простой и эффективный способ повышения качества модели.

Есть вопрос? Напишите в комментариях!

Автор
2 комментария
1

Что это за квадратики?

0

спасибо! поправили!

Для комментирования необходимо авторизоваться