07.05.21 в 20:36

Прямой и обратный отбор в ML

Machine Learning → Полезные материалы по Machine Learning

Теги: прямой отбор, обратный отбор, p-значения

Прямой отбор в машинном обучении представляет собой технику, которая заключается в использовании пошаговой регрессии. При этом построение модели в данном случае начинается с полного нуля, то есть речь идет о пустой модели, к которой каждая последующая итерация добавляет переменную, вносящую улучшение в создаваемую модель. То, как именно переменная добавляется в модель, определяют ее значимостью.

На практике все вышеописанное может рассчитываться посредством разнообразных метрик. Наиболее распространенный способ — применение p-значений, которые получены в изначальной статистической модели с применением всех переменных. В некоторых случаях прямой отбор приводит к переобучению модели, так как в модели иногда оказываются сильно коррелированные переменные, причем даже в том случае, если они предоставляют ту же самую информацию модели, однако модель при всем при этом показывает улучшение.

Обратный отбор

Скажем несколько слов и про обратный отбор. Он тоже заключается в поэтапном исключении признаков, но это происходит в противоположном направлении, если сравнивать с прямым отбором. То есть в данной ситуации начальная модель включает все независимые переменные. Далее переменные исключаются (по одной переменной за каждую итерацию), что происходит в том случае, если эти переменные не несут никакой ценности для новой регрессионной модели. При этом в основе исключения признаков находятся показатели p-значений изначальной модели.

Остается добавить, что в этом методе тоже существует неопределенность при удалении слишком сильно коррелированных переменных.

По материалам: https://pub.towardsai.net/feature-selection-in-machine-learning-3b2902852933.

Системный и бизнес-анализ

Прямой и обратный отбор в ML

Обратный отбор