Прямой и обратный отбор в ML
Прямой отбор в машинном обучении представляет собой технику, которая заключается в использовании пошаговой регрессии. При этом построение модели в данном случае начинается с полного нуля, то есть речь идет о пустой модели, к которой каждая последующая итерация добавляет переменную, вносящую улучшение в создаваемую модель.
На практике все вышеописанное может рассчитываться посредством разнообразных метрик. Наиболее распространенный способ — применение p-значений, которые получены в изначальной статистической модели с применением всех переменных. В некоторых случаях прямой отбор приводит к переобучению модели, так как в модели иногда оказываются сильно коррелированные переменные, причем даже в том случае, если они предоставляют ту же самую информацию модели, однако модель при всем при этом показывает улучшение.
Обратный отбор
Скажем несколько слов и про обратный отбор. Он тоже заключается в поэтапном исключении признаков, но это происходит в противоположном направлении, если сравнивать с прямым отбором. То есть в данной ситуации начальная модель включает все независимые переменные. Далее переменные исключаются (по одной переменной за каждую итерацию), что происходит в том случае, если эти переменные не несут никакой ценности для новой регрессионной модели. При этом в основе исключения признаков находятся показатели p-значений изначальной модели.
Остается добавить, что в этом методе тоже существует неопределенность при удалении слишком сильно коррелированных переменных.
По материалам: https://pub.towardsai.net/feature-selection-in-machine-learning-3b2902852933.