Как бороться с мультиколлинеарностью? | OTUS
⚡ Подписка на курсы OTUS!
Интенсивная прокачка навыков для IT-специалистов!
Подробнее

Курсы

Программирование
Python Developer. Professional
-3%
Разработчик на Spring Framework
-5%
iOS Developer. Professional
-8%
Golang Developer. Professional
-6%
Базы данных
-12%
Agile Project Manager
-5%
Android Developer. Professional
-11%
Microservice Architecture
-5%
C++ Developer. Professional
-5%
Highload Architect
-6%
JavaScript Developer. Basic
-8%
Backend-разработчик на PHP
-9%
C# Developer. Professional
-9%
Team Lead
-6%
Алгоритмы и структуры данных Разработчик программных роботов (RPA) на базе UiPath и PIX Unity Game Developer. Basic Разработчик голосовых ассистентов и чат-ботов Vue.js разработчик VOIP инженер NoSQL Супер-практикум по использованию и настройке GIT Symfony Framework iOS Developer. Basic Супер-интенсив «СУБД в высоконагруженных системах» Супер-интенсив "Tarantool"
Инфраструктура
DevOps практики и инструменты
-12%
Базы данных
-12%
Network engineer. Basic
-10%
Network engineer
-4%
Экcпресс-курс «ELK»
-10%
Инфраструктурная платформа на основе Kubernetes
-6%
Administrator Linux.Basic
-10%
Экспресс-курс «CI/CD или Непрерывная поставка с Docker и Kubernetes»
-30%
Дизайн сетей ЦОД
-13%
PostgreSQL
-8%
Разработчик программных роботов (RPA) на базе UiPath и PIX Reverse-Engineering. Professional Внедрение и работа в DevSecOps Administrator Linux. Advanced Infrastructure as a code in Ansible Супер - интенсив по паттернам проектирования Супер - интенсив по Kubernetes Экспресс-курс «IaC Ansible»
Специализации Курсы в разработке Подготовительные курсы
+7 499 938-92-02

Как бороться с мультиколлинеарностью?

DS_Deep_29.11_site-5020-d4f2a0.png

Как известно, уменьшение размерности применяется в машинном обучении в двух целях: для визуализации (чтобы данные с большим количеством признаков можно было отобразить в двух- или трёхмерном пространстве) и для уменьшения количества переменных.

Второе применение является более фундаментальным, базовым и основным. Здесь уместно вспомнить курс школьной математики, а точнее, систему уравнений, в которой переменных было больше, чем самих уравнений. И решить его в школьные годы мы, разумеется, не могли.

Похожую аналогию можно провести и с задачами по Machine Learning, когда в количественном отношении данных меньше, чем признаков. Обучить такую модель достаточно сложно, да и хорошо работать она, скорее всего, не будет. Вдобавок ко всему, при увеличении размерности задачи данные приобретают сложно анализируемый для модели характер.

Продолжая говорить о базовых вещах, нельзя не вспомнить о понятии мультиколлинеарности. Когда в матрице признаков какие-то признаки являются линейной комбинацией друг друга — это называется сильной коллинеарностью (грубо говоря, можно выразить один признак через другой), а когда речь идёт о сильной корреляции — это слабая или частичная коллинеарность, что тоже плохо. Такая задача решается очень неустойчиво.

Как бороться с мультиколлинеарностью?

Один из подходов — уменьшить размерность, но не просто выкинуть переменные, а перейти к другим переменным. Другой подход борьбы с мультиколлинеарностью — всем известная регуляризация:

L1 — lasso regression: DS1-20219-a03de5.jpgL2 — ridge regression: DS2-20219-00acf5.jpgШтрафуя модель, мы ограничиваем то количество решений, которое в случае с мультиколлинеарностью слишком велико или бесконечно, некоторым набором решений. Да, в результате мы получаем несколько смещённую оценку, но она смещена не сильно. Таким образом от глобальной проблемы (задачу решить в принципе нельзя) мы переходим к конкретному результату, когда задача решена не самым оптимальным способом, но, тем не менее, устойчивое решение мы нашли.

Вообще, можно показывать очень интересные вещи с матричными фокусами, однако об этом пойдёт разговор в лекции про сингулярное разложение SVD. Если не хотите её пропустить, записывайтесь на курс «Data Scientist» в OTUS!

Есть вопрос? Напишите в комментариях!

Не пропустите новые полезные статьи!

Спасибо за подписку!

Мы отправили вам письмо для подтверждения вашего email.
С уважением, OTUS!

Автор
0 комментариев
Для комментирования необходимо авторизоваться